УДК 004.93:159.95
Б01: 10.15587/2312-8372.2018.149962
РОЗРОБКА МЕТОДУ ФШЬТРАЦП ВЕРБАЛЬНОГО ШУМУ В ПРОЦЕС1 ПОШУКУ КЛЮЧОВИХ СЛ1В АНГЛОМОВНОГО ТЕКСТ,
Бкжало О. В., Яхимович О. В., Яхимович Я. В.
1. Вступ
У даний час обсяги i динамша iнформацii, яка шдлягае обробцi в лексикогра-фii та термшознавств^ а також в задачах шформацшного пошуку, роблять особливо актуальною задачу автоматичного визначення ключових слiв. Дуже активно у сучасних iнформацiйних технолопях (1Т) використовують ключовi слова для створення i розвитку термшолопчних ресурсiв, для ефективноi обробки докумен-тiв, зокрема, iндексування, реферування, кластеризацii та класифiкацii [1].
1снуе велика кiлькiсть доступних систем автоматичного видшення ключових слiв, розроблених i орiентованих на обробку природних мов. Ц системи заснованi на певних методах визначенн' лючових ^в, якi дiляться на лшгас-тичш та статистичнi. Лiнгвiстичнi методи грунтуються на значеннях слiв, зокрема, використовують онтологп та семантичнi даш про слово. Цi методи ресур-соемш на раннiх етапах: розробка онтологш, наприклад, вельми трудомiсткий процес [1]. З шшого боку, статистичш методи супроводжуються значними об-сягами «вербального шуму», який суттево впливае на якiсть визначення ключових ^в. Тому найбiльш перспективними для дослщження е гiбриднi методи, для яких швидюсть статистичноi обробки тексту шдсилюеться можливостями сучасних лiнгвiстичних пакепв.
Актуальнiсть та практична цiннiсть напряму до^джень полягае у тому, що знайденi ключовi слова можна використати для шдвищення точностi аналь зу контенту сайту i пiдняття позицп сайту в результатах пошуку.
Ключове слово - слово в текст^ здатне в сукупностi з шшими ключовими словами представляти текст. Набiр ключових слiв близький до анотацп, плану i конспекту, якi теж представляють документ з меншою детаизащею, але, на вь дмiну вщ ключових слiв, пов'язанi у синтаксичш структури.
Вербальний шум або шумовi слова - термiн з теорп пошуку iнформацii за ключовими словами. Це таю слова, як не несуть смислового навантаження, тому !'х користь та роль для пошуку не суттева [2].
В процеш обробки проводиться виключення з дослщжуваного тексту слш, якi за визначенням не можуть бути значущими тому, що складають «шум». На вщмшу вiд ключових цi слова називаються нейтральними або стоповими (стоп словами). Такими е слова, що вщносягься до службових частин мови, а також займенники [3].
2. Об'ект дослiдження та його технолопчний аудит
Об'ект дослгдження - процес обробки вербально!' iнформацii для визначення ключових ^в в текста
Предмет дослгдження - методи знаходження ключових сив в тексту а та-кож пiдходи до зменшення вербального шуму в процес пошуку ключових сив.
Ключовi слова мають ряд суттевих ознак:
- високий ступшь повторюваносп даних слш у текст!, частотнють !х вживання;
- здатнють знака (слова як вербальни ознаки певного поняття) конденсу-вати, згортати шформацш, виражену цiлим текстом, об'еднувати «його основ-ний змют». Ця ознака особливо яскраво проявляеться у ключових словах у по-зицп заголовку.
Наявнють правильно пiдiбраного набору ключових ^в дозволить:
а) швидше знайти статтю користувачевi при пошуку по базi даних;
б) побачити статтю при переглядi iнших схожих статей;
в) швидше зрозумгти тематичну i термiнологiчну область як одше! статтi, так i журналу в цшому.
Все це служить однш метi: привернути увагу читачiв до стати, яка е осно-вним завданням будь-якого засобу масово! шформацп [4].
Однак вибiр ключових ^в е дуже непростою операцiею i вимагае зваже-ного пiдходу. Сшд вибирати тi ключовi слова, як найбiльш точно вщобража-ють специфжу розглянуто! теми. При цьому необхщно уникати випадкових i загальних фраз, не рекомендуеться повторювати кiлька разiв однi й тi ж ключо-вi слова. Отже, процес пошуку ключових ^в е аналiтичним [5].
3. Мета та задачi дослщження
Мета роботи полягае у шдвищенш точностi визначення ключових слiв з анг-ломовного тексту на основi розробки методу зменшення впливу вербального шуму.
Для досягнення поставлено! мети необхщно виршити такi задачi:
1. Розглянути шдходи до зменшення вербального шуму при знаходженш ключових ^в.
2. Обчислити чисельнi показники зв'язюв мiж словами та проаналiзувати отримаш результати як основу методу.
3. Формашзувати операцп для кожного етапу методу та визначити кiлькiснi характеристиками релевантносп отриманих результатiв в порiвняннi з аналогами.
4. Дослiдження кнуючих р1шень проблеми
Серед основних напрямiв вирiшення задачi пошуку ключових ^в в текстi, виявлених в ресурсах свгтово! науково! перiодики, можуть бути видшеш [6, 7]. Для вщдшення одиночних ключових слiв використовуеться методи на основi закону Ципфа. Такi методи залежать вiд установки дiапазону частот, в яких знахо-дяться значущi для тексту слова. Так як слова, як трапляються дуже часто, в основному виявляються вербальним шумом, а слова, що зустрiчаються рiдко, в бь льшостi випадкiв, не мають виршального смислового значення. Тому в кожному окремому випадку необхщно використовувати ряд евристик для визначення ши-рини дiапазону, а також методик, що зменшують вплив ще! ширини. Одним iз способiв, як зазначено в робот [8], е виключення, з кандедалв у ключовi слова, ^в, якi не можуть бути значущими тому, що складають шум. Але у цш роботi не розглянуто зменшення шуму на основi синтаксично! шформацп.
Робота [9] присвячена покращенню результапв розрахунку ваг термтв на ochobí алгоритму TF-IDF. Однак загальною рисою таких систем е те, що вони вимагають наявностi iнформацii, отримано! з уше! колекцп документiв. 1ншими словами, якщо метод, заснований на TF-IDF, використовуеться для створення уявлення про документ, то надходження нового документа в колекщю вимагае перерахунку ваг термтв у вшх документах. Отже, будь-як додатки, заснованi на значеннях ваг термтв у документi, також будуть зачеплеш. Це значною мь рою перешкоджае використанню методiв вилучення ключових термшв, що вимагають навчання, в системах, де динашчш потоки даних повинш оброблятися в режимi реального часу [10].
Для виршення цiеi проблеми було запропоновано алгоритм TF-ICF, зазна-чений в робот [11]. Як розвиток ще! iдеi в [12, 13] запропоновано використову-вати в якостi навчального тезауруса Вiкiпедiю. Для розрахункiв застосовуеться шформащя, що мiститься в анотованих статтях енциклопедп з вручну видше-ними ключовими термiнами. Проте, не враховуеться порядок проходження те-рмтв у документi та синтаксична роль.
Альтернативний варiант вирiшення проблеми, викладений в [14], передба-чае використання лшгвютичних онтологiй, якi е бшьш-менш наближеними моделями юнуючого набору слiв задано! мови. Однак щ методи ресурсоемнi на раншх етапах: розробка онтологiй вельми трудомюткий процес.
Метод, що служить для автоматичного формування тематичного корпусу з WEB показано в [15]. Однак вщбором управляе порогове значення вщносин частот термтв.
Автори роботи [16] тдкреслюють важливють використання в якост кан-дидатiв в ключовi слова iменних груп, видiлених за допомогою синтаксичного аналiзатора. Хоча це твердження може бути розглянуто зi сторони шших син-таксичних одиниць, що використовуються при визначеннi ключових ^в.
Seotool - безкоштовний онлайн сервю, що допоможе перевiрити, чи реле-вантний написаний текст ключовим словам (згенерувавши автоматично ключi за вказаним текстом). Це допоможе отримати бшьш високий рейтинг в пошуко-вих системах Яндекс i Google, так як сторшка матиме ключовi слова, вщповщш змiсту сторiнки, на якш розмiщенi. Також даний сервiс допоможе у генерацп семантичного ядра сайту (при включеному режимi прибирати HTML код). Проте у генерацп ключових ^в i фраз використовуються тшьки першi тисячу слiв введеного тексту.
С можливють вiдсоткового порiвняння слiв з шаблоном. Слова анаизова-ного тексту (контенту) будуть в процентному стввщношенш порiвнюватися зi списком ^в всього шаблону (тексту) шляхом морфолопчного аналiзу. При вь дповщност вiдсотковоi рiвностi з будь-яким зi слiв шаблону слово враховуеться, шакше - не враховуеться. Максимальна кшьюсть слiв шаблону не повинно перевищувати 250 слiв [17].
Rise-Top допоможе скласти «начерки» ключових ^в для сайту на основi використання для анаизу вказаного тексту. В якост вiдбору ключових слiв за-стосовуються слова з найбiльш високою щшьшстю в порядку зменшення
щшьносл до всього тексту [18]. Але у генерацн ключових слiв так само вико-ристовуються тiльки першi 1000 слiв обробленого тексту.
Advego (Адвего) - найбiльший в Рунет постачальник контенту i супутнiх послуг для штернет-сайта. Для оптимiзаторiв i власникiв сайтiв пропонуються унiкальнi статл, вiдгуки, публiкацii. Забеспечуеться просування в пошукових системах та розкрутка в соцмережах. Ресурс також мае можливють визначати ключовi слова [19].
Таким чином, результати анашзу дозволяють зробити висновок про те, що питання щодо розробки методу фiльтрацii вербального шуму в процес пошуку ключових ^в е перспективним та потребуе подальшого вивчення.
5. Методи дослщження
Для пiдвищення точностi визначення ключових ^в задiянi статистичнi методи обробки тексту, швидюсть роботи яких тдсилюеться можливостями сучасних лiнгвiстичних пакетiв.
Одним з таких пакета е DKPro Core - це набiр програмних компонента для обробки природноi мови, заснований на Apache UIMA framework.
Пакет DKPro Core - це бшьше, шж деяка множина компонента аналiзу, якi взаемодiють мiж собою. Вш був побудований з метою тдвищення продуктивно-стi дослiдникiв, що працюють з автоматичним аналiзом мови. Шдхщ DKPro Core полягае в тому, що дослщники повинн ю, ивють зосередитися на своiх
реальних наукових питаннях, а не на розробщ вiдповiдних технологiй [20].
Кшьюсними характеристиками релевантностi отриманих результата, на основi аналiзу лiтератури, обрано повноту (за Жаккаром i абсолютну) i точнiсть (за евклiдовою i манхеттенською вiдстанями). Проведено iнтерпретацiю обра-них критерiiв до умов задачi визначення ключових слiв.
Повнота за Жаккаром, в даному випадку, визначаеться для двох множин ключових ^в - заданоi автором (еталонноi) та визначеноi програмно, дорiвнюе вiдношенню кшькост елементiв перетину цих множин до кшькост елементiв !'х об'еднання. Тобто, це частка вщ дiлення, де в чисельнику знаходиться кшьюсть правильно знайдених програмою ключових слiв, а в знаменнику - рiзниця суми елемента в двох множинах i кiлькостi знайдених правильно ключових ^в.
Абсолютна повнота знаходиться як вщношення кiлькостi правильно знайдених програмою ключових ^в до кiлькостi ключових ^в.
Евклiдова вiдстань визначаеться за формулою:
п
2
де п- кшькють ключових сл1в;
Xj - позищя 1 -го ключового слова, визначеного автором; у,- - позищя 1 -го ключового слова, визначеного програмно. Манхеттенська вщстань визначаеться за формулою:
i=1
Застосування пари формальних критерiiв i для повноти, i для T04H0CTi, дозволить бшьш об'ективно оцiнити релевантнiсть отриманих результапв пошуку ключових слiв.
6. Результати досл1дження
Згiдно з [21] пропонуеться такий пiдхiд до визначення ключових ^в, що вщбуваеться за три основних етапи:
1) створення багаторiвневоi розмiтки тексту;
2) застосування синтаксичноi розмiтки, що враховуе складнi залежност мiж парами лем;
3) зменшення вербального шуму.
Сутнiсть пiдходу, на вщмшу вiд вiдомих аналогiв, полягае у визначенш кь лькостi зв'язюв для окремих слiв i подальшим вибором перших n слiв з найбь льшою кiлькiстю зв'язкiв, де n - кiлькiсть потрiбних ключових ^в.
Створення багаторiвневоi розмiтки тексту i синтаксична розмiтка, що враховуе складш залежностi мiж парами лем досягаеться засобами DKPro Core [20].
Фшьтращю вербального шуму пропонуеться забезпечити за допомогою таких операцш:
- замiна займенникiв на вщповщш до них iменники;
- вилучення шумових зв'язкiв;
- вилучення шумових ^в;
- вилучення стоп ^в.
Замiна займенникiв на вiдповiднi до них iменники (replace pronouns) до-зволяе зменшити кiлькiсть займенникiв, а також збшьшити кiлькiсть iменникiв, як можуть бути ключовими словами. Для методу зменшення вербального шуму при визначенш ключових ^в англомовного тексту, що пропонуеться, замь на займенниюв здшснюеться засобами DKPro Core [20].
Розглянемо вилучення словосполучень iз типами зв'язмв, якi не несуть суттевого смислового навантаження. Внаслiдок до^дження виявлено, що такими зв'язками е DET, EXPL, FIXED, PUNCT, REF, ROOT.
DET - зв'язок визначника, що юнуе мiж номшально головним словом та його визначником. Найчастше, слово, яке мае тег частини мови DET, буде мати такий же зв'язок визначника DET i навпаки. Вщомим винятком е те, що у деяких з набо-рiв даних присвiйний визначник (наприклад, такий як «my») у певний момент отримуе тег частини мови DET, але зв'язок NMOD, що е паралеллю до шших при-свiйних конструкцiй. Але це не повнютю однаково для рiзних мов, у деяких мовах набагато чiткiше, нiж на англiйськiй, виражено те, як присвшт визначники вщно-сяться до прикметникiв, тому вщношення NMOD не пiдлягае сумнiву [22].
Приклади DET зв'язкiв наведено на рис. 1.
Ги !
1 The man is here
r ^f I i I I
2 Which book do you prefer ?
Рис. 1. Приклади шумових зв'язкiв DET
EXPL - це вiдношення, що фжсуе BCTaBHi або плеонастичнi номiнали. Таю номшали з'являються в aргументнiй позицп предиката, але не виконують шяко! з семантичних ролей предиката. Основний предикат речення ^еслово або пре-дикатний прикметник або iменник) е головним словом. В англшсьюй мовi це стосуеться деяких способiв використання it i there: екзистенцiaльне there, а та-кож it при використанш в експозицiйних конструкцiях [23].
Деяю мови не мають таких, подiбних aнглiйському, висловiв, це стосуеться бшьшост мов pro-drop (мова, в яюй певнi класи займенниюв можуть бути опущенi, коли вони прагматично або граматично шерцшш). Також це явище часто називають нуль або нульовою анафорою [24]. У мовах з подiбними ви-словами вони можуть бути розташоваш там, де зазвичай з'являеться основний аргумент: шдмет та прямий (i, навггь, непрямий) додаток [25].
Приклади EXPL зв'язюв наведено на рис. 2.
jeru SJLIAJL
1| There is a ghost in the room
4 ■ ■ ■□ i__i_p
2 It is clear that we should decline .
Рис. 2. Приклади шумових зв'язюв EXPL
FIXED - використовуеться для певних сталих граматичних вирaзiв, яю ве-дуть себе як функщональш слова або коротю при^вники.
Стaлi бaгaтослiвнi вирази анотовано у рiвнiй структурi, де всi наступи слова у вирaзi прикрiпленi до першого з використанням стало!' мггки. Припу-щення полягае в тому, що щ вирази не мають внутршньо! синтаксично! струк-тури (о^м з юторично! точки зору) i що структурна aнотaцiя в принцип е до-вiльною. Однак, на практищ, дуже важливо використовувати послщовну анота-цiю всiх сталих багато^вних вирaзiв на всiх мовах [26].
Приклади FIXED зв'язюв наведено на рис. 3.
Рис. 3. Приклади шумових зв'язюв FIXED
PUNCT - використовуеться для позначення будь-яко1 частини пунктуацii в ре-ченш чи частинi тексту, якщо пунктуац1я зберiгаеться в типiзованих залежностях.
Токени з стввщношенням PUNCT завжди прикршлюються до змiсту слiв i школи не можуть мати залежностей. Оскшьки PUNCT не е нормальним вщно-шенням залежностей, звичайнi критерii визначення головного слова не застосо-вуються. Натомiсть використовуються такi принципи:
1. Знак пунктуацп, що роздiляе скоординоваш одиницi, додаеться до на-ступного зв'язку.
2. Знак пунктуацп, що передуе або слщуе за незалежною одиницею, додаеться до цiеi одиницi.
3. У межах вщповщного пiдроздiлу знак пунктуацii прикрiплюеться до найвищого можливого вузла, який збер^ае перспективу.
4. Парнi знаки пунктуацй (наприклад, цитати та дужки, iнодi також дефiси, коми тощо) мають бути доданi до одного слова, якщо це не порушуе перспективу [27].
Приклади PUNCT зв'язюв наведено на рис. 4.
1 y-punctK *jl> Go home !
2 fy-—coni^ ^ \ y-«punct-\ Jt y 0^*^^ ip^punct^p |ppipunct-s|p ^JT^t ^ We have apples , pears , oranges , and bananas .
3 y <punct-V *-punct»—^punct>-v jljlYjla jl V iirxi Der Mann , den Sie gestern kennengelernt haben , kam wieder
4 /«punct-v /-punetK y<punct-v /-punetK P P«punct>^ ßj[ (g ^ p ^ m 19№ BS 13 |§ □ Q"punct>fjjg 1 | p H^punct>® gppunct-^ Ji »punct- A.K.A. , AKA , or a/k/a may refer to : " Also known as " , used to introduce pseudonyms , aliases , etc. ( y-punCt» v /-punct» V \ V ^-^punct^. /-punctK \ \ » II □ - v I ill Compare f.k.a. for" formerly known as " . )
Рис. 4. Приклади шумових зв'язкiв PUNCT
REF - референт головного слова iменникового словосполучення, що е вщ-носним словом, яке вводить вщносне положення шляхом модифiкацii iменни-кового словосполучення. Наприклад для речення: «I saw the book which you bought», зв'язок REF буде мiж словами book i which [25].
ROOT - корневе граматичне вщношення, що вказуе на корiнь речення. Фейковий вузол ROOT використовуеться як головний вузол. Вузол ROOT мае шдекс 0, оскшьки шдексащя реальних ^в у реченнi починаеться з 1. У кожному деревi повинен бути тшьки один кореневий вузол. Якщо основний предикат вщсутнш, але е багато одиничних залежностей, то одне з них тдвишуеться до положення головного (кореневого), а до нього приеднуються iншi одинаки [28].
Приклад ROOT зв'язку наведено на рис. 5.
WOOtK
JL.iJI__1_Д,
Э1 ~гяп' h fries
Рис. 5. Приклади шумових зв'язкiв ROOT
Розглянемо вилучення шумових ^в, як вщносяться до неiнформaтивних частин мови, що мають теги: CC, CD, DT, EX, IN, LS, MD, PDT, POS, PRP, PRP$, RP, SYM, TO, UH, WDT, WP, WP$, WRB, -LRB-, -RRB -.
CC - координуючi сполучення: and, but, nor, or, yet, plus, minus, less, times (multiplication), over (division), also for (because), so (i. e., so that), &, 'n, both, either, et, neither, therefore, v., versus, vs., whether.
CD - номер, число, кшьюсть: one, two, 2, mid-1890, nine-thirty, forty-two, one-tenth, ten, million, 0.5, forty-seven, 1987, twenty, '79, zero, 78-degrees, eighty-four, IX, '60s, .025, fifteen, 271, 124, dozen, quintillion, DM2,000.
DT - визначник: a, an, every, no, the, another, any, some, all, both, del, each, either, half, la, many, much, nary, neither, such, that, them, these, this, those.
EX - екзистенщальне there: ненаголошений there, що викликае шверсш даеслова у вщповщнш формi та лопчного суб'екта. Наприклад: «There was a party in progress».
IN - прийменники або сполучники тдпорядкування: among, around, astride, atop, behind, below, by, despite, for, if beside, if like, inside, into, near, next, on, out, pro, throughout, towards, until, upon, whether, within.
LS - список, елемент, маркер, цифри та лггери, що використовуються як щентифкатори елеменлв у списку: A, A., B, B., C, C., D, E, F, First, G, H, I, J, K, One, SP-44001, SP-44002, SP-44005, SP-44007, Second, Third, Three, Two, *, a, b, c, d, first, five, four, one, six, three, two.
MD - модальт допомiжнi дiесловa. Bri дiесловa, як не приймають закш-чення -s у формi третьо! особи однини: can, could, dare, may, might, must, ought, shall, should, will, would, cannot, couldn't, need, ought, shouldn't.
PDT - префжсний визначник. Визначники, як елементи, що передують стати або присвшним займенникам: all, both, half, many, quite, such, sure, this. Наприклад: «all his marbles», «quite a mess».
POS - присвшне закшчення: iменники, що зактчуються маркером ' або 's.
PRP - особовий займенник: he, her, hers, herself, him, him, himself, hisself, I, it, itself, me, myself, one, oneself, ours, ourselves, ownself, self, she, she, thee, theirs, them, themselves, they, thou, thy, us, you.
PRP$ - присвшний займенник: her, his, its, mine, my, one's, our, ours, their, thy, your.
RP - частка. В основному односклaдовi слова, що також двосклaдовi в яко-сп при^вниюв напрямку: aboard, about, across, along, apart, around, aside, at, away, back, before, behind, by, crop, down, ever, fast, for, forth, from, go, high, i. e., in, into, just, later, low, more, off, on, open, out, over, per, pie, raising, start, teeth, that, through, under, unto, up, up-pp, upon, whole, with you.
SYM - символ. Техшчш символи або вирази, як не е словами (% & ' '' * + , . < = > @ A[fj] U.S U.S.S.R * ** ***).
TO - лггерал to, як прийменник або шфшггивний маркер.
UH - вигук: amen, anyways, baby, dammit, diddle, Goodbye, Goody, Gosh, heck, Hey, honey, howdy, Hubba, huh, hush, Jee-sus, Jeepers, Kee-reist, man, my, oh, Oops, please, shucks, sonuvabitch, uh, well, whammo, whodunnit, Wow, yes.
WDT - wh-визначник: that, what, whatever, which, whichever.
WP - wh-займенник: that, what, whatever, whatsoever, which, who, whom, whosoever.
> p$ - присвшний wh-займенник: whose.
WRB - wh-прислiвник, включаючи when, коли використовуеться в переносному значенш: how, however, whence, whenever, where, whereby, wherever, wherein, whereof, why.
-LRB- - вщкрита дужка.
-RRB- - закрита дужка [29-31].
Щодо вилучення ^в, як вiдносяться до списку стоп ^в - це питання вже було дослщжено. Список таких ^в для англомовних текста обгрунтовано i наведено в [32].
Прошюструемо результати визначення ключових ^в на кожному кроцi роботи методу, що пропонуеться на невеликому текст^ що складаеться з двох речень: «Born in Honolulu, Hawaii, Obama is a graduate of Columbia University and Harvard Law School, where he was president of the Harvard Law Review. He was a community organizer in Chicago before earning his law degree».
Знайдеш словосполучення i частини мови вщповщних ^в першого ре-чення наведено в табл. 1, а для другого - в табл. 2.
Таблиця 1
Словосполучення i частини мови вщповщни. сл1в першого речення
Born in Honolulu, Hawaii, Obama is a graduate of Columbia University and Harvard Law School, where he was president of the Harvard Law Review
Головне слово Тег частини мови г о-ловного слова Залежне слово Тег частини мови залежного слова
graduate NN /orn VBN
born VBN honolulu NNP
honolulu NNP hawaii NNP
graduate NN obama NNP
graduate NN is VBZ
graduate NN a DT
university NNP columbia NNP
graduate NN university NNP
school NNP harvard NNP
school NNP law NNP
university NNP school NNP
graduate NN school NNP
president NN where WRB
president NN he PRP
president NN was VBD
university NNP president NN
review NNP the DT
review NNP harvard NNP
review NNP law NNP
president NN review NNP
Словосполучення i частини мови вщповщних ^iß другого речення
He was a community organizer in Chicago before earning his law degree
Головне слово Тег частини мови головного слова (Governor POS) Залежне слово Тег частини мови залежного слова (Dependent POS)
organizer NN he PRP
organizer NN was VBD
organizer NN a DT
organizer NN community NN
organizer NN chicago NNP
organizer NN earning VBG
degree NN his PRP$
degree NN law NN
earning VBG .egree NN
Типи зв'язюв мiж головними i залежними словами у словосполученнях, приведеними до незмшно!', основно! форми слова, наведено для першого та другого речення в табл. 3, 4.
Таблиця 3
Зв'язки у словосполученнях першого речення_
Born in Honolulu, Hawaii, Obama is a graduate of Columbia University and Harvard Law School, where he was president of the Harvard Law Review
Головне слово (Governor) Залежне слово (Dependent) Тип зв'язку (Dependency Type) Головне слово (Governor) Залежне слово (Dependent) Тип зв'язку (Dependency Type)
graduate bear vmod university school conj_and
bear honolulu prep_in graduate school prep_of
honolulu hawaius appos president where advmod
graduate obama nsubj president he nsubj
graduate 1" be cop president be cop
graduate a det university president rcmod
university columbium nn review the det
graduate university prep_of review harvard nn
school harvard nn review law nn
school law nn president review prep_of
Зв'язки у словосполученнях другого речення _
He was a community organizer in Chicago before earning his law degree
Головне слово (Governor) Залежне слово (Dependent) Тип зв'язку (Dependency Type)
organizer he nsubj
organizer be cop
organizer a det
organizer community nn
organizer chicago prep_in
organizer earn prepc_before
degree his poss
degree law nn
earn degree dobj
Розiб'емо словосполучення на окремi слова i п^рахуемо ктьюсть зв'язкiв для кожного слова, тобто в сктькох словосполученнях слово зустрiчаеться. Вюдорту-вавши слова за ктьюстю зв'язкiв отримаемо результати, якi наведено в табл. 5.
Таблиця 5
Кандидати в ключовi слова шсля розбиття словосполучень_
Слово Кшьюсть зв'язюв Слово Кшьюсть зв'язюв Слово Кшьюсть зв'язюв
graduate 6 degree 3 hawaius 1
organizer 6 a 2 community 1
president 5 honolulu 2 the 1
university 4 earn 2 his 1
school 4 bear 2 columbium 1
review 4 harvard 2 where 1
be 3 ie 2 chicago 1
law 3 obama 1 - -
Умовно словосполучення можна позначити: G-[T]->D,
де G - головне слово (Governor); T - тип зв'язку (Dependency Type); D - залежне слово (Dependent).
На етат замши займенниюв на вщповщт до них iменники (replace pronouns): словосполучення president-[nsubj]->he замiнюеться на president-[nsubj]-
>obama;
- словосполучення organizer-[nsubj]->he замiнюеться на organizer-[nsubj]->obama;
- словосполучення degree-[poss]->his замшюеться на degree-[poss]->obama. Кандидати в ключовi слова, тсля зaмiни зaйменникiв на вiдповiднi до них iменники, наведено в табл. 6.
Таблиця 6
Кандидати в k^40bî слова тсля замiни займенниюв
Слово Кшьюсгь зв'язюв Слово Кшьюсгь зв'язюв Слово Кшьюсгь зв'язюв
graduate 6 be 3 harvard 2
organizer 6 law 3 hawaius 1
president 5 degree 3 community 1
university 4 a 2 the 1
obama 4 honolulu 2 columbium 1
school 4 earn 2 where 1
review 4 bear 2 chicago 1
Пiсля зaмiни зaйменникiв кiлькiсть кандидата в ключовi слова зменшила-ся з 23 до 21. До замши займенниюв слово obama мало 1 зв'язок, а тсля - 4 зв'язки. I навпаки слова he з 2 зв'язками i his з одним зв'язком тсля замши займенниюв мають нуль зв'язюв, тому що словосполучення з ними були замшеш на е^валенти з iменникaми.
Вилучення словосполучень iз типами зв'язюв, яю не несуть суттевого сми-слового навантаження (deleting noise relationship). Для даного тексту, видаля-ються словосполучення: graduate-[det]->a, review-[det]->the, organizer-[det]->a.
У результат юльюсть кандидата в ключовi слова зменшиться до 19, що вщображено в табл. 7.
Таблиця 7
Кандидати в ключовi слова тсля видалення шумових зв'язюв_
Слово Кшьюсть зв'язюв Слово Кшьюсть зв'язюв
graduate 5 honolulu 2
organize' 5 earn 2
president 5 bear 2
university 4 harvard 2
obama 4 hawaius 1
school 4 community 1
be 3 columbium 1
law 3 where 1
degree 3 chicago 1
review 3 - -
Вилучення сив, що вiдносяться до шумових частин мови (deleting noise POS keywords). На даному крощ видаляеться слово where з тегом частини мови WRB. Кандидалв в ключовi слова будуть мати вигляд, наведений в табл. 8.
Таблиця 8
Кандидати в ключовi слова шсля _ видалення шумових частин мови_
Слово Кшьюсть зв'язюв Слово Кшьюсть зв'язюв Слово Кiлькiсть зв'язюв
graduate 5 be 3 bear 2
organizer 5 law 3 harvard 2
president 5 degree 3 hawaius 1
university 4 review 3 community 1
obama 4 honolulu 2 columbium 1
school 4 earn 2 chicago 1
На етат видалення стор слiв(deleting stop words) - видаляеться стоп слово be, а табл. 9 мютить 17 кандидалв в ключовi слова.
Таблиця 9
Кандидати в ключовi слова пiсля видалення стоп ^в
Слово Кшьюсть зв'язюв Слово Кшьюсть зв'язюв Слово Кшьюсть зв'язюв
graduate 5 la' 3 harvard 2
organizer 5 degree 3 hawaius 1
president 5 review 3 community 1
university 4 honolulu 2 columbium 1
obama 4 earn 2 chicago 1
school 4 ^ bear 2 - -
У результатi, шсля ушх запропонованих крокiв методу, вдалося зменшити кiлькiсть кандидатiв в ключовi слова з 23 до 17, а також видалити шумовi слова.
Розглянемо тепер вщносно великий текст з метою визначення кшьюсних характеристик релевантносл отриманих результатiв у порiвняннi з аналогами. Для цього було обрано текст «A Workingman's Poet», який складаеться з 3299 ^в, та вiдомi ключовi слова, що задан автором: american, literature, books, chicago, poetry, publishing, twentieth century, united states. За результатами експери-менту маемо першi десять кандидалв в ключовi слова, знайдеш розробленим методом: sandburg, poem, write, poet, poetry, book, life, lincoln, learn, speak. По-шук ключових слiв у цьому ж тексл було реалiзовано за допомогою програм-аналогiв.
Результати знаходження ключових ^в розробленим методом i аналогами наведено в табл. 10.
Результати знаходження ключових ^в розробленим методом i аналогами
Etalon keywords Advego Rise-top Seotool Our development
1 American - sandburg - sandburg - his - sandburg
2 Literature - that - his - sandburg - poem
3 Books - for - lincoln - lincoln - ^ write
4 Chicago - poem 5 poetry - poems ^oei
5 Poetry - lincoln - poems 5 poetry 5 poetry
6 Publishing 5 poetry - who - who 3 book
7 Twentieth - work 1 american 1 american life
8 Century - write - where - where - lincoln
9 United 1 american - had - years learn
10 States - where - years - had - speak
Результати повноти i точностi отриманих ключових ^в наведено в табл. 11, 12 i на рис. 6, 7.
Таблиця 11
Результати повноти отриманих ключових ^в _
Name Advego Rise-top Seotool Our development
Completeness (Jaccard) 0,111111111 0,111111111 0,111111111 0,111111111
Completeness (Absolute) 0,2 0,2 0,2
Таблиця 12
Результати точност отриманих ключових ^в_
Name Advego Rise-top Seotool Our development
Euclidean distance 0,577061522 0,59749477 0,589067059 0,577061522
Manhattan distance 0,49 0,51 0,49 0,47
0.25
0.2
0.15
0.1
0.05
Completeness (Jaccard) Completeness (Absolute)
advego rise-top seotool our
development
Рис. 6. Пстограми повноти за Жаккаром i абсолютно!
I Euclidean distance I Manhattan distance
seotool our
development
advego rise-top
Рис. 7. Пстограми точносл за евклидовою i манхеттенською вiдстанями
Повнота знаходження ключових слiв повинна бути якомога бшьшою, а вь дстань мiж позищями ключових cniB заданих автором i визначених програмно якомога меншою.
Як видно з пстограм на рис. 6, 7 та табл. 11, 12, власна розробка для дано-го тексту мае таку саму повноту, як i аналоги - 11 % та 20 %, проте крашд кшь-юсш характеристики за точшстю - 57,71 % та 47 %, нiж аналоги rise-top (59,75 %; 51 %) i seotool (58,91 %; 49 %). Також власна розробка мае однакову точшсть за евклiдовою вщстанню, як i аналог advego, але, на вiдмiну вiд нього, крашд характеристики за манхеттенською вiдстанню.
7. SWOT-аналiз результатiв дослiджень
Strengths. У порiвняннi з аналогами представлена розробка, за результатами проведеного експерименту з текстом обсягом 3299 слш, мае таку саму повноту, як i аналоги, проте, крашд кшьюсш характеристики за точшстю, шж аналоги rise-top i seotool. Також представлена розробка мае однакову точшсть за евкшдовою вщс-танню, як i аналог advego, але, на вщм^ вщ нього, крашi характеристики за манхеттенською вщстанню. Ще однiею перевагою в порiвняннi з аналогами е те, що представлена розробка дозволяе повнютю виключити шумовi слова.
Weaknesses. До слабких сторш роботи методу можна вщнести швидкодiю його практично!' реаизацп засобами DKPro Core, зокрема, вщносно задовгим для онлайн режиму е час створення багаторiвневоi розмггки тексту. Але це, в свою чергу, може бути виправлено за рахунок використання бшьш потужного апаратного забезпечення або платформ хмарних обчислень, що дозволяють ма-ти у своему розпорядженш вiртуальний кластер комп'ютерiв. Цього не важко досягти, оскшьки додатки визначення ключових слiв i зменшення вербального шуму написанi на Java i можуть бути легко розгорнул на таких платформах.
Opportunities. Перспективою подальших дослiджень визначення ключових ^в е проведення бiльш масштабних експериментiв для текстiв рiзних катего-
рш з метою визначення додаткових шляхiв тдвищення релевантностi методу. Доцiльно також використання нових лшгвютичних пакетiв, що тдтримують бiльше мов, в тому чи^ i украшську.
Threats. Процес визначення ключових ^в запропонованим методом е не-залежним вiд процесiв визначення ключових слiв iншими методами, тому за-гроза негативно!' дн на об'ект дослiдження зовнiшнiх чинниюв вiдсутня.
Впровадження запропоновано! методологiï не потребуе додаткових витрат для компанн.
Аналогом розробленого методу можуть бути сайти SEO оптимiзащï' з мож-ливютю визначення ключових слiв.
8. Висновки
1. Запропоновано метод, фiльтрацiя вербального шуму у якому забезпе-чуеться такими формалiзованими операцiями:
- замша займенниюв на вщповщш до них iменники;
- вилучення шумових зв'язюв;
- вилучення шумових ^в;
- вилучення стоп ^в.
Описаш операцiï' можна використовувати як додатковi модулi, що покра-щують результати знаходження ключових ^в для методу визначення ключових ^в англомовного тексту на основi iнструментальних засобiв пакету DKPro Core. А також для шших алгоритмiв знаходження ключових ^в.
2. Обчислення чисельних показниюв зв'язкiв мiж словами та анаиз отриманих результатiв роботи на кожному етат методу, що пропонуеться, прошюс-тровано на прикладi тексту з двох речень. За розглянутими у приклащ результатами вдалося зменшити кiлькiсть кандидатiв в ключовi слова з 23 до 17, а також повнютю виключити шумовi слова.
3. За результатами проведеного експерименту представлена розробка для тексту з 3299 ^в, яка мае таку саму повноту, як i аналоги - 11 % та 20 %, про-те, крашд юльюсш характеристики за точнютю - 57,71 % та 47 %, шж аналоги rise-top (59,75 %; 51 %) i seotool (58,91 %; 49 %). Представлена розробка також мае однакову точнють за евклидовою вiдстанню, як i аналог advego, але, на вщ-мiну вiд нього, кращi характеристики за манхеттенською вщстанню.
Лiтература
1. Ершов Ю. С. Выделение ключевых слов в русскоязычных текстах // Молодежный научно-технический вестник. 2014. № ФС77-51038. С. 70-79.
2. Гращенко Л. А. О модельном стоп-словаре // Известия Академии наук Республики Таджикистан. Отделение физико-математических, химических, геологических и технических наук. 2013. № 1 (150). С. 40-46.
3. Модели и методы автоматической классификации текстовых документов / Андреев А. М., Березкин Д. В., Сюзев В. В., Шабанов В. И. // Вестник МГТУ. Сер. Приборостроение. 2003. № 3. С. 64-94.
4. Абрамов Е. Г. Подбор ключевых слов для научной статьи // Научная периодика: проблемы и решения. 2011. № 1 (2). C. 35-40.
5. Даркулова К. Н., Ергешова Г. Необходимость выделения ключевых слов для свёртывания текста // Лингвистический анализ научного текста. VI Международная студенческая электронная научная конференщя. Южно-Казахстанский государственный университет им. Мухтара Ауэзова Шымкент, 2014. С. 30-35.
6. Halkidi M., Batistakis Y., Vazirgiannis M. On clustering validation techniques // Journal of intelligent information systems. 2001. Vol. 17, Issue 2-3. P. 107145. doi: http://doi.org/10.1023/ai 1012801612483
7. Barahnin V. B., Tkachev D. A. Clustering of text documents based on composite key terms // Vestnik NSU. Series: Information Technology. 2010. Vol. 8, Issue 2. P. 5-14.
8. Гращенко Л. А. О модельном стоп-словаре // Известия Академии наук Республики Таджикистан. Отделение физико-математических, химических, геологических и технических наук. 2013. № 1 (150). С. 40-46.
9. Guo A., Tao Y. Research and Improvement of Feature Words Weight Based on TFIDF Algorithm // 2016 IEEE Information Technology, Networking, Electronic and Automation Control Conference. Chongqing, 2016. doi: http://doi.org/10.1109/itnec.2016.7560393
10. Sifting Micro-blogging Stream for Events of User Interest / Grineva M. et. al. // Proceedings of the 32nd international ACM SIGIR conference _n Research and development in information retrieval. Boston, 2009. P. 327-333. doi: http://doi.org/10.1145/1571941.1572157
11. TF-ICF: A New Term Weighting Scheme for Clustering Dynamic Data Streams / Reed J. et. al. // 2006 5th International Conference on Machine Learning and Applications. Orlando, 2006. P. 258-263. doi: http://doi.org/10.1109/icmla.2006.50
12. Mihalcea R., Csomai A. Wikify!: linking documents to encyclopedic knowledge // Proceedings of the sixteenth ACM conference on Conference on information and knowledge management. Lisbon, 2007. P. 233-242. doi: http://doi.org/10.1145/1321440.1321475
13. Astrakhantsev N. Automatic term acquisition from domain-specific text collection by using Wikipedia // Proceedings of the Institute for System Programming of RAS. 2014. Vol. 26, Issue 4. P. 7-20. doi: http://doi.org/10.15514/ispras-2014-26(4)-1
14. Ozgur A., Hur J., He Y. The Interaction Network Ontology-supported modeling and mining of complex interactions represented with multiple keywords in biomedical literature // BioData Mining. 2016. Vol. 9, Issue 1. doi: http://doi.org/10.1186/s13040-016-0118-0
15. Wong W., Liu W., Bennamoun M. Ontology learning from text // ACM Computing Surveys. 2012. Vol. 44, Issue 4. P. 1-36. doi: http://doi.org/10.1145/2333112.2333115
16. Korobkin D. M., Fomenkov S. A., Kolesnikov S. G. Method of ontology-based extraction of physical effect description // Vestnik Komp'iuternykh i Informatsionnykh Tekhnologii. 2015. P. 28-35. doi: http://doi.org/10.14489/vkit.2015.02.pp.028-035
17. Бесплатный онлайн-генератор ключевых слов с текста. URL: http: //seotool. by/analiz/seo/keywordstext. php
18. Генератор ключевых слов с текста. URL: http://www.rise-top.com/keywordstext.php
19. Адвего. URL: http://wiki.advego.ru/index.php/Адвего
20. Natural Language Processing: Integration of Automatic and Manual Analysis. 2014. URL: http://tuprints.ulb.tu-darmstadt.de/4151/1/rec-thesis-final.pdf
21. Method of determining of keywords in English texts based on the DKPro Core / Bisikalo O. V. et. al. // Photonics Applications in Astronomy, Communications, Industry, and High-Energy Physics Experiments 2016. 2016. doi: http://doi.org/10.1117/12.2249225
22. Determiner. URL: http://universaldependencies.Org/u/dep/det.html
23. Expletive and Reflexives. URL: http://universaldependencies.Org/u/dep/expl.html
24. Welo E. Null Anaphora // Encyclopedia of Ancient Greek Language and Linguistics. 2013. doi: http://doi.org/10.1163/2214-448x_eagll_com_00000254
25. Manning C., de Marneffe M. Stanford typed dependencies manual. 2016. URL: https://nlp.stanford.edu/software/dependencies_manual.pdf
26. Fixed multiword. URL: http://universaldependencies.orgu/dep/fixed.html
27. Punctuation. URL: http://universaldependencies.org/u/dep/punct.html
28. Root. URL: http://universaldependencies.org/u/dep/root.html
29. Taylor A., Marcus M., Santorini B. The Penn Treebank: An Overview // Text, Speech and Language Technology. 2003. P. 5-22. doi: http://doi.org/10.1007/978-94-010-0201-1_1
30. Penn Treebank II Constituent Tags: Word level. URL: http : //www.surdeanu. info/mihai/teaching/ista555-
fall 13/readings/PennTreebankConstituents.html#Word
31. Alphabetical list of part-of-speech tags used in the Penn Treebank Project. URL : https : //www.ling. upenn. edu/courses/Fall_2003/ling001/penn_treebank_pos.html
32. Bougé K. Lists of stop words. URL: https://sites.google.com/site/kevinbouge/stopwords-lists