УДК 51.001.57+004.652.4+004.827 Р.Ю. НОГА*
МЕТОД ФОРМУВАННЯ НАУКОВИХ ШКІЛ НА ОСНОВІ АНАЛІЗУ ЕЛЕМЕНТІВ ПУБЛІКАЦІЙ
*Національний університет «Львівська політехніка», Львів, Україна
Анотація. У статті розроблено метод визначення елементів наукової публікації та об ’єднання авторів публікацій у наукові школи.
Ключові слова: наукова публікація, наукові школи, об ’єднання авторів.
Аннотация. В статье разработан метод определения элементов научной публикации и объединения авторов публикаций в научные школы.
Ключевые слова: научная публикация, научные школы, объединения авторов.
Abstract. Method for determination of scientific publications elements and associations of authors into scientific schools was developed in this paper.
Keywords: scientific publication, scientific schools, associations of authors.
1. Вступ
Переробка інформації, представлена у вигляді текстів природною мовою, має багато аспектів. Сюди відносяться такі види інформаційних процесів, як розуміння текстів, їх переклад, стиснення семантичної інформації. Особливе значення має останній тип переробки; сюди відносяться класифікація та індексування документів, їх анотування та реферування.
Останнім часом серед науковців, редакторів наукових журналів тощо постає проблема кластеризувати публікації за науковими школами з метою визначення фаховості статті, споріднених публікацій та ін. Проте поняття «наукова школа» є неформалізованим.
Тому метою статті є розроблення методу формування наукових шкіл на основі аналізу публікацій.
2. Аналіз літературних джерел
Оскільки основою формування наукової школи є аналіз текстів, розглянемо методи видобування інформації з тексту.
Процес реферування текстової інформації на сьогоднішній день є дуже актуальним, не дивлячись на величезну кількість робіт. У першу чергу, це викликано постійним зростанням неструктурованих даних Веб-ресурсів, підвищенням вимог до продуктивності та часу відклику на запит. Крім того, реферування є невід'ємною частиною сучасного видавничого процесу. Будь-яке видання, чи це монографія, підручник, аналітичний огляд тощо, завжди випереджується вторинним документом (рефератом або анотацією). Реферування використовується не тільки для економії часу при ознайомленні з великою кількістю джерел, але й з метою пришвидшення повнотекстового пошуку по множині документів, оскільки обсяг реферату у декілька разів менший, ніж обсяг вхідного документа чи їх множини [1].
Яким чином можна автоматизувати процедуру стискання семантичної інформації для отримання реферату? Мета процедури автоматизованого реферування - виділити з тексту документа найважливіші положення, які найповніше розкривають суть цього тексту.
Серед таких положень для наукових публікацій можна визначити такі, як автор видання, наукова установа, тема, ключові слова. Саме визначення цих чотирьох елементів
© Нога Р.Ю., 2013
ISSN 1028-9763. Математичні машини і системи, 2013, № 4
дає змогу зробити швидкій пошук контенту, інтегрування текстової та структурованої інформації.
На сьогоднішній день методи автоматичного аналізу текстів (text mining) широко використовуються в різних галузях науки. Використовують три основні підходи: підхід, заснований на аналізі назв об’єктів, які зустрічаються в текстових документах і так званий повний та поверхневий парсинг.
Повний парсинг базується на описі мови за допомогою формальних граматик. Основним недоліком такого методу є високі вимоги до часу виконання. У зв’ язку з цим цей метод має обмежену область застосування. Як приклад систем аналізу текстів, які працюють за принципом повного парсингу, можна навести PathwayStudio [5] і GeneScene [б].
Поверхневий парсинг оснований на витягуванні формалізованої інформації з тексту з використанням часткових зв'язків між словами за допомогою набору спеціальних шаблонів та правил. На цьому методі основані такі системи, як SUISEKI [7], Chilibot [8] та ін.
Однак існуючі системи аналізу текстів орієнтовані на певні предметні області [1-4] і тому не можуть бути використані для аналізу наукових публікацій певної наукової установи.
3. Метод формування наукових шкіл. Виділення складових елементів наукової публікації
Введемо поняття наукової школи.
Науковий напрям - це сфера наукових досліджень наукового колективу, спрямованих на вирішення певних значних фундаментальних проблем.
Наукова школа - науковий колектив, діяльність якого спрямована на вирішення проблем наукового напряму.
У цьому дослідженні наукова школа Sch визначатиметься множиною наукових публікацій Р, які характеризуються множиною ключових слів Key, множиною авторів Author та множиною основоположників школи Main:
Sch = {Key, Author,Maim,Main є Author .
Наукові публікації Р подаються у вигляді текстових даних Nd та Веб-сайтів Wb.
Необхідні кроки для виділення з контенту необхідної нам інформації для подальшої роботи з нею подані на рис. 1.
Виділення класифікаційних ознак наукової публікації здійснюватиметься на основі семантичної мережі.
Семантична мережа - це структура для подання знань у вигляді вузлів, з’ єднаних дугами. Семантична мережа, побудована на основі аналізу термів напівструктурованого джерела інформації Г , подається як двійка:
г ={V, D},
де V = {v.} - множина вершин (вузлів мережі), D = {d,} - множина дуг. Дуги між елементами
Завантаження
документа
Реферування документа
►Ключові слова
Наукова установа^ / J ^
Тема Автор
Рис. 1. Виділення інформації з контенту
визначають взаємозв'язки між вершинами і задають послідовність пошуку концептів (їх важливість).
Побудуємо функцію трансформації напівструктурованого тексту та Веб-сайтів у вигляді семантичної мережі:
S(E) ® N, E є Wb v E є Nd - для Веб-сайтів, текстових даних.
Результатом операції S є неорієнтований граф.
Між двома будь-якими елементами Y,,YJ словника даних Dic, Yi є Dic,Yj є Dic існує відображення
"Y : 3n, Г"(Y) = {Yj,і = 1M},
де Щ.) = {Y,: $S(Y,,Yj ) v S(Y,,Y,)} .
Формуються підграфи для кожного Y,, такі, що в підпункті вузол вихідного параметра один, а інші вузли - це вхідні поняття, що описують обмеження на атрибути {X, ,1 £ , £ N}-Y; —{X, ,1 £ l £ N}, тут X, - Y, = S (X, ,Y,): Y. - Xt = S(Y„ X,). Крім цього, у граф так само входять усі вхідні поняття, які використовуються як обмеження:
m) = {X, :3S(Y,X,) vS(X,,Y)}.
"Y: Г*(Y), де 1 J J J ; J
' ' Г2(Y;) = Г'(Y,,Ги,)) ={X,:3S(Y;,X,) v S(X,,X,)}.
Дуги між вузлами Г , (Yi) визначаються на основі існуючих відношень між поняттями Slc і підграфи даного типу можна визначити як G' (Yi) ^Г,к(Y),Sk^j.
Друга множина підграфів визначається як вузли з вихідних понять, і відношення між ними G'(Y,) ^Г'"(Y,.),S"), де Г'(Y;) = : 3S(Y;,Y,)} .
Для всіх підграфів G (Yi ) формується запит, що забезпечує всю вибірку примірників Y.
;
Для підграфа G (Yi ) формується запит, забезпечує вибірку примірників Yi на основі даних по Y,, отриманих на попередньому кроці.
Наступні функції виконуються в автоматичному режимі:
- визначення тематичних рубрик документа;
- визначення об'єктів на основі онтологічного описання;
- формування пошукового образу документа;
- формування частотного словника ключових слів і словосполучень.
Результатом побудови семантичної мережі є розроблення тезауруса.
Тезаурус - це Th =< T, R >, де T - множина термінів, а R - множина відношень між цими термінами. Множини T і R скінченні. Термін - це слово або словесний комплекс, який співвідноситься з поняттям певної організованої області знань (науки, техніки), що вступає в системні відношення з іншими словами і словесними комплексами й утворює разом з ними в будь-якому окремому випадку та у певний час замкнену систему, яка відрізняється високою інформативністю, однозначністю, точністю й експресивною нейтральністю.
Тезаурус - структура лінійно пов'язаного подання слів і їхніх значень, призначена для співставлення концептуальних визначень у контексті слова [1]. Множина термінів тезауруса відповідає множині концептів онтології О.
Приклад тезауруса області наукових досліджень поданий на рис. 2.
Структура тезауруса визначена стандартами ANSI Z39.19, ISO 2788-198б, ISO 59б4-1985, ГОСТ 7.25-2001, ГОСТ 7.24-90. Для врахування ефектів, пов'язаних з розбіжністю
суб' єктивних знань приймача і передавача в комунікаційних процесах, що є наслідками різних обсягів знань у ПО, використовують тезаурусну модель, яка зв'язує семантичні властивості інформації зі здатністю користувача сприймати інформацію.
пюдина (ім'я (STRJNG), по батькові (STRING), npi3B^e(STRJNGJ, рік народження співробітник (..., посада (STRJNG), працює в (підрозділ), ідентифікаційний код науковий співробітник (..., науковий ступінь (STRING), працює за темою (тема),
аспірант (.... рік вступу (DATE), науковий керівник (науковий співробітник), публікації підрозділ (назва (STRJNG), керівник (співробітник)):
тема (шифр (STRJNG), назва (STRJNG). керівник (наукфий співробітник), дата початку (DATE), дата закінчення (DATE), виконавці (співробітник)): комплексна тема(..., складається з (тема)) :
публікація (назва (STRJJNG), автори (людина), рік публікації (STRING), мова
наукова стаття (..., УДК (STRING), анотація (STRJNG), назва видання (STRING)); монографія (..., рецензент (науковий співробітник), назва видавництва (STRING)); тези конференції (назва конференції (STRJNG), дата ПО ведення (DATE), місце ПО
Рис. 2. Тезаурус онтології наукових досліджень
Алгоритм формування бази даних характеристик публікації передбачає такі кроки: Крок 1. Наукова стаття, подана як структурована текстова інформація, розбивається на речення та слова.
Крок 2. Відкидаються слова, що містять менше трьох символів.
Крок 3. Здійснюється класифікація слів шляхом видалення з загального списку слів, які містяться в базі даних «Стоп-слова» та неінформативних слів і словосполучень.
Крок 4. Формується загальний список слів у документі, при цьому зберігається інформація про їх форматування та місце в тексті.
Крок 5. Загальний список слів модифікується у процесі стеммінгу, тобто відкидаю-чи закінчення слів, ми також видаляємо однакові слова з бази даних, але збільшуємо значення, що відповідає за кількість вживань цього слова в тексті, а ваги, що були попередньо присвоєні цим словам, додаються. Таким чином, утворюється база даних «Ключові слова тексту».
Крок б. Автори статті та їх наукові установи шукаються на початку файлу за ознакою форматування.
4. Кластеризація наукових публікацій
Нехай ми маємо деяку публікацію Р. Після побудови семантичної мережі даної публікації ми отримуємо такі елементи:
Автор =>А;
Наукова установа =>В;
Тема =>C;
Ключові слова =>Б.
Після того, як ми провели аналіз даних та отримали необхідну інформацію, можемо приступити до кластеризації публікації.
Кластеризація - це автоматичне розбиття елементів деякої множини на групи. Клас-теризацію проводитимемо методом к -найближчих сусідів.
Метод найближчих сусідів полягає у виконанні таких кроків.
1. Задаємо кількість сусідів к .
Оскільки ознаки кластеризації (автор, наукова установа, тема, ключові слова) нев-порядковані, то використовуватимемо метрику d ізольованих точок:
Гі, X .х = У .х І (X .х, У .х) = <1 ’ ,
[0, X .х = У .х
р г н
d (X, X) = 2 І (X .АІ, У .АІ) + 2 І (X .В,, У В,) + 2 І (X В, У В) +1 (X .С, У С),
І ] і
де р - кількість авторів обох статей, г - сумарна кількість ключових слів, н - сумарна кількість наукових установ, X.АІ - значення автора з номером і для наукової статті X і т.д.
2. Для кожного об’єкта знаходимо його к найближчих сусідів. Об’єкт Xi назива-
ється найближчим сусідом об’єкта X, якщо ё(Хі, X) = тахё(Хі, X),і = 1, N, де N - кіль-
і
кість публікацій.
3. Об’єкт X зараховується до того класу, до якого належить більшість з його к сусідів.
Якщо об’єкт не зарахований до жодного з кластерів, то шукаються слабкі зв’язки об'єкта з кластером.
Слабким назвемо зв’язок між об’єктами Xi та X, якщо значення відстані між ними менше, ніж третина від максимальної:
^(X,X,) £ тах^^ .
Продемонструємо, яким чином здійснюється формування наукових шкіл.
Нехай маємо деякі публікації Р1 та Р2.
Спочатку виділяємо інформацію про автора, наукову установу, ключові слова та
тему.
Ми отримаємо множини Р1 та Р2 з деякими характеристиками:
Р1 =
А = а11, а12 В = Ы1
та Р2 =
С = с1
Б = ё11, ё12, ё13
А = а21, а22
В = Ы2 , де а11, а12 - автори і т.д.
С = с2
Б = ё 21, ё 22, ё 23
Тепер нехай маємо публікації Р3 та Р4. Робимо аналогічне витягування інформації. Отримаємо таке:
Р3 =
А = а31, а11 В = Ы31,Ы1 С = с3
Б = ё31, ё32, ё33, ё13
та Р4 =
А = а41, а22 В = Ы41, Ы2 .
С = с4
Б = ё41, ё42, ё43, ё22
Визначаємо кількість спільних елементів для кожної з публікацій.
Публікації Р3 та Р4 мають деякі спільні характеристики з Р1 та Р2, а саме: це а11 (автор), Ы1 (наукова установа), та ё13 (ключові слова). Так само в Р4.
Ми маємо чотири множини, розбиті за характеристиками. Тепер можемо об’єднати множини Р1..Р4 за спільними характеристиками. Так як Р1 та Р3, а також Р2 та Р4 мають спільних авторів, наукові установи, де вийшли публікації, та ключові слова, ми отримаємо кластери {Р1, Р3} та {Р2, Р4}:
Р1, Р3 =
А = а11 В = Ы1 Б = ё13
та Р2, Р4 =
А = а22 В = Ы2 . Б = ё 22
Отримані групи і будуть формувати школи £>ск. Отже, $сН1 = {Р1, Р3} та $ск2 = {Р2, Р4}.
Тепер уявімо собі, що в нас є деяка публікація Р5. Нехай після виділення елементів публікації ми отримаємо таку множину ознак:
А = а51, а51 В = Ы51, Ы52 С = с5
Б = ё51, ё52, ё53, ё13
Ми бачимо, що у множини Р5 у нас є спільне з Р1 лише одне ключове слово. Ми відносимо Р5 до школи Б1. Зв'язок Р5 та Б1 є «слабким», відносити Р5 в школу Б1 не будемо, тільки зв’яжемо.
Слабкий зв'язок необхідно залишити з тих міркувань, що у майбутньому не виключено, що Р5 буде мати спільні характеристики з іншими публікаціями і створиться власна школа Б3.
Для випадків, коли ми маємо слабкі зв’язки, можна застосувати метод визначення спільних ознак у назві публікації.
Рис. 4. Представлення шкіл та слабкий зв’язок зі статтею
5. Метод визначення спільних ознак у назві публікації
Нехай маємо деякі назви С1,С2,С3. Для прикладу:
С1=«Пошук та збереження інформації за допомогою пошукової системи».
С2=«Перегляд та збереження файлів у файловій системі».
С3=«Пошук інформації у всесвітній мережі інтернет».
Умовно розіб'ємо назви на дві частини: праву та ліву. Розбиття здійснюватиметься шляхом симетричного поділу по довжині. Вважатимемо, що ліва частина є більш інформативно важливою, ніж права.
Розіб'ємо теми на ліву та праву частини й виберемо спільне. При цьому слід не брати до уваги слова-коннектори, такі як «і, та» і т.д. При цьому не слід відкидати слова, написані великими літерами: це може бути абревіатура. Також здійснюється відсікання закінчень.
Тоді отримаємо:
С1л=С3л=«пошук, інформація».
С1 л=С2л=«збереження».
Зв’язок, який утворюється між публікаціями, для яких співпадає більше половини слів у лівій частині назви, назвемо сильним зв’язком назв.
Отже, оскільки С1л та С3л мають два спільних слова, то між публікаціями Р1 та Р3 утворюється сильний зв’язок назв.
Відповідно в назвах С1 л та С2л утворено слабкий зв’язок назв.
Такі зв'язки між темами можна використовувати для додаткового навантаження зв'язків між публікаціями, що, у свою чергу, може вплинути на прийняття рішення, в яку із існуючих шкіл відносити публікацію, чи залишати її для створення нової школи.
У статті запропоновано метод визначення ознак наукових публікацій та їх кластеризації. Кластеризація використовується для формування інформації про наукові школи. Розроблено метод визначення зв’язку між публікацією та школою.
За допомогою такого підходу ми можемо відстежувати, які школи стрімко розвиваються і які занепадають, за якими характеристиками поповнюється школа, та проаналізувати перспективні теми і проблеми.
Також за допомогою шкіл, сформованих подібним шляхом, значно оптимізовується пошук потрібної інформації. Так, для прикладу, якщо користувач шукатиме якусь інформацію, нехай a11, тоді система видасть усю спільну інформацію з all, тобто школу S1.
СПИСОК ЛІТЕРАТУРИ
1. Salton G. Automatic Text Structuring and Summarization / G. Salton // Information Processing & Management. - 1997. - Vol. 33, N 2. - P. 193 - 207.
2. Mani I. The Tipster Summac Text Summarization Evaluation / I. Mani // Proc. 9th Conf. European Chapter of the November 2000. - 2000. - P. 118 - 121.
3. Mani I. Summarizing Similarities and Differences Among Related Documents / I. Mani, E. Bloedorn // Information Retrieval. - 1999. - Vol. 1, N 1. - P. 35 - 67.
4. Radev D.R. Generating Natural Language Summaries from Multiple Online Sources / D.R. Radev, K.R. McKeown // Computational Linguistics. - 1998. - Vol. 24, N 3. - P. 469 - 500.
5. Carbonell J.G. The Use of MMR, Diversity-Based Reranking for Reordering Documents and Producing Summaries / J.G. Carbonell, J. Goldstein // Proc. 21st Int’l ACM SIGIR Conf. Research and Development in Information Retrieval. - New York: ACM Press, 1998. - P. 335 - 336.
6. Ando R.K. Multidocument Summarization by Visualizing Topical Content / R.K. Ando // Proc. ANLP/NAACL 2000 Workshop on Automatic Summarization. - 2000. - P. 79 - 88.
Стаття надійшла до редакції 11.12.2012
Рис. 5. Представлення спільних ознак у назві публікації
5. Висновки