УДК 004.519.7 (045)
А.І. ВАВІЛЕНКОВА*
МЕТОДОЛОГІЧНІ ОСНОВИ АВТОМАТИЧНОГО АНАЛІЗУ ЛОГІКО-ЛІНГВІСТИЧНИХ МОДЕЛЕЙ ТЕКСТОВИХ ДОКУМЕНТІВ
Національний авіаційний університет, Київ, Україна
Анотація. Виявлено основні проблеми на шляху побудови формальних моделей текстових документів. Сформовано логіко-лінгвістичну модель тексту, що складається з лінгвістичної та семан-тико-синтаксичної компонент. Запропоновано алгоритм аналізу логіко-лінгвістичних моделей текстових документів, в результаті роботи якого відновлюється текст на природній мові.
Ключові слова: логіко-лінгвістична модель, обробка текстових документів, інформаційний пошук, формальний опис, інформаційні технології.
Аннотация. Выявлены основные проблемы на пути построения формальных моделей текстовых документов. Сформирована логико-лингвистическая модель текста, которая состоит из лингвистической и семантико-синтаксической компонент. Предложен алгоритм анализа логиколингвистических моделей текстовых документов, в результате работы которого восстанавливается текст на естественном языке.
Ключевые слова: логико-лингвистическая модель, обработка текстовых документов, информационный поиск, формальное описание, информационные технологии.
Abstract. The article reveals the main problems on the way of formal models constructing of text documents. It is formed a logical-linguistic model of the text, which consists of linguistic and semantic-syntactic components. It is proposed an algorithm of analysis of logical-linguistic models of text documents due to which restores text on natural language.
Keywords: logical-linguistic model, processing of text documents, information search, formal description, information technology.
1. Вступ
Розвиток та удосконалення інформаційних технологій, зростання об’єму інформації, перехід до суспільства знань - все це зробило інформаційні комп’ютерні технології потужним інструментом підвищення продуктивності виробництва, економічного зростання, створення нових засобів комунікації. Абсолютно всі інформаційні технології у тій чи іншій мірі використовують методи обробки текстової інформації. Саме тому існує необхідність розробити якісний формальний апарат, який дозволив би уникнути неоднозначності при пошуку текстових документів, а також аналізувати текстову інформацію за єдиним принципом.
На сьогодні найбільш результативною технологією роботи зі знаннями вважається Data Mining, що об’єднує у собі широкий математичний інструментарій та останні досягнення у сфері інформаційних технологій [1]. В основу Data Mining покладена концепція шаблонів, що відображають фрагменти багатоаспектних відношень у даних. Такі шаблони представляють собою закономірності, пошук яких обмежений певними наборами розподілу значень показників, що аналізуються [2]. Незважаючи на величезну кількість програмних продуктів, які здійснюють сьогодні аналітичну обробку електронних текстів, глибинний рівень знань досі залишається прихованим. Це пов’язане з відсутністю формальних засобів здійснення семантичного та лінгвістичного аналізу текстів.
2. Постановка задачі
Усі методи здійснення інформаційного пошуку поділяються на статистичні, методи пошуку за семантичними мережами та комбіновані методи.
© Вавіленкова А.І., 2015
ISSN 1028-9763. Математичні машини і системи, 2015, № 1
65
Основною ідеєю статистичних методів є визначення ваги кожного слова у документі. Для них притаманна якісна математична модель, що дозволяє отримати правильні оцінки релевантності для документів. Недоліком статистичних методів є те, що вони не враховують змістовне навантаження текстів та тексту запиту. Статистичні методи лежать в основі роботи пошукових машин Google, Yandex, Yahoo та ін.
Методи пошуку за семантичними мережами використовують дані, представлені у вигляді онтологій, а пошук відбувається шляхом задання властивостей шуканого об’єкта. Такі методи враховують змістовне навантаження, проте застосовувати їх можна тільки для таких електронних документів, які містять семантичний опис контенту.
Комбіновані методи, окрім статистичних, використовують методи семантичного аналізу текстів. Саме до цієї групи методів пошуку інформації відносяться подальші дослідження.
Формальною моделлю представлення знань, що враховує зміст речень природної мови, є логіко-лінгвістична модель [3]. Тому, якщо побудувати формальну змістовну модель тексту будь-якої тематики та структури, то можна буде аналізувати електронні текстові документи за змістом, вилучати з них знання, порівнювати їх.
Основною проблемою на шляху побудови логіко-лінгвістичної моделі тексту є виявлення лінгвістичних правил написання документів та опис їх на формальній мові. У цій сфері проведено багато досліджень як лінгвістами (це роботи таких вчених, як Гальперіна
І.Р., Лайонза Дж., Кобозева І.М.), так і технічними спеціалістами в галузі комп’ютерної лінгвістики (Широков В.А., Ланде Д.В., Леонтьєва Н.Н., Шемакін Ю.І.). Проте питання про створення єдиної методики аналізу текстових документів досі залишається відкритим.
3. Аналіз логіко-лінгвістичних моделей текстових документів
Аналіз логіко-лінгвістичних моделей текстових документів представляє собою складний процес отримання інформації про структуру та зміст тексту, що розглядається, на основі виявлення закономірностей і тенденцій синтаксичної, семантичної та лексичної побудови тексту.
Логіко-лінгвістична модель текстового документа - це абстрактна модель, яка об’єднує в собі основні властивості тексту та його складових частин, відображає основні взаємозв’язки між структурними компонентами, представляє собою впорядковану четвірку та масив логіко-лінгвістичних моделей речень природної мови, що входять до тексту.
Лінгвістична складова формального опису тексту:
t =< CQ, F, B, A >, (1)
де T - множина текстів;
tє T - конкретний електронний текст із всієї множини текстів;
CQ = {cq1,..., cqi,..., cqn}- множина існуючих типів текстів, і = 1, n, n - кількість типів;
F = {f1,..., fj,..., fm}- множина складних синтаксичних частин тексту, j = 1, m, m - кількість складних синтаксичних частин;
B - текстова база, що складається з набору ключових слів тексту та взаємопов’ язаних пропозицій і яку можна представити у вигляді трійки: B =< K, SJ, D >, K - множина ключових слів тексту, SJ - множина ключових словосполучень тексту Sj, j = 1, m , D - множина пропозицій;
A = {a ... a ... a } - множина абзаців тексту, k = 1,q , q - кількість абзаців.
Кожен абзац у свою чергу описується четвіркою: ак =< H, Y,R,KG >, H = {1,2}-множина типів зв’язків між реченнями (ланцюговий чи паралельний); Y = {1,2,3,4,5}-
66
ISSN 1028-9763. Математичні машини і системи, 2015, № 1
множина типів тематичних прогресій, що вжиті у абзаці ак є A ; R = {1,2,3,4,5,6,7} - множина рематичних домінант в абзаці ak є A ; KG - одновимірний масив засобів когезії, що використовуються у даному абзаці [4].
Семантико-синтаксична складова формального опису тексту:
N (t)
''=£ LS)- (2)
де Lg (S )- логіко-лінгвістична модель речення Sg , g = 1, N(t);
N(t) - кількість речень у тексті t .
Логіко-лінгвістична модель речення має вигляд [5]:
n( S)
L(S) =A Lm (S), (3)
m=i
де Lm(S) - простий предикат, що описує частину речення S, яка відображає закінчений зміст;
m = 1, n(S) , n(S) - кількість частин речення S , які відображають закінчений зміст. Простий предикат записується у вигляді формули
Lm (S) = P (•X1, С(X1), Х2, С(X2), Z КP\ W(Z)) , (4)
де X(S) - множина сутностей, що входять до речення S ;
X1 - множина суб’єктів, що входять до речення S, X1 с X(S) ; c( x1) - кортеж характеристик суб’єкта x1:
c( x1) =[ С (x1)
к = 1, m1( -1)];
m1( x1) - кількість характеристик суб’єкта x1;
X2(x1) - множина об’єктів, над якими виконує дію суб’єкт x1, x1 є X1, X2(x1) с X(S) ; c(x2) - кортеж характеристик об’єкта x2:
С(x2) = [ С1 (x2)
I =1, m2( x2)];
m2( x2) - кількість характеристик об’єкта x2;
P(x1,x2)- множина відношень між суб’єктом x1 та об’єктом x2, x1 є X1,
x2є X (xl), x1 ф x2;
X3(x1) - множина об’єктів, пов’язаних з суб’єктом x1, x1 є X1, X3(x1) с X(S), x3 є X (*1), x Ф x3;
Z(x1,x2,p) - множина об’єктів p -го відношення між суб’єктом x1 та об’єктом x2, Pє Р(х, xj), x1 є X1, x2 є X(х) ;
c(z)- кортеж характеристик об’єктів p -го відношення між суб’єктом x1 та об’єктом
x2:
с(z) =[c(z) q =1,m3(z)];
m3(Z) - кількість характеристик об’єктів p -го відношення між суб’єктом x1 та
об’ єктом x2 ;
ISSN 1028-9763. Математичні машини і системи, 2015, № 1
67
v(p) - кортеж параметрів p -го відношення між суб’єктом х1 та об’єктом x2,
Рє P(Х\,Х2), х є х\, х є X(Xj):
v(p) = [ vi(Р) i = l, m(Р)];
m(p) - кількість параметрів цього відношення;
w(z) - кортеж параметрів z -го об’єкта p -го відношення між суб’єктом Х1 та об’єктом Х2, p є P(Xj, Х2), X є Хі, Х2 є X (Xj), z є Z (Xj, Х2, p):
w(z) = [ Wj (z)
j = 1 n( z)];
n(z) - кількість параметрів z -го об’єкта.
Таким чином, модель (1) - (2) містить вичерпну інформацію про текст та зв’язки у ньому. Побудова такої логіко-лінгвістичної моделі для довільного типу тексту дає змогу перейти до аналізу текстової інформації, порівняння текстів за змістом, пошуку протиріч та збігів.
Результатом проведення аналізу логіко-лінгвістичної моделі текстового документа є відновлений текст. Нехай у відповідність деякому тексту поставлена його логіко-лінгвістична модель. Лінгвістична та семантико-синтаксична складова логіко-
лінгвістичної моделі заданого тексту:
ti =< cqt, Лі > ,
t
P] X1[1] c( X1[1]) X3[1] X2[1] c( X2[1]) z[1] v( p[1]) W( z[1])
р2] X1[2] c( X1[2]) X3[2] X2[2] c( X2[2]) z[2] v( p[2]) W( z[2])
р g1] X1[ g1] c( X1[ g1]) X3[ g1] X2[ g1] c( X2[ g1]) z[ g1] v( A g1]) W( z[ g1])
P [ N ft)] X1[ N ft)] c( X1[ N (t1)]) X3[ N ft)] X2[ N ft)] c( X2[ N (t1)]) z[ N ft)] v( p[ N (t1)]) W( z[ N (t1)])
Тут g1 = 1, N(t1)- номер речення у тексті, N(t1)- загальна кількість речень у тексті t1.
У процесі аналізу логіко-лінгвістичних моделей використовується база правил формування зв’язків між складними частинами тексту, а також між моделями Lg (Sg),
g = 1, N(t) безпосередньо. Аналіз логіко-лінгвістичних моделей текстових документів потрібно здійснювати за чітко визначеним алгоритмом (рис. 1).
1. Аналізується перший параметр лінгвістичної складової моделі cqi . Так як тип тексту визначає його структуру, а також стилістичні, семантичні та синтаксичні особливості, то в залежності від значення cqi для тексту будуть характерні певні граматичні особливості, на які буде звертатися увага при подальшому аналізі. Тоді можна сказати, що існує такий оператор Qi (r), який ставить у відповідність конкретному значенню змінної cqt із множини можливих значень CQ вектор граматичних параметрів r :
Qi (r): CQ ® cqі ,
де CQ = {cq1,...,cqi,...,cqn}- множина існуючих типів текстів, і = 1,n, n - кількість типів.
68
ISSN 1028-9763. Математичні машини і системи, 2015, № 1
2. Фіксується кількість складних частин електронного документа f, j = 1, m, m -кількість складних синтаксичних частин.
Інтерпретатор логіко-лінгвістичних моделей
Lgl (Sgl) ® речення природної мови, gl = 1, N(tj), схема: c(xi[gi]) >-x1tgi] ®‘X3[gi] ®
^[gl] ®C(X2[g1]) ®X2[g1] ®
Zgi] ®v^[gi])
Рис. i. Алгоритм аналізу логіко-лінгвістичних моделей текстових документів
3. На відміну від двох попередніх параметрів, текстова база Bi є однією із значущих змінних для формування змістовного портрета документа. Множина ключових слів, мно-
ISSN i028-9763. Математичні машини і системи, 20i5, № i
69
жина ключових словосполучень, а також множина пропозицій формують основу для вилучення знань з електронного документа.
Для аналізу множини пропозицій застосовується інтерпретатор продукцій, який працює циклічно. У кожному циклі він переглядає правила формування зв’язків між складними частинами документа f із множини заданих в моделі F1, щоб з’ясувати, які посилання із заданої множини D1 збігаються з відомими на даний момент фактами з робочої пам’яті.
Після вибору правило спрацьовує, його висновок заноситься в робочу пам’ять, а цикл повторюється спочатку.
Тобто в результаті роботи інтерпретатора продукцій шукаються такі моделі L'm (S), що належать до абзацу ak є A, які за змістом передують або з яких випливають моделі L^(S) з абзацу ak+1 є A, k = 1, q : Ц1 (S) ® L^S).
1. Аналізується множина абзаців A1, у кожному з них (ak є A1) відмічається тип зв’язку між реченнями Нк, тип тематичної прогресії Yk, тип рематичної домінанти Rk та засоби когезії KGk. Таким чином, буде існувати такий оператор Ek (uk), який ставить у відповідність кожному абзацу ak із множини A1 вектор параметрів uk, що формують зміст відповідного абзацу:
Ek (uk ) : A1 ® ak аб° Ek (uk ) : A1 ®< Hk, Yk, Rk, KGk > .
2. Застосовується інтерпретатор логіко-лінгвістичних моделей речень природної мови. Він перетворює модель Lg1(Sg1), g1 = 1, N (t1) у речення природної мови шляхом синтезу простих предикатів Lm (S) (з урахуванням вектора граматичних параметрів r, набору пропозицій L(S) ® L"mi(S) та вектора параметрів uk) за такою схемою:
c(х1[g1]) ® х
1[ g1]
® Х3[g1] ® P[g1]
® С(Х2[g1]) ® Х2[g1] ® Z[g1] ® V(Р[g1]) ® W(Z[g1]) .
Запропонований алгоритм дозволяє автоматично аналізувати логіко-лінгвістичні моделі текстів різних типів та довільної складності. Створена база правил формування зв’язків між складними частинами тексту, а також в середині абзаців є неодмінною складовою функціонування алгоритму, через те що саме вона дає можливість вилучати зміст з текстової інформації.
4. Висновки
Логіко-лінгвістична модель (1) - (2) є засобом, що дозволяє формалізувати тексти природної мови за єдиним принципом. У свою чергу, аналіз таких моделей дає змогу зробити зворотну операцію - відновити текст. Формальний апарат трансформації тексту у логіко-лінгвістичну модель і навпаки виступає єдиним засобом автоматизації процесу обробки текстової інформації. Створення автоматичної системи лінгвістичного аналізу електронних документів спростовує такі гіпотези щодо складності текстів, як:
- чим більша кількість термінів у тексті, тим складніший він для перекладу;
- чим складніше дерево предикатної структури, синтаксис тексту, тим складніше парсинг тексту;
- складність тексту прямо пропорційна середній довжині слова та середній довжині речення.
Усі вищенаведені гіпотези сформульовані, виходячи з статистичного аналізу природно-мовних текстів. Змістовна ж компонента аналізу електронних документів містить у
70
ISSN 1028-9763. Математичні машини і системи, 2015, № 1
собі поєднання бази правил, що створена на основі досліджень лінгвістів, з методами обробки масивів текстової інформації.
СПИСОК ЛІТЕРАТУРИ
1. Методы и модели анализа данных: OLAP и Data Mining / [Барсегян А. А., Куприянов М.С., Степаненко В.В., Холод И.И.]. - СПб.: БХВ-Петербург, 2007. - 384 с.
2. Кобозева И.М. Лингвистическая семантика / Кобозева И.М. - М.: Эдитореал УРСС, 2000. -352 с.
3. Вавіленкова А.І. Логіко-лінгвістичні моделі речень як засіб порівняння текстових документів за змістом / А.І. Вавіленкова // Математичні машини і системи. - 2012. - № 1. - С. 166 - 173.
4. Вавіленкова А.І. Проект комп’ютерної технології лінгвістичного аналізу електронних документів / А.І. Вавіленкова // International Scientific Journal Acta Universitatis Pontica Euxinus. Spetial number. - Варна, 2014. - С. 388 - 394.
5. Вавіленкова А.І. Теоретичні основи аналізу електронних текстів / Вавіленкова А.І., Ланде Д.В., Литвиненко О.Є. - К.: НАУ, 2014. - 250 с.
Стаття надійшла до редакції 22.07.2014
ISSN 1028-9763. Математичні машини і системи, 2015, № 1
71