Научная статья на тему 'Моделювання діалектного тексту в технології багаторівневого інформаційного моніторингу'

Моделювання діалектного тексту в технології багаторівневого інформаційного моніторингу Текст научной статьи по специальности «Экономика и бизнес»

CC BY
215
22
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
DIALECT TEXT / MODELING / CLASSIFICATION / INFORMATION MONITORING / ДИАЛЕКТНЫЕ ТЕКСТЫ / МОДЕЛИРОВАНИЕ / КЛАССИФИКАЦИЯ / ИНФОРМАЦИОННЫЙ МОНИТОРИНГ

Аннотация научной статьи по экономике и бизнесу, автор научной работы — Голуб С. В., Мартинова Г. І., Голуб М. С.

В статье приведены результаты исследований процессов моделирования диалектных текстов в рамках информационной технологии многоуровневого мониторинга. Предложен новый метод классификации текстовых сообщений по месту проживания их авторов. Классификационные признаки получены после декомпозиции текстов и расчета их частотных характеристик. Для синтеза моделей использовался многорядный алгоритм МГУА. Количество верно классифицированных текстов находится в пределах от 78% до 100%. Преобразование текстовых сообщений в массив входных данных позволяет использовать преимущества методов многоуровневого моделирования в технологиях мониторинга текстовых сообщений.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по экономике и бизнесу , автор научной работы — Голуб С. В., Мартинова Г. І., Голуб М. С.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The results of research processes modeling of dialect texts within the multilevel information monitoring technology are regarded in the article. A new method of classifying text messages at the residence of their authors is proposed. The signs for classification got after decomposition of text and calculating their frequency characteristics. For synthesis models used GMDH. The quantity correctly classified texts from 78% to 100%. Convert text messages in an array input allows the advantage of multi-level modeling techniques in information technology monitoring text messages.

Текст научной работы на тему «Моделювання діалектного тексту в технології багаторівневого інформаційного моніторингу»

УДК 004.942

С.В. ГОЛУБ*, Г.1. МАРТИНОВА*, М.С. ГОЛУБ**

МОДЕЛЮВАННЯ Д1АЛЕКТНОГО ТЕКСТУ В ТЕХНОЛОГИ БАГАТОР1ВНЕВОГО 1НФОРМАЦ1ЙНОГО МОНИТОРИНГУ

Черкаський нацiональний унiверситет iMeHi Богдана Хмельницького, Черкаси, Украша Черкаський державний технологiчний унiверситет, Черкаси, Украша

Анотаця. У cmammi наведено результати до^джень процеав моделювання д1алектних текст1в у рамках тформацтног технолога багаторiвневого монторингу. Запропоновано новий метод класифи кацИ' текстових повiдомлень за мiсцем проживання гхмх авторiв. Класифiкацiйнi ознаки отримано тсля декомпозицИ' текстiв та розрахунку гхтх частотних характеристик. Для синтезу моделей ви-користано багаторядний алгоритм МГУА. Шльюсть правильно класифтованих текстiв складае вiд 78% до 100%. Перетворення текстових nовiдомлень у масив вхiдних даних дозволяе використати переваги методiв багаторiвневого моделювання в технологiях тформацтного мотторингу текстових повiдомлень.

Ключов1 слова: дiалектнi тексти, моделювання, класифтащя, тформацтний монторинг.

Аннотация. В статье приведены результаты исследований процессов моделирования диалектных текстов в рамках информационной технологии многоуровневого мониторинга. Предложен новый метод классификации текстовых сообщений по месту проживания их авторов. Классификационные признаки получены после декомпозиции текстов и расчета их частотных характеристик. Для синтеза моделей использовался многорядный алгоритм МГУА. Количество верно классифицированных текстов находится в пределах от 78% до 100%. Преобразование текстовых сообщений в массив входных данных позволяет использовать преимущества методов многоуровневого моделирования в технологиях мониторинга текстовых сообщений.

Ключевые слова: диалектные тексты, моделирование, классификация, информационный мониторинг.

Abstract. The results of research processes modeling of dialect texts within the multi- level information monitoring technology are regarded in the article. A new method of classifying text messages at the residence of their authors is proposed. The signs for classification got after decomposition of text and calculating their frequency characteristics. For synthesis models used GMDH. The quantity correctly classified texts from 78% to 100%. Convert text messages in an array input allows the advantage of multi-level modeling techniques in information technology monitoring text messages.

Keywords: dialect text, modeling, classification, information monitoring. 1. Вступ

Процеси визначення характеристик автора друкованого тексту набувають особливо! актуаль-носп в сучасних умовах шформацшно! вшни. Кр1м того, щ завдання е традицшно актуальни-ми в кримшалютищ. 1нтелектуальний анал1з д1алектних текспв дозволяе виявити найбшьш значим! властивосп автор1в та вщобразити i'x у структур! багатопараметричних моделей. Ц модел1 розв'язують слабоформал1зоваш завдання класиф1кацп текспв за властивостями авто-р1в, виконуючи функцп вир1шуючих правил.

Потреба в обробщ великих обсяпв текстово! шформацп спричиняе застосування монь торингових шформацшних технологий. Складнють цих завдань зумовила створення метод1в та засоб1в багатор1вневого моделювання [1].

Технология багатор1вневого моделювання [1] передбачае можливють консолщацп ш-формацп на вищих р1внях глобально! функцюнально! залежносп (ГФЗ), отримано! не тшьки

© Голуб С.В., Мартынова Г.1., Голуб М.С., 2016

ISSN 1028-9763. Математичш машини i системи, 2016, № 4

за результатами мошторингу текстГв, але й з шших рiзнорiдних джерел нижшх рГвшв. Зокре-ма, iepаpхiчно поеднаш у ГФЗ також моделi, синтезоваш на 0CH0Bi таблиць чисельних характеристик економiчного, соцiоекологiчного, медичного та шших сташв об'екта. Разом з шши-ми виявленими характеристиками особи результати таких дослщжень мiстять важливу шфор-мацiю, використану у процес пiдтpимки прийняття необхiдних piшень.

Для синтезу моделей, що вiдобpажають у собi властивостi об'ектiв монiтоpингу, чисе-льнi характеристики перетворюють у таблиц Бази даних первинного опису (ПО), а потГм, пiсля оцiнки шформативносп цих характеристик, ПО перетворюють у масиви вхщних даних (МВД). На основi МВД вiдбуваеться синтез моделей об'екпв монiтоpингу. Набip алгоpитмiв синтезу моделей (АСМ) та правила ix використання утворюють окрему пiдсистему, яка отри-мала назву «Синтезатор» [1]. Основою АСМ стали шдуктивш методи [2], нейpомеpежi рГзно-манiтниx типологш, генетичнi та гiбpиднi алгоритми. Необхщним атрибутом наших синтеза-тоpiв е технология багатошарового моделювання.

Монiтоpинговi шформацшш системи (М1С), як правило, забезпечують кiлька типiв те-xнологiй мошторингу, яю piзняться мiж собою процесами формування ПО та забезпечення шформативносп показникам, що утворюють МВД. На етат ж синтезу моделей розв'язаш типовi завдання iдентифiкацГi функцiональниx залежностей, класифшацп, pозпiзнавання обра-зiв, прогнозування та ш. Теxнологiя багатоpiвневого моделювання передбачае поеднання множини моделей, здатних розв'язувати рГзнотипш завдання, в едину структуру ГФЗ.

Технологи iнфоpмацiйного мошторингу обробляють текстов^ вiдео- та аудюфайли. Тому методи формування МВД при реалГзацп цих теxнологiй мГстять додатковi етапи перет-ворення тексту, звуку чи вщео до типово'1' форми двовимГрного масиву чисельних характеристик об'екпв монГторингу.

У статтГ розглянуто методи штелектуального аналГзу текстових повщомлень, методи формування масиву Гнформативних ознак тексту, !хш зв'язки з методами синтезу моделей з метою виявлення мюця проживання автора дГалектного тексту.

2. Анал1з останн1х досл1джень i публжацш

Технологи багаторГвневого монГторингу використовують для забезпечення процесГв прийняття рГшень у тому випадку, коли складшсть завдань Гз перетворення шформацп переважае мо-жливостГ методГв i засобГв 1'хнього розв'язання. У такому разГ [1] застосовуеться декомпозицГя складних завдань до бшьш простих. Глибина декомпозицп визначае кГлькГсть рГвнГв перетворення шформацп i зумовлена потужнютю синтезатора. Формуеться ГерархГя локальних завдань Гз перетворення даних. Розв'язання кожного з них отримують у результатГ синтезу бага-топараметричних моделей. 1ерархГчне поеднання цих моделей утворюе структуру ГФЗ. На рис. 1 подана структура формування ГФЗ за технолопею багаторГвневого шформацшного монГторингу [3].

На мГкрорГвш монГторингу вщбуваеться перетворення файлГв Гз рГзнорГдною шформа-щею вГд початково'1' форми тексту, вщео- чи аудюфайлГв до форми масиву чисельних характеристик X. На макрорГвш синтезуються моделькласифшатори Y та вщбуваеться ix випробуван-ня. На метарГвш розробляються процедури використання цих моделей для групування вхщно! шформацп за класами Z, оцшюеться впливовють факторГв W.

Рис. 1. Структура формування глобально! функщонально1 залежносп системи багаторiвневого iнформацiйного мошторингу

Для формування ПО д1алектних текспв на м1крор1вш доцшьно використати вже юну-юч1 методи та засоби штелектуального анал1зу текспв, зокрема, т1, що дозволяють профшю-вати [4] !хшх автор1в. Ц методи повинш працювати в межах технологи багатор1вневого монь торингу [1].

Найбшьш ефективними засобами автоматизацп процеав виявлення характеристик ав-тор1в друкованих текспв е методики профшювання текспв, в яких використано методи стати-стичного моделювання. На думку автор1в, одним 1з найбшьш вдалих приклад1в використання такого тдходу е сер1я робгг Т.А. Литвиново!, зокрема, робота [5]. Застосування регресшно-кореляцшного анал1зу дозволило отримати множину моделей, що уможливлюють виявлення стат автора, ощнку р1вня самоконтролю, емоцшно! вр1вноваженосп, практичность

Модель отримано у вигляд1 лшшно! регресп, що реал1зовувала функщональну залеж-

шсть

У =/(*!,*2,...,Х„), (1)

де п - кшьюсть фактор1в, що мютить модель, Х1, Х2,...,Хи - характеристики фактор1в, що впливають на результат У .

За допомогою критер^ Пiрсона автор виявила значимий перелш факторiв. Привертае увагу й те, що, не зважаючи на постановку завдання щентифшацп функщонально'1' залежностi, автор розв'язувала завдання класифшацп. До того ж вiдомо, що критерш кореляцп Пiрсона сформульовано, грунтуючись на гiпотезi про нормальнiсть закону розподшу вхiдних даних. 1з тексту статп [5] незрозумiло, чи здшснювала автор оцiнку виду закону розподшу випадкових величин, адже характеристики аналiзованих текстiв е величинами випадковими. З огляду на це, отримаш моделi можуть бути нестiйкими. До того ж Т.А. Литвинова дослщжуе тексти, написаш росiйською мовою. Праць, що стосуються вивчення украшомовних текстiв, не вияв-лено.

3. Мета статт1

Метою статп е розробка нового методу класифшацп текстiв за говiрками 1'х авторiв шляхом поеднання процедур перетворення тексту в масив чисельних характеристик та побудови ви-рiшуючого правила у виглядi багатопараметрично'1' моделi-класифiкатора для виконання завдання виявлення мiсця проживання автора текстового повщомлення. Крiм того, необхщно було розробити механiзм тдтвердження ефективностi вже застосованого лшгво-географiчного методу [6] класифшацп говiрок, записаних вщ авторiв текстових повiдомлень, що проживають на територп Черкасько'1' область

Таким чином необхiдно автоматизувати процес класифшаци текстових повiдомлень. Це завдання слабоформалiзоване, оскiльки успiшно його виконати за допомогою перелшу заданих ознак iз однозначно визначеними чисельними характеристиками не вдаеться. Мате-матичне формулювання завдання набувае такого вигляду.

Нехай вщомий початковий перелш текстiв, що утворюють множину Т :

Т = Я^2, ...,0, (2)

де т - кiлькiсть текстiв, що пiддаються дослiдженню, i перелiк типiв говiрок 1'х авторiв, що утворюють множину класiв Z :

г = /(2^,...,*„), (3)

де п - кiлькiсть говiрок, якими користуеться населення заданого регюну.

Якою говiркою автора написаний який текст вщомо для обмежено'1' кiлькостi елементiв навчально'1' пiдмножини Ти:

(4)

1снуе невiдома цiльова залежнiсть - вщображення

(5)

значення яко'1' вiдоме на елементах пiдмножини Т . Необхiдно побудувати модель

(6)

що здатна в1рно класифшувати невщомий текст ¡з шдмножини {/ 1з /и+2,/ } е Т, тобто в1р-но визначити тип говiрки автора цього тексту, ^ вiдповiдно, мiсце його проживання.

4. Результати дослщжень

Була сформульована ппотеза про те, що вирiшуюче правило необхвдно будувати у виглядi шдуктивно'1 моделi за багаторядним алгоритмом МГУА. У випадку, коли завдання автомати-зацп процесу класифшацп текстових повщомлень за допомогою багатопараметрично'1' шдук-тивно'1 моделi буде успiшно виконане, то це слугуватиме тдтвердженням ефективностi лшг-во-географiчного методу, поданого в [6].

Дослвджено особливостi формування масиву вхщних даних (МВД) [7] та процесу синтезу багатопараметричних моделей [8], здатних класифшувати текстовi повiдомлення за належнiстю до рiзних титв говiрок, притаманних населенню центрально!, твшчно'1', твден-но!, захщно'1' та схщно': частин Середньо! Надднiпрянщини.

Пiдrрунтям дослщження стали дiалектнi тексти, наведенi у збiрниках [9-11]. У моног-рафп Г.1. Мартиново! [6] представлено принципи, методи та результати лiнгво-географiчноi класифшацп говiрок. Вони використанi для формування клаав Ъ (2) - визначення перелшу текспв, що вiдносяться до певного виду говiрок. У результат перетворення цих текстiв у чи-сельнi характеристики сформованi МВД для синтезу шдуктивних моделей-класифiкаторiв. У табл. 1 поданий перелш класiв дослщжуваних текстiв.

Таблиця 1. Перелш класiв

Клас Тип говiрки (назва класу) Опис класу

1 Захвдна зона середньонадднш-рянського ареалу (перехщш та схвдноподшьсью говiрки) Перехiднi говiрки середньонаддншрянсько-подiльського та середньонаддшпрянсько-волинського титв на меж двох нарiч (твденно-схiдного та пiвденно-захiдного)

2 Центральна зона середньонадд-нiпрянського ареалу Говiрки з найбшьш типовими для середньонадд-ншрянського дiалекту особливостями

3 Пiвнiчна зона середньонадднш-рянського ареалу Говiрки з найбшьш типовими для середньонадд-нiпрянського дiалекту особливостями, що мають окремi вкраплення ознак середньо- i схщнополь ського дiалектiв пiвнiчного нарiччя

З метою оцiнки коректносп поеднання текстiв у класи у табл. 2 поданий перелш насе-лених пунктiв, в яких записан текстовi повiдомлення, та 1'хня класифшащя за типами говiрок [11].

Таблиця 2. Перелш населених пунктiв, в яких записаш дiалектнi тексти_

№ з/п Клас Район Село

1 1 Звенигородський Багачiвка, Княжа, Моринщ, Стебне, Боровикове

2 1 Катеринопшьський Вшнине, Пальчик, Петракiвка, Ямпшь, Ярошiвка

3 1 Лисянський Воташвка, Порадiвка, Боярка

4 1 Маньювський 1ваньки, Кинашiвка, Кривець, Чорна Кам'янка, Багва

5 1 Монастирищенський Княжики, Попудня, Халащове

6 1 Тальшвський Гордашiвка, Зеленькiв, Колодисте, Кривi Колiна, Оноп-рпвка, Бiлашки

7 1 Уманський Доброводи, Дубова, Ладижинка, Ос^вець, Ропотуха, Ятрашвка

Продовж. табл. 2

8 1 Христишвський Шукайвода

9 1 Шполянський Кавушвка, Кримки, Лозуватка, Соболiвка

10 2 Золотошський Богуславець, Вознесенське, Гельмязiв, Домантове, Ков-туни, Коробiвка, Кропивна, Пiщане, Скорикiвка, Хвиль вка, Хутори Каврайсью, Деньги

11 2 Чорноба1вський Богодухiвка, Васютинщ, Велика Бурiмка, Великi Кашв-щ, Веремпвка, Воронинцi, 1рклпв, Клiщинцi, Комштерн, Ленiнське, Москаленки, Тимченки, Хреститилеве

12 3 Драбiвський Бирлiвка, Бiлоусiвка, Великий Хутiр, Золотоношка, Кан-такузiвка, Кононiвка, Мехедiвка, Нехайки

13 3 Золотонiський Зорiвка, Каленики, Пiдставки

14 3 Канiвський Бобриця, Литвинець, Сушки

При формуванш МВД у таблицю поеднаш значення частотних характеристик показни-кiв тексту, перелш яких поданий у [6]. Частотш характеристики були розрахованi на окремих вшнах - дiлянках тексту, яю мiстили по 5000 знакiв. У результат для синтезу моделей вико-ристано 119 точок спостережень первинного опису. 1х розбито на послщовносп A i B для фо-рмування зовнiшнього критерiю селекцп моделей. Ще 11 точок утворювали послiдовнiсть С, 1х використано для випробувань готових моделей, але у процес синтезу цих моделей вони участ не брали. У процес синтезу моделi розв'язано завдання класифшацп точок спостере-ження. Модель навчалась зараховувати тексти iз табл. 2, описаш точками спостереження в масивi даних ПО, до конкретних клаав, поданих у табл. 2. Пюля навчання моделi отримували назви, що збiгаються з населеними пунктами, яю були об'ектами для моделювання. У табл. 3 подаш результати випробувань отриманих моделей.

Таблиця 3. Результати випробування моделей

№ з/п Назва моделi Клас Кшьюсть правильно класифшованих то- чок спостереження, %

1 Захщш Моринщ 1 92,86

2 Захщш Чорна Кам'янка 1 82,14

3 Захщш Соболiвка Шполянського 1 96,43

4 Захiднi Ладижинка Уманського 1 92,86

5 Центральш Гельмязiв 2 82,14

6 Центральнi Воронинщ 2 82,14

7 Центральнi Москаленки 2 85,71

8 Центральнi Богодухiвка 2 82,14

9 Центральш 1рклпв 2 89,29

10 Пiвнiчнi Зорiвка 3 100,00

11 Пiвнiчна Коношвка 3 89,29

Результати випробування моделей, подаш в табл. 3, свщчать, що вдалось синтезувати корисш модел^ здатш виконувати функцп класифiкатора. Це означае, що МВД шформативш i рiзноманiтнiсть методiв i засобiв синтезу моделi е достатньою для побудови корисних моде-

лей. Отримано експериментальне тдтвердження достовiрностi принцитв та методiв класифь кацп roBipoK, поданих у монографп [6].

5. Висновки

Отримання задoвiльних pезультатiв розв'язання завдання штелектуального аналiзу текстiв методом шдуктивного моделювання дозволяе розширити можливосп шформацшно'1 технологи багатopiвневoгo мотторингу i застосувати iнфopмацiйний мoнiтopинг.

Доведено, що декoмпoзицiя текстiв на вшна в 5000 знакiв дозволяе отримати стшю й задoвiльнi результати класифшаци гoвipoк при застoсуваннi синтезатора моделей М1С, тобто М1С набувае можливосп визначати мiсце проживання дoслiджуванoгo об'екта.

Отримано експериментальне тдтвердження гшотези про можливють використання ме-тoдiв шдуктивного моделювання для побудови виршуючого правила та устшного виконання завдання класифшаци текстiв за мiсцем проживання ix автopiв. Доведена здатнiсть виконання завдань iз iнтелектуальнoгo аналiзу текстiв засобами моделювання мошторингових шформа-цiйниx систем. Кшьюсть правильно poзпiзнаниx точок спостереження в досшджуваних умо-вах перебувае в межах вщ 78 % до 100 %.

Запропоновано пщхщ до забезпечення процесу тдтвердження ефективносп лшгвюти-чних метoдiв класифшаци гoвipoк. Експериментально пiдтвеpдженo його ефективнiсть.

У пеpспективi неoбxiднo виявити мiнiмальний обсяг вшна, який дозволяе надiйнo за-безпечувати класифiкацiю текстiв за типами гoвipoк iз урахуванням обробки 2-3 точок спо-стереження.

СПИСОК Л1ТЕРАТУРИ

1. Голуб С.В. Багатор1вневе моделювання в технолопях мошторингу оточуючого середовища / Голуб С.В. - Черкаси: Вид. вщ. ЧНУ 1меш Богдана Хмельницького, 2007. - 220 с.

2. Ивахненко А.Г. Индуктивный метод самоорганизации моделей сложных систем / Ивахненко А.Г. -К.: Наукова думка, 1981. - 296 с.

3. Голуб С.В. Вщображення кoнсoлiдoванoi шформаци економ1чних показниюв регюну у структур! багатор1вневих моделей / С.В. Голуб, Н.О. Химиця // Вюник Схвдноукрашського нацюнального уш-верситету 1меш Володимира Даля. - 2012. - № 8 (179), Ч. 1. - С. 122 - 128.

4. Pennebaker J.W. Secret life of pronouns: what our words say about us / Pennebaker J.W. - N.Y.: Blumberry Press, 2011. - 352 p.

5. Литвинова Т.А. Формально-грамматические корреляты личностных особенностей автора письменного текста / Т.А. Литвинова // Филологические науки. Вопросы теории и практики. - 2013. - № 12 (30), Ч. 1. - C. 132 - 135.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

6. Мартинова Г. Середньонаддншрянський д1алект. Фонолопя i фонетика / Мартинова Г. - Черкаси: Тясмин, 2003. - 356 с.

7. Голуб С.В. Формування показниюв масиву вхщних даних для щентифшацп авторства текстових повщомлень / С.В. Голуб, О.В. Константиновська, М.С. Голуб // Системи обробки шформаци: зб. наук. праць. - Х.: Харювський ушверситет повиряних сил ¡меш 1вана Кожедуба, 2014. - Вип. 2 (118). -С. 89 - 92.

8. Голуб С.В. Вщображення властивостей автора тексту в структур1 багатoпаpаметpичнoi модел1 / С.В. Голуб, О.В. Константиновська, М.С. Голуб // Системи обробки шформаци: зб. наук. праць. - Х.: Харювський ушверситет повиряних сил 1меш 1вана Кожедуба, 2014. - Вип. 9 (125). - С. 82 - 87.

9. Гов1рки П1вденно1' Кшвщини: зб. д1алектних текспв / Упорядники Г.1. Мартинова, З.М. Денисенко, Т В. Щербина. - Черкаси: ПП Чабаненко Ю.А., 2008. - 370 с.

10. Гов1рки Захщно1' Полтавщини: зб. д1алектних текст1в / Упорядник Г.1. Мартинова. - Черкаси: ПП Чабаненко Ю.А., 2012. - 325 с.

11. Говipки Чеpкaщини: збipник дiaлектниx текспв / Упоpядники Г.1. Mapтиновa, T.B. Ш^бит, A.A. Tapan. - Чеpкaси: ПП Чaбaненко Ю.А., 2013. - 810 с.

Стаття надтшла до редакцИ' 17.10.2016

i Надоели баннеры? Вы всегда можете отключить рекламу.