Научная статья на тему 'SHAXSNI OVOZI ORQALI IDENTIFIKATSIYALASH ALGORITMLARI'

SHAXSNI OVOZI ORQALI IDENTIFIKATSIYALASH ALGORITMLARI Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
16
4
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
nutq signali / shaxsni ovozi orqali identifikatsiyalash / belgilar toʻplamini ajratish / MFCC / GMM / speech signal / identification of a person by voice / character set separation / MFCC / GMM

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Erejepov Keulimjay Kaymatdinovich

Ushbu maqola shaxsni ovozi orqali identifikatsiyalash masalasi uchun shaxsning ovozli modelini qurish uchun GMM usulidan foydalanish koʻrib chiqilgan. Shaxsni ovozi orqali identifikatsiyalash texnologiyasi keng koʻlamli ilovalarda mavjud, jumladan xavfsizlik, ovozli yordamchilar, boshqaruv tizimlari va boshqalar. Maqolada ovozli buyruqlarni modellashtirish va tasniflash uchun GMM usuldan foydalanishga asoslangan yondashuv taqdim etilgan. Maqolada qoraqalpoq tilidagi ovozli ma’lumotlar toʻplami boʻyicha tajribalar taqdim etilgan. Identifikatsiyalash aniqligi va uning belgilar toʻplamini ajratib olish algoritmlariga asoslangan umumiy samaradorlik nuqtai nazaridan LPC, LPCC, MFCC koʻrsatkichining qiyosiy tahlillari oʻtkazildi. Eksperimental natijalar shuni koʻrsatadiki, MFCC va GMM usullari ham shaxsni ovozi orqali identifikatsiyalashda yuqori aniqlikga erishishi mumkin. Xulosa qilib aytganda, ushbu maqolada shaxsni ovozi orqali identifikatsiyalash masalasida LPC, LPCC, MFCC belgilar toʻplamini ajratish algoritmlarining taqqoslanishi keltirilgan

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

PERSON IDENTIFICATION ALGORITHMS THROUGH VOICE

This article examines the use of the GMM method to construct a voice model of a person for the problem of voice recognition. Voice recognition technology is available in a wide range of applications, including security, voice assistants, control systems, and more. The article presents an approach based on the use of the GMM method for modeling and classifying voice commands. The article presents experiments on Karakalpak audio datasets. Comparative analyzes of LPC, LPCC, MFCC were conducted in terms of identification accuracy and overall performance based on its feature set extraction algorithms. Experimental results show that both MFCC and GMM methods can achieve high accuracy in voice recognition. In conclusion, this article presents a comparison of LPC, LPCC, MFCC feature set separation algorithms for voice recognition.

Текст научной работы на тему «SHAXSNI OVOZI ORQALI IDENTIFIKATSIYALASH ALGORITMLARI»

"Descendants of Al-Farghani" electronic scientific

journal of Fergana branch of TATU named after

Muhammad al-Khorazmi. ISSN 2181-4252

Vol: 1 | Iss: 4 | 2024 year

Электронный научный журнал "Потомки Аль-

Фаргани" Ферганского филиала ТАТУ имени

Мухаммада аль-Хоразми ISSN 2181-4252

Том: 1 | Выпуск: 4 | 2024 год

Muhammad al-Xorazmiy nomidagi TATU

Farg‘ona filiali “Al-Farg‘oniy avlodlari”

elektron ilmiy jurnali ISSN 2181-4252

Tom: 1 | Son: 4 | 2024-yil

SHAXSNI OVOZI ORQALI IDENTIFIKATSIYALASH ALGORITMLARI

Erejepov Keulimjay Kaymatdinovich Muhammad al-Xorazmiy nomidagi TATU Nukus filiali, kafedra dotsent v.b. [email protected]

Annotatsiya. Ushbu maqola shaxsni ovozi orqali identifikatsiyalash masalasi uchun shaxsning ovozli modelini qurish uchun GMM usulidan foydalanish ko‘rib chiqilgan. Shaxsni ovozi orqali identifikatsiyalash texnologiyasi keng ko‘lamli ilovalarda mavjud, jumladan xavfsizlik, ovozli yordamchilar, boshqaruv tizimlari va boshqalar. Maqolada ovozli buyruqlarni modellashtirish va tasniflash uchun GMM usuldan foydalanishga asoslangan yondashuv taqdim etilgan. Maqolada qoraqalpoq tilidagi ovozli ma'lumotlar to‘plami bo‘yicha tajribalar taqdim etilgan. Identifikatsiyalash aniqligi va uning belgilar to‘plamini ajratib olish algoritmlariga asoslangan umumiy samaradorlik nuqtai nazaridan LPC, LPCC, MFCC ko‘rsatkichining qiyosiy tahlillari o‘tkazildi. Eksperimental natijalar shuni ko‘rsatadiki, MFCC va GMM usullari ham shaxsni ovozi orqali identifikatsiyalashda yuqori aniqlikga erishishi mumkin. Xulosa qilib aytganda, ushbu maqolada shaxsni ovozi orqali identifikatsiyalash masalasida LPC, LPCC, MFCC belgilar to‘plamini ajratish algoritmlarining taqqoslanishi keltirilgan.

Kalit so‘zlar: nutq signali, shaxsni ovozi orqali identifikatsiyalash, belgilar to‘plamini ajratish, MFCC, GMM

Kirish

Shaxsni ovozi orqali identifikatsiyalash texnologiyasi xavfsizlikni oshirishda va

shaxsiylashtirilgan xizmatlarni taqdim etishda katta ahamiyatga ega. Bu usul, birinchidan, tabiiy va qulay identifikatsiyani ta'minlaydi: foydalanuvchining ovoz belgilar to‘plamiiga asoslangan holda, autentifikatsiya jarayonini parolsiz amalga oshirish imkonini beradi. Bu esa foydalanuvchilar uchun oddiy, intuitiv tajriba yaratadi va qo‘shimcha qurilma yoki maxsus xotirani talab qilmaydi. Shaxsni ovoz orqali identifikatsiyalashning asosiy afzalliklaridan biri uning istalgan masofadan foydalanish imkoniyatidir, shuningdek, ovoz identifikatsiyasi xususiy yoki xavfsizlik talab qiluvchi maydonlarga kirishda parollar yoki kodlar o‘rnini bosuvchi mustahkam himoya qatlamini ta'minlaydi.

Ikkinchidan, ovoz identifikatsiyasi yuqori darajadagi individuallikni ta'minlaydi, chunki har bir insonning ovozi o‘ziga xos belgilar to‘plamiga ega va asosan taqlid qilib bo‘lmaydi. Bu texnologiya bank, moliyaviy tashkilotlar va davlat muassasalari kabi maxfiy ma'lumotlar talab qilinadigan joylarda xavfsiz kirishni ta'minlash uchun qo‘llaniladi. Ovoz orqali

identifikatsiya biometrik xavfsizlik tizimlarining umumiy samaradorligini oshirishga xizmat qiladi, chunki u haqiqiy foydalanuvchini avtomatik tarzda aniqlashga yordam beradi. Shu sababli, ovoz identifikatsiyasi zamonaviy xavfsizlik tizimlarida keng foydalaniladi va rivojlanayotgan texnologiyalar bilan birga uning ahamiyati oshib bormoqda.

Metodologiya

Shaxsni ovozi orqali identifikatsiyalash masalasining dolzarbligi bugungi kunda xavfsizlik, maxfiylik va autentifikatsiyaga bo‘lgan talabning oshishi bilan bog‘liq. Digital muhitda ruxsatsiz kirishlar, ma'lumotlarning o‘g'irlanishi va kiberxavfsizlikka tahdidlar kundan-kunga ko‘payib borar ekan, ovoz orqali identifikatsiyalash texnologiyasi parol yoki kodlarga qaraganda ishonchliroq va tabiiy himoya chorasi sifatida ko‘zga tashlanmoqda. Bu usul parollarning osonlikcha o‘g‘irlanishi va buzilishi xavfini kamaytiradi, chunki inson ovozi o‘ziga xos biometriya bo‘lib, uni aniq takrorlash yoki nusxalash deyarli imkonsiz. Ayniqsa, masofadan xizmat ko‘rsatuvchi ilovalar va xizmatlar kengayib borayotgan hozirgi kunda, ovoz orqali identifikatsiya masofaviy autentifikatsiya va xavfsiz

178

https://al-fargoniy.uz/

"Descendants of Al-Farghani" electronic scientific

journal of Fergana branch of TATU named after

Muhammad al-Khorazmi. ISSN 2181-4252

Vol: 1 | Iss: 4 | 2024 year

Электронный научный журнал "Потомки Аль-

Фаргани" Ферганского филиала ТАТУ имени

Мухаммада аль-Хоразми ISSN 2181-4252

Том: 1 | Выпуск: 4 | 2024 год

Muhammad al-Xorazmiy nomidagi TATU

Farg‘ona filiali “Al-Farg‘oniy avlodlari”

elektron ilmiy jurnali ISSN 2181-4252

Tom: 1 | Son: 4 | 2024-yil

kirishni ta'minlashning dolzarb yechimiga aylanmoqda.

Bundan tashqari, ovozli identifikatsiya texnologiyasi ko‘p faktorli autentifikatsiya tizimlarida qo‘llanilib, qo‘shimcha xavfsizlik qatlamini ta'minlaydi. Moliyaviy xizmat ko‘rsatish, sog‘liqni saqlash va davlat sektorida ishlatiladigan ma'lumotlar juda yuqori darajada maxfiy bo‘lib, ularga kirish uchun ishonchli autentifikatsiya tizimlari talab qilinadi. Ovozli identifikatsiya texnologiyasining rivojlanishi va dolzarbligi shundan iboratki, u nafaqat xavfsizlikni oshiradi, balki foydalanuvchilar uchun qulay autentifikatsiya jarayonini ham yaratadi. Shuningdek, u shaxsiy ma'lumotlarning himoyalanishiga xizmat qilganligi sababli, xavfsizlik sohasidagi yangi standartlarga mos keladi va texnologiya hamda xavfsizlik talablariga javob bera oladi.

Shaxsni ovozi orqali identifikatsiyalash texnologiyasi amaliyotda ko‘plab sohalarda muvaffaqiyatli qo‘llanilmoqda va har kuni yanada ko‘proq qo‘llash imkoniyatlari bilan kengayib bormoqda. Birinchi navbatda, bank va moliyaviy tashkilotlar bu texnologiyani mijozlarini autentifikatsiyalashda keng qo‘llashmoqda. Masalan, mijozlar o‘z hisob raqamlariga qo‘ng‘iroq orqali kirishda ovozli identifikatsiyadan foydalanib, o‘z shaxsini parolsiz tasdiqlashlari mumkin. Bu xizmat foydalanuvchiga qulaylik yaratadi va xavfsizlikni oshiradi, chunki ovozni nusxalash yoki o‘g‘irlash imkoniyati juda past. Bu usul, ayniqsa, mobil ilovalarda va masofaviy xizmat ko‘rsatishda ko‘p faktorli autentifikatsiya sifatida muhim rol o‘ynaydi.

Ikkinchi muhim qo‘llanish sohalaridan biri — davlat va xavfsizlik tizimlaridir. Bu tizimlarda maxfiy ma'lumotlarga kirishni faqat ruxsat etilgan foydalanuvchilargagina cheklash kerak bo‘lganligi sababli, ovoz orqali identifikatsiyalash ishonchli xavfsizlik qatlami hisoblanadi. Masalan, davlat idoralari yoki xavfsizlik xizmatlarining maxsus kirish maydonlari faqat tan olingan shaxslarning ovozini aniqlab, ularga ruxsat berishi mumkin. Ushbu texnologiya ekstremal vaziyatlarda yoki xavfsizlik xodimlarining kirishi zarur bo‘lgan joylarda

autentifikatsiyani tezlashtirishda ham qo‘llanilishi mumkin.

Uchinchi yo‘nalish esa sog‘liqni saqlash va telemeditsina sohalaridir. Masofaviy tibbiy maslahatlar va xizmatlar rivojlanib borayotganligi sababli, shifokor va bemor o‘rtasidagi autentifikatsiya jarayonini ishonchli va qulay qilish dolzarb ahamiyat kasb etadi. Ovoz orqali identifikatsiyalash orqali bemorning shaxsiyati tasdiqlanib, ma'lumotlar maxfiyligini ta'minlash va noto‘g‘ri shaxs bilan ishlashdan saqlanish mumkin. Shu sababli, ovozli autentifikatsiya texnologiyasi amaliyotda nafaqat xavfsizlikni oshirishda, balki foydalanuvchilarga qulay autentifikatsiya jarayonini ta'minlashda ham katta yordam beradi.

Shaxsni ovozi orqali identifikatsiyalash tizimi bir nechta asosiy komponentlardan iborat bo‘lib, har biri o‘ziga xos vazifalarni bajaradi. Ushbu komponentlar birgalikda foydalanuvchi ovozini qayta ishlash, belgilar to‘plamini ajratish va autentifikatsiyani amalga oshirish imkonini beradi. Quyida bunday tizimning asosiy struktura qismlari keltirilgan:

1. Ovoz ma'lumotlarini yig'ish va oldindan qayta ishlash: Tizimning birinchi bosqichi foydalanuvchi ovozini yozib olish va uni qayta ishlashdir. Buning uchun mikrofon yoki boshqa audioqabul qiluvchilar qo‘llaniladi. Ushbu bosqichda, ovoz namunasidan fon shovqinlari va boshqa kerakmas elementlar filtrlab olinadi. Qayta ishlash jarayoni ovoz signalining sifati va aniqligini oshirishga qaratilgan. Signalni normallashtirish, shovqinni kamaytirish va ovoz spektrini ajratish orqali keyingi bosqichlar uchun aniqroq ma'lumotlar olinadi.

2. Ovoz signallaridan belgilar to‘plamini ajratib olish: Bu bosqichda ovoz signalidan shaxsga xos belgilar to‘plami ajratib olinadi. Asosan, ovozning o‘ziga xos akustik belgilar to‘plami olinadi, jumladan, Mel-Frequency Cepstral Coefficients (MFCC), Linear Predictive Coding (LPC) va Spectral Subband Centroids (SSC) kabi algoritmlari qo‘llaniladi. Ushbu belgilar to‘plami foydalanuvchi ovozini tasvirlash uchun ishlatiladi va ovoz orqali identifikatsiyalashda

https://al-fargoniy.uz/

"Descendants of Al-Farghani" electronic scientific

journal of Fergana branch of TATU named after

Muhammad al-Khorazmi. ISSN 2181-4252

Vol: 1 | Iss: 4 | 2024 year

Электронный научный журнал "Потомки Аль-

Фаргани" Ферганского филиала ТАТУ имени

Мухаммада аль-Хоразми ISSN 2181-4252

Том: 1 | Выпуск: 4 | 2024 год

Muhammad al-Xorazmiy nomidagi TATU

Farg‘ona filiali “Al-Farg‘oniy avlodlari”

elektron ilmiy jurnali ISSN 2181-4252

Tom: 1 | Son: 4 | 2024-yil

muhim rol o‘ynaydi, chunki har bir insonning ovozi noyobdir va o‘ziga xos belgilar to‘plamiga ega.

3. Modelni o‘qitish va ma'lumotlar bazasi: Ovoz namunalarini qayta ishlagandan so‘ng, identifikatsiya tizimi foydalanuvchilarning ovoz belgilar to‘plamini o‘z ichiga olgan ma'lumotlar bazasini yaratadi. Bu jarayon mashinada o‘qitish usullaridan foydalanishni talab qiladi. Ovoz namunalarini o‘rgatish uchun ko‘pincha neyron tarmoqlar (masalan, Convolutional Neural Networks (CNN) yoki Recurrent Neural Networks (RNN)) va Gaussian Mixture Models (GMM) kabi modellar ishlatiladi. Foydalanuvchining ovozi tizimga kiritilganidan so‘ng, u ma'lumotlar bazasiga saqlanadi va identifikatsiya jarayonida ushbu namunalar bilan solishtiriladi.

4. Identifikatsiyalash jarayoni: Foydalanuvchi identifikatsiyadan o‘tish uchun tizimga o‘z ovozini kiritadi va kiritilgan ovoz namunasi ma'lumotlar bazasidagi ovoz namunalari bilan taqqoslanadi. Agar ovoz namunasi ma'lumotlar bazasidagi o‘xshash namuna bilan yetarlicha o‘xshashlikka ega bo‘lsa, foydalanuvchi muvaffaqiyatli identifikatsiyadan o‘tadi. Shunda tizim foydalanuvchini taniydi va unga kirish ruxsatini beradi.

5. Xavfsizlik va boshqaruv qatlami: Shaxsni ovozi orqali identifikatsiyalash tizimida xavfsizlik yuqori darajada ta'minlanishi kerak. Tizimda ovoz yozuvlari va belgilar to‘plamiining xavfsiz saqlanishi uchun shifrlash va maxfiylikni ta'minlash vositalari qo‘llaniladi. Shuningdek, har qanday ruxsatsiz kirish yoki soxtalashtirish holatlariga qarshi himoya choralari kiritiladi. Tizim administratorlari boshqaruv paneli orqali identifikatsiya jarayonini nazorat qilib, xatolarni tahlil qilishi va texnik xizmatlarni amalga oshirishi mumkin.

Shaxsni ovozi orqali identifikatsiyalash tizimi aynan shu komponentlar asosida tuzilgan bo‘lib, yuqori darajada xavfsizlik, aniqlik va tezkor identifikatsiyani ta'minlashga xizmat qiladi.

Ovoz signalidan belgilar to‘plamini shakllantirish

Identifikatsiyalash tizimlari samaradorligi belgilar to‘plami qanday tanlanganligiga bog’liq.

Boshlang’ich belgilar fazosi qanchalik yaxshi tanlansa, tanib olish sifati shunchalik yuqori bo‘ladi. Shaxsni ovozi orqali identifikatsiyalash masalasi ham ovoz signalidan belgilar to‘plamini shakllantirishdan boshlanadi.

Mel-Frequency Cepstral Coefficients (MFCC). Mel-Frequency Cepstral Coefficients (MFCC) — ovozdagi o‘ziga xos belgilar to‘plamini ajratib olish uchun keng qo‘llaniladigan va yuqori samaradorlikka ega akustik xususiyatlardan biridir. MFCC usuli, asosan, nutqni tanish, shaxsni ovoz orqali identifikatsiyalash, va emotsiyalarni aniqlash kabi sohalarda ishlatiladi. Ushbu usul inson qulog‘i sezgirligining ovoz chastotalariga bo‘lgan munosabatini modellaydi va ovozdagi noyob akustik xususiyatlarni ifodalovchi koeffitsiyentlarni yaratadi.

MFCC xususiyatlarini ajratish bir nechta bosqichlar orqali amalga oshiriladi:

Signalni bo‘laklarga ajratish (Framing): Ovozni qayta ishlash uchun signal kichik qismlarga (odatda 20-40 millisekund) bo‘linadi. Har bir bo‘lak (frame) ovozning vaqt bo‘yicha o‘zgaruvchan qismini ifodalaydi, bu esa fonemalarni ajratib olishda muhimdir.

Hamming oyna funksiyasi (Windowing): Har bir frame Hamming oynasi bilan ko‘paytiriladi, bu esa signalning boshi va oxiridagi o‘zgarishlarni silliqlashtirishga yordam beradi va spektral analizda aniqlikni oshiradi.

Fourier almashtirishi: Har bir frame uchun Fourier Transform amalga oshiriladi va signal chastotaga o‘tkaziladi. Bu bosqichda signalning spektral tarkibi aniqlanib, chastotaviy komponentlarning kuchi o‘lchanadi.

H (n, k ) = £ x (n ) w (n ) eN

n=1

bu yerda w (n) -Xemming oynasi.

Mel-chastota filtri: Bu bosqichda Mel chastota filtrlar to‘plami qo‘llaniladi, chunki inson eshitish tizimi chastotaga nisbatan Mel o‘lchovida sezgirroq bo‘ladi. Chastotadagi quvvat Mel o‘lchovi orqali o‘lchanadi, bu esa past chastotali tovushlarni yaxshiroq aniqlashga yordam beradi.

180

https://al-fargoniy.uz/

"Descendants of Al-Farghani" electronic scientific

journal of Fergana branch of TATU named after

Muhammad al-Khorazmi. ISSN 2181-4252

Vol: 1 | Iss: 4 | 2024 year

Электронный научный журнал "Потомки Аль-

Фаргани" Ферганского филиала ТАТУ имени

Мухаммада аль-Хоразми ISSN 2181-4252

Том: 1 | Выпуск: 4 | 2024 год

Muhammad al-Xorazmiy nomidagi TATU

Farg‘ona filiali “Al-Farg‘oniy avlodlari”

elektron ilmiy jurnali ISSN 2181-4252

Tom: 1 | Son: 4 | 2024-yil

Logarifmik amplituda spektr: Mel-filtirlangan spektrning logarifmik qiymatlari olinadi. Bu bosqich inson eshitish tizimining logarifmik qabul qilish xususiyatlarini aks ettiradi, ya'ni tovushning kuchliligi ortgan sari sezgirlik pasayadi.

DCT (Discrete Cosine Transform): Yakuniy bosqichda logarifmik amplituda spektrga diskret

kosinus almashtirish (DCT) qo‘llaniladi. DCT orqali olingan birinchi bir necha koeffitsiyentlar ovozdagi asosiy akustik xususiyatlarni ifodalaydi. Bu koeffitsiyentlar MFCC deb nomlanadi va nutq yoki shaxsni ovoz orqali tanishda ishlatiladigan xususiyat vektorlarini hosil qiladi.

M

SMFCCi = > Xk C0S

i k=1

‘ I * - 2) IM

MFCC'ning asosiy afzalliklari:

MFCC inson qulog‘ining tovush chastotalariga nisbatan sezgirligini hisobga olgan holda yaratilgan, bu esa yuqori aniqlikni ta'minlaydi. MFCC olingan koeffitsiyentlar ovozni ixcham xususiyat vektoriga aylantiradi, bu esa mashinada o‘qitish algoritmlari uchun osonroq va tezroq qayta ishlash imkonini beradi. MFCC ovozdagi asosiy akustik xususiyatlarni aniq aks ettirgani sababli nutqni tanish va shaxsni identifikatsiyalashda yuqori aniqlikka ega.

LPC (Linear Predictive Coding) va LPCC (Linear Predictive Cepstral Coefficients) algoritmlari nutqni qayta ishlash sohasida keng qo‘llaniladi va ular ovozli xususiyatlarni aniqlashda muhim rol o‘ynaydi. LPC va LPCC usullari asosan ovozli signalning spektral xususiyatlarini chiqarib berish orqali ovozli tanib olish va sintez qilish tizimlarida qo‘llaniladi.

LPC (Linear Predictive Coding)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

LPC — bu nutq signalini oldingi vaqt oraliqlaridagi qiymatlari yordamida bashorat qilish uchun ishlatiladigan matematik modeldir. LPC algoritmi quyidagi bosqichlarni o‘z ichiga oladi:

LPC signalni oldingi qiymatlari orqali taxmin qilish usuliga asoslanadi. Bu usulda har bir signal nuqtasi oldingi qiymatlar yordamida ifodalanadi, va bunda har bir qiymatga o‘ziga xos og‘irlik (koeffitsiyent) beriladi. LPC algoritmi yordamida ovoz signalidagi spektral o‘zgarishlarni aniqlash mumkin.

Bu jarayonda turli og‘irliklar va chastotalar aniqlanadi va ular yordamida signal modeli quriladi.

Matematik jihatdan LPC modelidagi signal

s(n)

oldingi qiymatlar orqali quyidagicha

ifodalanadi:

p

s(n) = -> aks(n - k) + e(n)

k=1

LPCC (Linear Predictive Cepstral Coefficients)

LPCC algoritmi LPC koeffitsiyentlaridan kepstral koeffitsiyent-larni olish orqali ishlaydi. Bu koeffitsiyentlar LPC modelida olingan koeffitsiyentlardan kepstral ifodalar bilan nutq signalining spektral xususiyatlarini aniqroq aniqlashga yordam beradi.

LPCC algoritmi LPC koeffitsiyent-laridan kepstral koeffitsiyentlarni quyidagi formulalar yordamida hisoblaydi:

Dastlab LPC koeffitsiyentlari ak ni

c

hisoblaymiz. Keyin esa LPCC koeffitsiyentlari m quyidagi ifoda orqali hisoblanadi:

m-1 k

c = a + > —c,a ,

m m k m - k

m m k =1 m k m-k

LPC va LPCC algoritmlari shaxsni ovozi orqali identifikatsiyalash, nutqni tanib olish, ovozli interfeyslar, va ovoz sintezlashda keng qo‘llaniladi. LPCC koeffitsiyentlari yordamida shaxs ovozi orqali identifikatsiyalanishi yoki tanib olinishi mumkin. LPC algoritmi yordamida ovozli signalni modellashtirish orqali tabiiy ovoz yaratish mumkin.

Bu algoritmlar, ayniqsa, turli xil mobil ilovalarda, xavfsizlik tizimlarida va ovozli yordamchi qurilmalarda keng foydalaniladi.

Modellashtirish usullari

Shaxsni ovozi asosida identifikatsiyalash tizimlari ko‘pincha ovozdan belgilar to‘plamini ajratib olish va ular asosida modellashtirish jarayoniga tayanadi. Ushbu maqolada shaxsni ovoz orqali identifikatsiyalash uchun asosiy algoritmlar K-Nearest Neighbors (KNN), Support Vector Machine (SVM), va

181

https://al-fargoniy.uz/

Descendants of Al-Farghani" electronic scientific

journal of Fergana branch of TATU named after

Muhammad al-Khorazmi. ISSN 2181-4252

Vol: 1 | Iss: 4 | 2024 year

Электронный научный журнал "Потомки Аль-

Фаргани" Ферганского филиала ТАТУ имени

Мухаммада аль-Хоразми ISSN 2181-4252

Том: 1 | Выпуск: 4 | 2024 год

Muhammad al-Xorazmiy nomidagi TATU

Farg‘ona filiali “Al-Farg‘oniy avlodlari”

elektron ilmiy jurnali ISSN 2181-4252

Tom: 1 | Son: 4 | 2024-yil

Gaussian Mixture Model (GMM) kabi mashhur klassifikatorlardan foyadalana-miz.

K-Nearest Neighbors (KNN):

K-Nearest Neighbors (KNN) algoritmi nazoratli o‘qitish usulida ishlatiladigan klassifikatsiya va regressiya algoritmi hisoblanadi. KNN algoritmi, ma'lum bir obe'ktni tasniflash uchun, unga eng yaqin bo‘lgan k ta qo‘shni nuqtaning sinflarini hisobga oladi. Algoritm tasniflash jarayonida shunchaki eng yaqin qo‘shnilar sonini hisoblab, ko‘pchilik sinfga tegishli sinfni beradi.

KNN algoritmi ma'lumotlarni tasniflashda masofa o‘lchovidan foydalanadi. Eng keng tarqalgan masofa o‘lchovi Evklid masofasi hisoblanadi:

d (x y) =^£(xi- yi)2

Support Vector Machine (SVM):

Support Vector Machine (SVM) — chiziqli va chiziqli bo‘lmagan klassifikatsiya vazifalarini samarali bajara oladigan kuchli mashinali o‘qitish algoritmi. SVMning asosiy maqsadi sinflar orasidagi eng yaxshi ajratish chegarasini topishdir. Bu chegarani topish uchun ajratish tekisligi (hyperplane) orqali ikki sinf o‘rtasidagi eng katta margin aniqlanadi. SVM asosan ikkita sinfli (binary) klassifikatsiya uchun ishlatiladi, lekin ko‘p sinfli (multiclass) klassifikatsiyalarda ham keng qo‘llaniladi. Ikki o‘lchamli ma'lumotlarda ajratish tekisligi bir chiziq bo‘lib, sinflarni bo‘lish vazifasini bajaradi. d o‘lchamli ma'lumotlarda esa bu ajratish tekisligi d -1 o‘lchamli bo‘ladi. Ajratish tekisligi matematik jihatdan quyidagicha ifodalanadi:

f (x) = wTx + b = 0

SVM klassifikatsiya masalalarida, ayniqsa yuqori o‘lchovli va chiziqli bo‘lmagan ma'lumotlarda samarali natija beradi. Ovozli identifikatsiya, tasvir tanish, matnni tahlil qilish va boshqa sohalarda keng qo‘llaniladi.

Gaussian Mixture Model (GMM):

Gaussian Mixture Model (GMM) — statistik modellashtirish usuli bo‘lib, murakkab ma'lumotlarni bir necha Gaussian taqsimotlar aralashmasi sifatida tasvirlash imkonini beradi. Har bir taqsimot biror sinf

yoki komponent sifatida qaraladi va ular birgalikda barcha ma'lumotlarni tasvirlash uchun ishlatiladi. GMM asosan ovoz signallaridagi turli xususiyatlarni ifodalovchi aralashmalarni yaratishda keng qo‘llaniladi, ayniqsa i-vectors kabi texnologiyalarda ishlatiladi.

Gaussian Mixture Model biror x ma'lumot to‘plamini K ta komponentli Gaussian taqsimotlar aralashmasi sifatida ifodalaydi:

к

P(x) = Y^k (x| Pk,Sk)

k=1

GMM ovozli biometrika, shaxsni ovoz orqali identifikatsiyalash, nutqni tanish va boshqa ovozga asoslangan tizimlarda keng qo‘llaniladi. Ovozdagi belgilar to‘plamini aralashma komponentlari sifatida ifodalash orqali har bir ovoz uchun noyob xususiyatlarni yaratish mumkin. Bu, ayniqsa, i-vectors va x-vectors kabi texnologiyalar uchun zarur bo‘lgan ovoz xususiyatlarini yaratishda yuqori samaradorlikka ega.

Natijalar

Mazkur tadqiqot ishida shaxsni ovozi orqali identifikatsiyalash masalasini yechish uchun 100 kishi va har bir kishi 10 tadan ovoz ma'lumotlari asosida python dasturlash tilidan foydalanib tajribaviy tadqiqot o‘tkazildi. Python dasturlash tilida sklearn [11] va python_speech_features [12] modullari-dan foydalanildi. Berilgan ma'lumotlar to‘plamining 80% i modelni o‘qitish uchun, 20% I esa modelni testlash uchun ishlatildi.

Olingan natijalar quyidagi 1-jadvalda keltirilgan.

1-jadval. Olingan natijalar

Belgilar tuplamini ajratish GMM

LPC 95,2%

LPCC 98,3%

MFCC 99,8%

MFCC+Д 97,5%

MFCC+Д+Д 98,7%

182

https://al-fargoniy.uz/

"Descendants of Al-Farghani" electronic scientific

journal of Fergana branch of TATU named after

Muhammad al-Khorazmi. ISSN 2181-4252

Vol: 1 | Iss: 4 | 2024 year

Электронный научный журнал "Потомки Аль-

Фаргани" Ферганского филиала ТАТУ имени

Мухаммада аль-Хоразми ISSN 2181-4252

Том: 1 | Выпуск: 4 | 2024 год

Muhammad al-Xorazmiy nomidagi TATU

Farg‘ona filiali “Al-Farg‘oniy avlodlari”

elektron ilmiy jurnali ISSN 2181-4252

Tom: 1 | Son: 4 | 2024-yil

Bu olingan natijalardan ko‘rish mumkin, GMM modeli ovoz signallaridan MFCC belgilar to‘plami ajratilganda yaqshiroq 99,8 natijaga erishildi.

Xulosa

O‘tkazilgan tadqiqot natijalaridan shuni xulosa qilish mumkinki, agarda ovoz signalidan MFCC belgilar to‘plami qolgan belgilar to‘plamini ajratish algoritmlariga nisbatan yaqshi natija ko‘rsatadi. Demak, shaxsni ovozi orqali identifikatsiyalashda MFCC (20 ta) belgilar to‘plamini ajratish algoritmi va modelni qurishda GMM usuli samarali hisoblanadi.

Xulosa qilib aytadigan bo‘lsak, ushbu ish natijalari GMM modelining shaxsni ovozi orqali identifikatsiyalash vazifasida samaradorligini tasdiqlaydi. Yondashuvni tanlashda aniq muammo va dastur talablarini hisobga olinishi kerak.

MFCC va GMM asosida shaxsni ovozi orqali identifikatsiyalash turli sohalarda, jumladan xavfsizlik, ovozli yordamchilar, boshqaruv tizimlari, nutqni avtomatik tanib olish va boshqa sohalarda qo‘llanilishi mumkin va odamlarning kompyuter tizimlari bilan o‘zaro aloqasi qulayligi va samaradorligini oshiradi.

Adabiyotlar

1. H. Beigi. Fundamentals of speaker recognition. Springer US, 2011.

2. W. M. Campbell, D. E. Sturim, D. A. Reynolds, Support vector machines using GMM supervectors for speaker verification, IEEE signal processing letters 13 (5) (2006) 308-311.

3. Рабинер Л., Шафер Р. Цифровая обработка речевых сигналов. - М.: Радио и связ, 1981. - 496 с.

4. Маматов Н.С., Нуримов П.Б., Самижонов А.Н. Нутц сигналларида овоз фаоллигини аницлаш алгоритмлари. «Ахборот коммуникация технологиялари ва дастурий таъминот яратишда инновацион Fоялар» Республика илмий-техник конференцияси 17-18 май 2021 йил.

5. П.Б.Нуримов, А.Н.Самижонов,

Ш.И.Фозилов, З.М.Сулаймонов Шахсни нутки асосида таниб олишда белгилар фазосини шакллантириш. Информатика ва

энергетика муаммолари Узбекистан

Журнали, №4, 2020

6. Desai D, Joshi M., Speaker Recognition Using MFCC and Hybrid Model of VQ and GMM. Recent Advances in Intelligent I nformatics 235: 53-63.

7. W. M. Campbell, D. E. Sturim, D. A. Reynolds, Support vector machines using GMM supervectors for speaker verification, IEEE signal processing letters 13 (5) (2006) 308-311.

8. Нуримов П.Б., Ережепов К.К., Шахсни овози буйича биометрик таниб олиш тизимлари, Между-народной научнопрактической конференции «Актуальные задачи математичес-кого моделирования и информа-ционных технологий» Nukus, May 2-3, 2023.

9. Fabian Pedregosa, Gaёl Varoquaux,

Alexandre Gramfort, ..., Scikit-learn: Machine Learning in

Python,https://arxiv.org/abs/1201.04 90

10. James Lyons et al. (2020, January 14). jameslyons/ python_speech_ features: release v0.6.1 (Version 0.6.1).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

183

https://al-fargoniy.uz/

i Надоели баннеры? Вы всегда можете отключить рекламу.