Научная статья на тему 'KATTA MA'LUMOTLARNI QAYTA ISHLASH UCHUN MASHINANI O'RGANISH BO'YICHA SO'ROV'

KATTA MA'LUMOTLARNI QAYTA ISHLASH UCHUN MASHINANI O'RGANISH BO'YICHA SO'ROV Текст научной статьи по специальности «Естественные и точные науки»

CC BY
988
100
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
Mashinani o'rganish / katta ma'lumotlar / qayta ishlash / algoritmlar. / Machine learning / big data / processing / algorithms

Аннотация научной статьи по естественным и точным наукам, автор научной работы — Malohat Tursunova, Madina Mominjonova, Xonzoda Yoldoshaliyeva

Ushbu maqolada katta ma'lumotlarni qayta ishlash uchun mashinani o'rganish bo'yicha so'rovlar yaratish haqida o`rganishlar olib borilgan. Shungdek, mashinani o'rganish katta ma`lumotlarni yaratish va boshqarishdagi ahamiyati ham tadqiq etilgan.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

This paper explores machine learning query generation for big data processing. Also, the importance of machine learning in creating and managing big data is explored.

Текст научной работы на тему «KATTA MA'LUMOTLARNI QAYTA ISHLASH UCHUN MASHINANI O'RGANISH BO'YICHA SO'ROV»

SCIENTIFIC PROGRESS VOLUME 4 I ISSUE 4 I 2023 _ISSN: 2181-1601

Scientific Journal Impact Factor (SJIF 2022=5.016) Passport: http://sjifactor.com/passport.php?id=22257

KATTA MA'LUMOTLARNI QAYTA ISHLASH UCHUN MASHINANI

O'RGANISH BO'YICHA SO'ROV

Malohat Tursunova, Madina Mo'minjonova, Xonzoda Yo'ldoshaliyeva

Farg'ona davlat universiteti

ANNOTATSYA

Ushbu maqolada katta ma'lumotlarni qayta ishlash uchun mashinani o'rganish bo'yicha so'rovlar yaratish haqida o'rganishlar olib borilgan. Shungdek, mashinani o'rganish katta ma'lumotlarni yaratish va boshqarishdagi ahamiyati ham tadqiq etilgan. Kalit so'zlar: Mashinani o'rganish; katta ma'lumotlar; qayta ishlash; algoritmlar.

ABSTRACT

This paper explores machine learning query generation for big data processing. Also, the importance of machine learning in creating and managing big data is explored. Keywords: Machine learning; big data; processing; algorithms

1.Kirish

Bugungi dunyo ma'lumotlarga asoslangan dunyo bo'lib, hayotimizning barcha jabhalariga kirib borgan texnologiyalarning tez o'sishi natijasida ma'lumotlar katta hajmda ishlab chiqarilmoqda. Turli shakllarda ishlab chiqarilgan ma'lumotlarning doimiy hajmidan ma'noli tushunchaga ega bo'lish uchun ma'lumotlarni qayta ishlashning yangi usullari ishlab chiqilishi va takomillashtirilishi kerak. Mashinani o'rganish texnologiyalari katta hajmdagi ma'lumotlarni qayta ishlash va undan qiymat olish uchun istiqbolli echimlar va potentsial usullarni taqdim etadi. Ushbu tadqiqot katta ma'lumotlarni qayta ishlashda mashinani o'rganish usullarini qo'llash bo'yicha adabiyotlarni ko'rib chiqadi. U mashinani o'rganish algoritmlari va usullarining umumiy ko'rinishini, katta ma'lumotlarga qisqacha kirishni va katta hajmdagi ma'lumotlarni qayta ishlash uchun turli sohalarda mashinani o'rganish usullarini qo'llagan tegishli ishlar muhokamasini taqdim etadi. Tadqiqot shuningdek, katta ma'lumotlar uchun mashinani o'rganishdan foydalanish bilan bog'liq muammolar va muammolarni muhokama qiladi.

2.Adabiyotlar sharhi.

Ushbu tadqiqot mavzusi doirasida juda ham ko'plab dasturchilar va matematik olimlar samarali ishlar olib borishgan. Jumladan, L. Rao (2010) o'zining "TechCrunch is part of the yahoo family of brands" kitobida aloxida to'xtalib o'tgan. R. Bhatnagar, A.

SCIENTIFIC PROGRESS VOLUME 4 I ISSUE 4 I 2023 _ISSN: 2181-1601

Scientific Journal Impact Factor (SJIF 2022=5.016) Passport: http://sjifactor.com/passport.php?id=22257

Hassanien, M. Tolba, M. Elhoseny and M. Mostafalar o'zlarining tezis va maqolalarida mavzuga doir ilmiy izlanishlar olib borgan.

3. Tadqiqot metodologiyasi.

Mazkur tadqiqotni yoritishda dasturchilar va matematik olimlarlarning mavzu doirasida olib borgan ilmiy ishlari, yaratgan o'quv adabiyotlari tizimli o'rganilgan. Ularning xulosa va fikrlari qiyosiy tahlil etilib, ma'lumotlarni qayta ishlandi.

4. Tahlil va natijalar.

Mazkur tadqiqotni yoritishda dasturchilar va matematik olimlarlarning mavzu doirasida olib borgan ilmiy ishlari, yaratgan o'quv adabiyotlari tizimli o'rganilgan. Ularning xulosa va fikrlari qiyosiy tahlil etilib, ma'lumotlarni qayta ishlandi. So'nggi bir necha yil ichida ma'lumotlar hajmi misli ko'rilmagan sur'atda oshmaguncha, katta ma'lumotlarga olib keladigan "veb-texnologiyalar, ijtimoiy media va mobil qurilmalar" kengayguncha ma'lumotlar eksponent tarzda o'sishni boshladi. Masalan, Twitter kuniga 70 million tvitni qayta ishlagan va kuniga 8 TB dan ortiq tvit ishlab chiqargan .

Ijtimoiy tarmoq saytlari, mehmonxona ma'lumotlari, ob-havo ma'lumotlari, onlayn-do'konlar, bank ishi va katta ma'lumotlarning boshqa manbalari bir nechta misoldir. Biroq, agar u to'liq va chuqur tekshirilmasa, foydasizdir. Big Data Analytics — bir qator korporativ ilovalarga qo'llanilishi yoki umuman odamlar hayotini yaxshilash uchun foydali tushunchalarni olish maqsadida katta ma'lumotlar to'plamini tahlil qilish usulidir .

Biz ilgari ko'rilmagan va eshitilmagan turli manbalardan aql bovar qilmaydigan miqdordagi ma'lumotlar yaratilayotgan davrda yashayapmiz. Ushbu kutilmagan ma'lumotlarni yig'ish, qayta ishlash va baholash uchun texnologiya ishlab chiqilgan bo'lsa ham, ko'plab muammolar va tashvishlar saqlanib qolmoqda. Katta ma'lumotni yaxshiroq tushunish va qimmatli tushunchalarga ega bo'lish uchun ko'plab tadqiqotlar olib borilmoqda. Endi biz tadqiqotning har bir sohasida, jumladan aniq fanlar, amaliy fanlar, ijtimoiy fanlar, biotibbiyot fanlari va hokazolarda katta ma'lumotlar bilan shug'ullanamiz. Ushbu sektorlarning barchasi katta ma'lumotlar to'plamlari bilan shug'ullanadi va juda ko'p kuch sarflanadi

Bu asar Creative Commons Attribution 4.0 xalqaro litsenziyasi bo'yicha litsenziyalangan bo'lib, asl asardan to'g'ri iqtibos keltirilsa, har qanday vositada cheksiz foydalanish, tarqatish va ko'paytirishga ruxsat beradi.

Zamonaviy ma'lumotlar qiyinchiliklarini hal qilishda ko'p va'dalarga ega bo'lgan Machine Learning (ML) kabi domenlardan foydalangan holda Big Datadan yaxshiroq foydalanish va tahlil qilish uchun qilingan.

Mashinani o'rganish usullari so'nggi o'n yillikda tibbiyot, astronomiya, biologiya va boshqalar kabi turli xil keng va murakkab ma'lumotlarni talab qiluvchi sohalarda

SCIENTIFIC PROGRESS VOLUME 4 I ISSUE 4 I 2023 _ISSN: 2181-1601

Scientific Journal Impact Factor (SJIF 2022=5.016) Passport: http://sjifactor.com/passport.php?id=222ff7

tobora ommalashib bormoqda, chunki ular ma'lumotlarning yashirin ma'lumotlarini qazib olish uchun potentsial javoblarni taqdim etadi .

Ushbu maqola quyidagicha tuzilgan: 2-bo'limda mashinani o'rganish va uning texnikasi haqida umumiy ma'lumot berilgan. 3-bo'limda katta ma'lumotlar tushunchalari va ilovalari keltirilgan. 4-bo'lim tegishli ish haqida qisqacha ma'lumot beradi. 5-bo'limda katta ma'lumotlarni qayta ishlash bilan bog'liq mashinani o'rganish masalalari muhokama qilinadi. Nihoyat, 6-bo'limda ba'zi xulosalar keltirilgan.

Mashinani o'rganish

Ushbu bo'limda mashinani o'rganish (ML) va uning turli yondashuvlari, algoritmlari va ilovalari haqida umumiy ma'lumot berilgan.

Mashinani o'rganish - bu "ta'lim tizimlari va algoritmlarining nazariyasi, ishlashi va xususiyatlariga rasman e'tibor qaratadigan tadqiqot sohasi". U sun'iy intellekt, kognitiv fan, optimal boshqaruv, axborot va optimallashtirish nazariyalari, statistika va fan, matematika va muhandislikning boshqa sohalarida keng qo'llanilishiga ega. Mashinalarni o'rganish bo'yicha tadqiqotlar birinchi navbatda ma'lumotlar prognozlarini yaratadigan samarali, tezkor o'rganish algoritmlarini yaratishga qaratilgan. Hozirgi vaqtda har bir kishi o'z qurilmalari yordamida xom ma'lumotlarni ishlab chiqarish imkonini bergan texnologik davr tufayli ma'lumotlar eksponent ravishda o'sib bormoqda. Xom ma'lumotlar shovqinli, singan, tuzilmagan va qarama-qarshi bo'lishi mumkin. Oldindan ishlov berish ushbu ma'lumotlarni tozalash, o'zgartirish, ajratib olish va birlashtirish orqali o'rganish uchun qulay formatga aylantiradi. Ishlash ko'rsatkichlarini yaxshilash uchun o'quv ma'lumotlar to'plamidan foydalangan holda ba'zi faoliyatni amalga oshirayotganda, bu o'rganish muammosi deb ataladi.

Mashinani o'rganish uch turga bo'linadi: nazorat ostida o'rganish, nazoratsiz o'rganish va mustahkamlovchi o'rganish. Nazorat ostidagi ta'lim uchun kirishlar va kutilgan natijalar bilan yorliqlangan o'quv ma'lumotlari talab qilinadi.Aksincha, etiketli ta'lim ma'lumotlari nazoratsiz o'rganishni talab qilmaydi va faqat kirishlar mo'ljallangan natijalarsiz berilishi kerak. U etiketlanmagan ma'lumotlardagi yashirin ma'lumotlarni topish uchun ishlatiladi, masalan, klaster tahlili. Kirish namunalarining o'xshashligini tekshirib, nazoratsiz o'rganish algoritmi namunalar to'plamini alohida klasterlarga tasniflaydi. Kuchli o'rganish (RL) tashqi dunyo bilan o'zaro ta'sirlardan olingan fikr-mulohazalar asosida o'rganish imkonini beradi. U sinov va xatolik asosida ishlaydi, o'quvchi natijalar asosida qaysi strategiyadan foydalanishni belgilaydi. RL algoritmlari, ayniqsa, o'quv ma'lumotlarining katta guruhiga ega bo'lganda, nazorat qoidalarini oldindan ma'lumotga ega bo'lmagan holda o'rganishda samarali bo'ladi, biroq ular ba'zi kamchiliklarga ega, ulardan biri ideal echimni topish bilan bog'liq muhim hisoblash xarajatlaridir .

Reprezentatsiyani o'rganish

SCIENTIFIC PROGRESS VOLUME 4 I ISSUE 4 I 2023 _ISSN: 2181-1601

Scientific Journal Impact Factor (SJIF 2022=5.016) Passport: http://sjifactor.com/passport.php?id=222ff7

Ma'lumotlarning qimmatli va mazmunli tasvirlarini o'rganish vakillik o'rganishning asosiy maqsadidir. O'rtacha o'lchamdagi o'rganilgan vakillik juda ko'p muqobil kiritish konfiguratsiyasini qo'lga kiritishga qodir, bu esa hisoblash va statistik samaradorlikni sezilarli darajada oshirishi mumkin. Mashinani o'rganish texnikasining muvaffaqiyati ko'p jihatdan ma'lumotlarning qanchalik yaxshi ifodalanishiga bog'liq .

Chuqur o'rganish

Chuqur o'rganish - bu sun'iy neyron tarmoqlari deb ataladigan miyaning funktsiyasi va tuzilishi ta'sir qiladigan algoritmlarga tayanadigan mashinani o'rganish sohasi. Sayoz tuzilgan ta'lim arxitekturalariga tayanadigan ko'pgina klassik o'rganish usullaridan farqli o'laroq, chuqur o'rganish birinchi navbatda ierarxik tasvirlarni avtomatik ravishda o'rganish uchun chuqur arxitekturada nazorat qilinadigan va/yoki nazoratsiz algoritmlardan foydalanadi. Chuqur o'rganish, qo'shimcha misollar bilan o'rgatish orqali modelning chuqurligini yoki tasvirlash qobiliyatini kengaytirish orqali model ishlashini yaxshilash xususiyatiga ega. Katta ma'lumotlar tahlilining xilma-xilligi va hajmi bilan ishlash uchun chuqur o'rganish arxitekturasi va algoritmlaridan foydalanish maqsadga muvofiqdir. Chuqur o'rganishning va'dalaridan biri shundaki, xususiyatlarni o'rganish va ierarxik xususiyatlarni ajratib olish usullari qo'lda xususiyatlarni tanlash o'rnini bosishi mumkin.

Tarqalgan va parallel ta'lim

O'rtacha vaqt ichida katta hajmdagi ma'lumotlarni qayta ishlash algoritmlarini o'rganish qiyin bo'ladi; bunday holatda, taqsimlangan ta'lim istiqbolli ko'rinadi, chunki bu o'rganish algoritmlarini kengaytirishning texnik usulidir. Klassik ta'lim paradigmasidan farqli o'laroq, ma'lumotlar markaziy qayta ishlash maqsadida ma'lumotlar bazasida to'planishi kerak, taqsimlangan ta'lim o'rganishni taqsimlangan tarzda amalga oshirishga imkon beradi. Meta-o'rganish, qaror qabul qilish qoidalari, taqsimlangan kuchaytirish va stacking umumlashtirish - bu taqsimlangan va parallel mashinani o'rganishning eng mashhur yondashuvlaridan biri. Muhim printsip shundaki, taqsimlangan va parallel o'rganish algoritmlari o'rganish qiyin bo'lgan vaziyatlarni birinchi o'ringa qo'yishi kerak.

Ta'limni uzatish

Ba'zi hollarda o'quv ma'lumotlarini yig'ish qimmat yoki murakkab. Shunday qilib, ko'plab domenlardagi ma'lumotlardan foydalangan holda yuqori samarali o'quvchilarni o'rgatish uchun transferli o'rganishdan foydalanish kerak. Transferni o'rganish bir nechta manba vazifalaridan ma'lumot olish va uni maqsadli vazifaga qo'llash imkonini beruvchi funktsiyalar, domenlar va tarqatishlarni ajratish usuli sifatida taqdim etilgan edi. Baholangan transfer o'rganish yechimlari ma'lumotlar hajmidan mustaqil bo'lib, katta ma'lumotlar sharoitida foydalanish mumkin. Transfer o'rganishning foydasi

SCIENTIFIC PROGRESS VOLUME 4 I ISSUE 4 I 2023 _ISSN: 2181-1601

Scientific Journal Impact Factor (SJIF 2022=5.016) Passport: http://sjifactor.com/passport.php?id=222ff7

shundaki, u yangi masalalarni tezroq hal qilish uchun avval olingan bilimlardan oqilona foydalanishi mumkin.

Faol ta'lim

Yorliqsiz katta hajmdagi ma'lumotlardan o'rganish ko'p vaqt talab qiladi va qiyin. Faol o'rganish bu muammoni yorliqlash uchun eng muhim holatlarning kichik guruhini tanlash orqali hal qilishga intiladi. Faol o'quvchining maqsadi iloji boricha kamroq yorliqli holatlarni qo'llash orqali aniqlikka erishish, shuning uchun etiketli ma'lumotlarni kuzatib borish xarajatlarini kamaytirishdir. An'anaviy passiv o'rganishda qo'llaniladiganlardan ko'ra samaraliroq bo'lgan so'rovlar algoritmlari yordamida kamroq etiketli namunalar bilan qulay tasniflash ko'rsatkichlariga erishish mumkin edi .

Yadroga asoslangan ta'lim

Samarali chiziqli bo'lmagan ta'lim algoritmlarini loyihalashda erishilgan yutuqlar yadroga asoslangan ta'limni so'nggi o'n yillikda ishlov berish qobiliyatini oshirish uchun ayniqsa kuchli vositaga aylantirdi. Yadroga asoslangan mashinani o'rganishda biz ob'ektlar yoki tasvirlarning o'xshashligini aniqlash uchun ko'p sonli xususiyatlarni tekshirish o'rniga, bitta yadro funktsiyasini ko'rib chiqamiz. Yadro funktsiyasi o'rganish yondashuvini yaratish va tasniflagich sifatida mo'ljallangan natijani olish uchun tasvirlar va teglar bilan birlashtiriladi.

Katta ma'lumotlar deganda o'rtacha vaqt ichida an'anaviy IT, dasturiy va apparat vositalaridan foydalangan holda tushunish, qo'lga olish, boshqarish yoki tahlil qilish qiyin bo'lgan ma'lumotlar to'plami tushuniladi. Boshqacha qilib aytadigan bo'lsak, Katta ma'lumotlar relyatsion an'anaviy metodologiyalar yordamida tahlilni samarali amalga oshirishga to'sqinlik qiladigan hajmli, olish tezligi yoki formatli ma'lumotlar yoki gorizontal kattalashtirishning muhim usullaridan foydalangan holda samarali qayta ishlanishi mumkin bo'lgan ma'lumotlar sifatida tavsiflanadi.

Katta ma'lumotlar tushunchasini u bilan bog'liq bo'lgan turli xil V-larni tushunish orqali aniqroq aniqlash mumkin. Bu V.lar katta ma'lumotlarni boshqarish tizimlari duch keladigan asosiy o'lchovlar (qiyinchiliklar). Ushbu o'lchamlar quyidagicha aniqlanadi:

Terabaytdan zettabaytgacha bo'lgan soniyada ishlab chiqarilgan juda katta ma'lumotlar. Uni tahlil qilish uchun tegishli vositalarni ishlab chiqish uchun saqlash va qayta ishlash modellarini qayta ko'rib chiqish kerak. Taqsimlangan tizimlar butun dunyo bo'ylab ma'lumotlar bazalarida ma'lumotlarni saqlash va tahlil qilish uchun katta ma'lumotlarda qo'llaniladi.

Bu atama talablarni qondirish uchun ma'lumotlarni yaratish va qayta ishlash tezligini anglatadi. An'anaviy tahlillar real vaqt rejimidagi ma'lumotlarga qaramlikning ortishi bilan shubhalanadi , chunki ma'lumotlar juda katta va doimiy harakatda.

Ma'lumotlar turli manbalardan kelib chiqishi va turli shakllarga ega bo'lishi mumkinligi sababli, asosiy muammo - ma'lumotlar formatining mos kelmasligi. Endi

SCIENTIFIC PROGRESS VOLUME 4 I ISSUE 4 I 2023 _ISSN: 2181-1601

Scientific Journal Impact Factor (SJIF 2022=5.016) Passport: http://sjifactor.com/passport.php?id=222ff7

ma'lumotlar bir nechta formatlarda mavjud, jumladan, tuzilgan, yarim tizimli, tuzilmagan va hatto murakkab tuzilgan ma'lumotlar. Ma'lumotlar formatlarining xilma-xilligi tufayli an'anaviy tahliliy usullar katta ma'lumotlarni boshqara olmaydi. Tahlil uchun ma'lumotlarni tayyorlash uchun samarali texnikani loyihalash zarur bo'lib, ular juda katta vaqt va kuch talab qiladi.

Olingan ma'lumotlarning sifati sezilarli darajada farq qiladi. U ma'lumotlarning noto'g'riligini, shovqinlarini, anormalliklarini va boshqalarni ko'rsatadi. Bu tahlilning to'g'riligiga ta'sir qiladi. Haqiqiylikni saqlash tizimda nuqsonli ma'lumotlarni to'plamaydi. Qiymat haqiqatga ta'sir qilishi mumkin.

O'zgaruvchanlik katta ma'lumotlarning yangi o'lchami tomonidan kiritilgan"O'zgaruvchanlik" atamasi ma'lumotlar oqimi tezligining o'zgarishini bildiradi. Katta ma'lumotlarning tezligi ko'pincha tartibsiz bo'lib, vaqti-vaqti bilan cho'qqilar va pastliklar bo'ladi.

"Ma'lumotlarning haqiqiyligi" va "ma'lumotlarning haqiqiyligi" atamalari ko'pincha xuddi shunday qo'llaniladi. Ular bir xil tushuncha emas, lekin ular o'xshashdir. Haqiqiylik deganda ma'lumotlarning to'g'riligi va ulardan maqsadli foydalanish bo'yicha aniqligi tushuniladi. Boshqacha qilib aytadigan bo'lsak, ma'lumotlarning to'g'riligi bilan bog'liq muammolar bo'lmasligi mumkin, ammo tushunilmagan bo'lsa, u haqiqiy bo'lmasligi mumkin.

Katta ma'lumotlarning o'zgaruvchanligi haqida gap ketganda, tashkilotlarda har kuni qo'llaniladigan tuzilgan ma'lumotlarni saqlash siyosatini osongina eslash mumkin. Saqlash muddati tugaganidan keyin uni osongina yo'q qilish mumkin.

Qiymat Oracle tomonidan katta ma'lumotlarning belgilovchi xususiyati sifatida taqdim etilgan. "Qimmat" atamasi ma'lumotlardan olingan qimmatli bilimlarni bildiradi. Ma'lumki, ma'lumotlar chuqur darajada muhimdir. Biroq, ahamiyati burg'ulash kerak.

Katta ma'lumotlarda umuman sakkizta V mavjud. E'tibor bering, bu V lar o'zgarmasdir; ular yaqin kelajakda o'zgarishi mumkin.

Mavjud asboblarning aksariyati oqimni qayta ishlashga, interaktiv tahlilga va partiyani qayta ishlashga qaratilgan. Hozirgi vaqtda katta ma'lumotlarni tahlil qilish uchun foydalaniladigan ba'zi vositalar ushbu bo'limda ko'rib chiqiladi.

Hadoop va MapReduce bir-birini almashtirib bo'lmaydigan atamalar emas; Hadoop aslida MapReduce kontseptsiyasini amalga oshirishdir. MapReduce - bu katta hajmdagi ma'lumotlarni qayta ishlash uchun bo'lish va egallash texnikasidan foydalanadigan model. Hadoop ikkita tugundan iborat: master va ishchi, MapReduce esa ikkita asosiy bosqichni bajaradi: Map va Reduce. Asosiy tugun kiruvchi ma'lumotlarni kichik muammolarga ajratadi, ular keyinchalik ishchi tugunlarga tayinlangan Xarita bosqichida bo'ladi. Keyin barcha kichik muammolarning natijalari asosiy tugun tomonidan qisqartirish bosqichida birlashtiriladi .

SCIENTIFIC PROGRESS VOLUME 4 I ISSUE 4 I 2023 _ISSN: 2181-1601

Scientific Journal Impact Factor (SJIF 2022=5.016) Passport: http://sjifactor.com/passport.php?id=22257

Bu ilg'or va tezkor tahlillar uchun mo'ljallangan xotiradagi ma'lumotlarni qayta ishlash mexanizmi. U pastdan yuqoriga stsenariydan unumdorlikni oshirish uchun ishlatiladi. Xotiradagi hisoblash va boshqa yaxshilanishlar tufayli Spark, ayniqsa, katta hajmdagi ma'lumotlarni qayta ishlash uchun Hadoop'dan 100 marta tezroq ishlaydi. Ma'lumotlar diskda saqlanganida, Apache Spark ham tez ishlaydi. Endi u keng miqyosda diskda tartiblash bo'yicha jahon rekordini saqlab turibdi. Spark katta ma'lumotlar muhitida bajarish uchun joriy o'quv vazifalarini qayta bajaradigan umumiy o'rta dastur qatlamini taqdim etadi. Bu kabi o'rta dastur qatlami odatda o'rganishning turli vazifalari uchun foydali bo'lgan umumiy operatsiyalar va primitivlarni o'z ichiga oladi.

Bu real vaqtda taqsimlangan hisoblash imkonini beruvchi dastur. O'rnatish va ishlatish oson. U bilan har qanday dasturlash tilidan foydalanish mumkin. U nosozliklarga chidamli va kengaytirilishi mumkin.

Qsimlangan va yuqori unumli hisoblash uchun oqim dizayni d uchun ishlov berish mexanizmi . Kech kelgan ma'lumotlar bilan ham, u aniq ishlaydi. Ajoyib kechikish va o'tkazish qobiliyatini saqlab qolgan holda minglab tugunlarga o'lchash oson .

H2O xotiradagi ma'lumotlarni qayta ishlash uchun eng tezkor vosita bo'lib, u katta ma'lumotlarning prognozini tahlil qilish uchun ishlatiladi. U bir nechta tugunlarda ishlashi mumkin bo'lgan taqsimlangan, kengaytiriladigan va ochiq kodli dasturiy ta'minotdir.

Ushbu vositalarni baholashda qo'llab-quvvatlanadigan til, ijro modeli, tegishli mashinani o'rganish vositalari, xatolarga chidamlilik va kechikish hisobga olinadi.

Katta ma'lumotlar turli sohalarda mavjudligini his qildi. U ommaviy axborot vositalari, o'yin-kulgi, aloqa, sog'liqni saqlash, davlat xizmati, ta'lim, sug'urta, ulgurji savdo, marketing, transport, kommunal xizmatlar, energetika, tabiiy resurslar va ishlab chiqarish va boshqa sohalarda qo'llanilgan.

Katta ma'lumotlar tibbiy yordamda tibbiy ma'lumotlarni samarali saqlash, qayta ishlash, so'rash va tahlil qilish uchun ishlatiladi. Sog'liqni saqlash sanoati tibbiy katta ma'lumotlar ilovalari tomonidan sezilarli darajada ta'sirlanadi. Bu klinik sinov ma'lumotlarini tahlil qilish, kasallik namunalarini tahlil qilish, bemorlarni parvarish qilish tahlili va sifati, dori-darmonlarni tadqiq qilish va ishlab chiqish va boshqalar bo'lishi mumkin.

Masalan, Nyu-Yorkdagi Sinay tog'idagi tibbiyot markazi Ayasdining katta ma'lumotlar vositalaridan ba'zi bakteriyalar turlarining antibiotiklarga chidamliligini aniqlash uchun barcha ichak tayoqchasi genetik ketma-ketliklarini, shu jumladan millionga yaqin DNK o'zgarishlarini o'rganish uchun foydalanadi. Ma'lumotlar xususiyatlarini tahlil qilish uchun Ayasdi topologik ma'lumotlar tahlilini, yangi matematik tadqiqot yondashuvini qo'llaydi.

SCIENTIFIC PROGRESS VOLUME 4 I ISSUE 4 I 2023 _ISSN: 2181-1601

Scientific Journal Impact Factor (SJIF 2022=5.016) Passport: http://sjifactor.com/passport.php?id=222ff7

Genomik ma'lumotlar, elektron tibbiy yozuvlar, tibbiy yordamni kuzatish uchun asboblar va kiyinishi mumkin bo'lgan sensorli qurilmalar sog'liqni saqlash sohasidagi katta ma'lumotlarning manbalaridir.

Ijtimoiy tarmoq xizmatlaridagi ba'zi katta ma'lumotlar ilovalari tarmoq jamoatchilik fikrini tahlil qilish, tarmoq ma'lumotlarini yig'ish va tahlil qilish, ijtimoiylashtirilgan marketing va hukumat qarorlarini qabul qilishni qo'llab-quvvatlashdir.

Ijtimoiy tarmoq xizmatlaridagi ba'zi katta ma'lumotlar ilovalari hukumat qarorlarini qabul qilishni qo'llab-quvvatlash, ijtimoiy marketing, tarmoqdagi jamoatchilik fikrini o'rganish va tarmoq ma'lumotlarini yig'ish va tahlil qilishdir.

Onlayn ijtimoiy tarmoq xizmatlari uchun katta ma'lumotlarning boshqa manbalari qatorida tezkor chatlar, onlayn ijtimoiy, mikrobloglar va umumiy maydon foydalanuvchilarning turli xatti-harakatlarini aks ettiradi.

Qo'shma Shtatlardagi Santa Kruz politsiya departamenti ma'lumotlardan foydalangan holda bashoratli tahlilni sinab ko'rdi. Politsiya departamenti jinoyat usullari va shakllarini aniqlashi mumkin, shuningdek, ijtimoiy tarmoqlarni tahlil qilish orqali yirik shaharlardagi jinoyat stavkalarini taxmin qilishi mumkin.

Amerika Qo'shma Shtatlari Ta'lim Departamenti o'quvchilar faoliyatini baholash uchun katta ma'lumotlardan foydalanadi. Talabalarning har bir mavzu bo'yicha qancha vaqt sarflashlarini ko'rish uchun "klik naqshlari" kuzatiladi. Trenerning kuchga kirishi talabalar soni, berilgan mavzu va joylashuvi va boshqa narsalar bilan o'lchanishi mumkin.

Katta ma'lumotlar korxonalarga ko'plab sohalarda ishlab chiqarish samaradorligini va raqobatini yaxshilashga yordam beradi:

Elektron tijorat

Chuqur iste'molchi profillarini yaratish uchun korxonalar mijozlar ma'lumotlarini, shuningdek, xatti-harakatlar ma'lumotlarini baholaydilar. Ushbu profillar turli maqsadli auditoriya uchun kontent yaratish, so'rov bo'yicha materiallarni tavsiya qilish va kontent sifatini kuzatish uchun foydali bo'lishi mumkin.

"Spotify" iste'molchilarning xatti-harakatlari haqidagi ma'lumotlarni to'playdi va musiqa bo'yicha aniq tavsiyalar berish uchun katta ma'lumotlar Hadoop vositalari yordamida tahlil qiladi.

Ushbu tadqiqotda qo'llaniladigan metodologiya ushbu bo'limda tasvirlangan. Mualliflar tegishli maqolalar uchun IEEE, SpringerLink, Google Scholar va boshqalar kabi taniqli ma'lumotlar bazalarini qidirdilar. "Mashinani o'rganish", "Katta ma'lumotlar", "Algoritmlar" va "Qayta ishlash" qidiruv kalit so'zlari qatoriga kirdi. Mualliflar ma'lumotlarni ajratib olishning ikkita usulidan foydalanganlar: 1. Tadqiqotni chiqarish va 2. Tadqiqot skriningi. Mualliflar tadqiqot jarayoni davomida nomuvofiq

SCIENTIFIC PROGRESS VOLUME 4 I ISSUE 4 I 2023 _ISSN: 2181-1601

Scientific Journal Impact Factor (SJIF 2022=5.016) Passport: http://sjifactor.com/passport.php?id=222ff7

sarlavhalarga asoslangan ko'plab maqolalarni o'chirib tashladilar va 51 ta maqola qoldirdi. Shundan so'ng mualliflar har bir maqolaning konspekti va xulosasini o'qib chiqdilar. Natijada, tadqiqot doirasidan tashqarida bo'lgan ba'zi maqolalar chiqarib tashlandi. Katta ma'lumotlarni qayta ishlash uchun ishlatiladigan mashinani o'rganish bilan bog'liq adabiyotlarda tavsiflangan jihatlarni batafsil ko'rib chiqish amalga oshirildi.

Ushbu bo'lim katta ma'lumotlarni qayta ishlash uchun mashinani o'rganish yondashuvlarining eng muhim muammolarini ko'rib chiqadi.

1-rasmda katta ma'lumotlar uchun mashinani o'rganish texnikasi bilan bog'liq muammolarni bir necha tomondan ko'rib chiqishni o'z ichiga olgan batafsil stsenariyni beramiz . U (i) keng miqyosli ma'lumotlar uchun o'rganish, (ii) turli tuzilgan ma'lumotlar uchun o'rganish, (iii) yuqori tezlikdagi oqimli ma'lumotlar uchun o'rganish, (iv) noaniq va to'liq bo'lmagan ma'lumotlar uchun o'rganish va (v) past qiymatli ma'lumotlarni o'rganishni o'z ichiga oladi. zichlik ma'lumotlari.

1-rasm: Katta ma'lumotlarni o'rganish usullari Texnologik taraqqiyot tufayli biz bilan shug'ullanadigan ma'lumotlar miqdori kundan-kunga o'sib bormoqda. 2017-yil noyabr oyida Google har kuni taxminan 25 petabayt ma'lumotni qayta ishlashi aniqlandi va bu oxir-oqibatda ma'lumotlarning o'zaro o'zaro bog'liqligini tasdiqlaydi .Ma'lumotlar hajmi katta ma'lumotlarning aniq asosiy atributidir, bu esa muhim muammo tug'diradi. Ushbu qiyinchilikni hal qilish uchun taqsimlangan va parallel ramkalar hisoblash afzal bo'lishi kerak.

Hozirgi vaqtda juda ko'p turli xil ma'lumotlar mavjud. Heterojen, chiziqli bo'lmagan va yuqori h o'lchovli ma'lumotlarga olib kelishi mumkin bo'lgan uchta turdagi ma'lumotlar tuzilgan, tuzilmagan va yarim tizimli ma'lumotlardir. Ushbu katta ma'lumotlar to'plamidan o'rganish juda katta muammo bo'lib, ma'lumotlarning murakkabligini oshirishga olib keladi. Natijada, ushbu to'siqni bartaraf etish uchun ma'lumotlar integratsiyasi talab qilinadi .

Muayyan vaqt oralig'ida ishni yakunlash kerak bo'lgan turli xil tadbirlar mavjud. Katta ma'lumotlarning tezligi uning eng muhim xususiyatlaridan biridir. Agar ish ma'lum bir vaqt ichida tugallanmasa, ishlov berish natijalari o'z qiymatini o'zgartirishi mumkin, agar foydasiz bo'lsa .Masalan, fond bozori prognozi, zilzilani bashorat qilish

SCIENTIFIC PROGRESS VOLUME 4 I ISSUE 4 I 2023 _ISSN: 2181-1601

Scientific Journal Impact Factor (SJIF 2022=5.016) Passport: http://sjifactor.com/passport.php?id=22257

va hokazo. Natijada, katta hajmdagi ma'lumotlarni o'z vaqtida qayta ishlash juda muhim va qiyin vazifadir. Qiyinchiliklarni bartaraf etish uchun onlayn ta'lim strategiyasidan foydalanish kerak .

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Ilgari ma'lumotlar aniqroq bo'lgan mashinani o'rganish algoritmlariga etkazilgan. Chunki o'sha paytda natijalar to'g'ri bo'lgan. Biroq, bugungi kun ma'lumotlari turli xil manbalardan olinganligi sababli noaniq va to'liq emas. Natijada, katta ma'lumotlar tahlilida qorong'ulik mashinani o'rganish uchun muhim masaladir. Ma'lumotlar sifatining noaniqligi va to'liqsizligini hal qilish va boshqarish muhimligini ta'kidlash uchun biz katta ma'lumotlar bilan o'rganish uchun to'rtinchi asosiy muammo sifatida haqiqatni sanab o'tamiz. Masalan, simsiz tarmoqlarda noaniq ma'lumotlar shovqin, so'nish, soya va boshqa omillar natijasida yaratilgan ma'lumotlardir. Bu qiyinchilikni yengish uchun tarqatishga asoslangan usuldan foydalanish kerak .

Mashinani o'rganish asosan katta ma'lumotlar tahlilida tijorat maqsadlarida katta hajmdagi ma'lumotlardan mazmunli ma'lumotlarni olish uchun ishlatiladi. Ma'lumotlarning qiymati uning eng muhim xususiyatlaridan biridir. Qiymat zichligi past bo'lgan katta hajmdagi ma'lumotlardan mazmunli qiymatni topish juda qiyin. Shunday qilib, bu katta ma'lumotlar tahlilida mashinani o'rganish uchun katta muammodir. Ushbu qiyinchilikni hal qilish uchun ma'lumotlarni qazib olish vositalari va ma'lumotlar bazasi bilimlarini kashf qilishdan foydalanish kerak. Ushbu texnologiyalar katta hajmdagi ma'lumotlardan muhim ma'lumotlarni olish uchun istiqbolli echimlarni taqdim etishi sababli o'ynaydi. Mualliflari ma'lumotlarni qazib olish texnikasi bo'yicha tadqiqotlarni ko'rib chiqdilar.

Machine Learning-ning katta ma'lumotlar tahlilidagi turli muammolarini ehtiyotkorlik bilan hal qilish kerak. Bozorda mashinani o'rganish bo'yicha ko'plab echimlar mavjudligi sababli, ularning barchasi o'qitish uchun juda ko'p ma'lumotlarni talab qiladi. Mashinani o'rganish modellari aniq bo'lishi uchun tuzilgan, tegishli va aniq tarixiy ma'lumotlarni o'rganishni talab qiladi. Boshqa qiyinchiliklar ham bo'lishi mumkin, ammo bu imkonsiz emas.

7 Xulosa

Mashinani o'rganish katta ma'lumotlar bilan bog'liq muammolarni hal qilish va katta ma'lumotlardan yashirin naqshlar, ma'lumotlar va bilimlarning bir qismini ochish uchun juda muhim, bu qobiliyatni fundamental biznes etakchiligi va mantiqiy tergov uchun haqiqiy rag'batga aylantirish uchun. Ushbu tadqiqot katta ma'lumotlarni qayta ishlashda mashinani o'rganish texnikasining rolini ko'rsatdi. U katta ma'lumotlarning umumiy ko'rinishini, shuningdek, mashinani o'rganish algoritmlari va usullarini taqdim etdi. Shuningdek, turli sohalarda mashinani o'rganish usullaridan foydalangan holda katta ma'lumotlarni qayta ishlash bo'yicha tegishli ishlar muhokama qilindi. Va nihoyat,

SCIENTIFIC PROGRESS VOLUME 4 I ISSUE 4 I 2023 _ISSN: 2181-1601

Scientific Journal Impact Factor (SJIF 2022=5.016) Passport: http://sjifactor.com/passport.php?id=222ff7

u katta ma'lumotlarni qayta ishlash maqsadida mashinani o'rganishdan foydalanish bilan bog'liq muammolar va muammolarni muhokama qildi.

Adabiyotlar

1. Mamasidiqova, I., Husanova, O., Madaminova, A., & Tojimamatov, I. (2023). DATA MINING TEXNALOGIYALARI METODLARI VA BOSQICHLARI HAMDA DATA SCIENCE JARAYONLAR. Центральноазиатский журнал образования и инноваций, 2(3 Part 2), 18-21.

2. Tojimamatov, I. N., Mamalatipov, O. M., & Karimova, N. A. (2022). SUN'IY NEYRON TARMOQLARINI O 'QITISH USULLARI. Oriental renaissance: Innovative, educational, natural and social sciences, 2(12), 191-203.

3. Nurmamatovich, T. I. (2021). RAQAMLI IQTISODIYOTNING GLOBALLASHUV JARAYONIDA IQTISOD TARMOQLARIDA QO'LLANILISHINING ASOSIY YO'NALISHLARI. Н34 Наука и инновации в XXI веке: Материалы Международной, 291.

4. Tuychievich, B. M., & Nurmamatovich, T. I. (2021). ЖАМИЯТДА РА^АМЛИ И^ТИСОДМЁТ. Н34 Наука и инновации в XXI веке: Материалы Международной, 189.

5. Kizi, A. Z. I., & Nurmamatovich, T. I. (2021). ZAMONAVIY DASTURLASH FANINI O'QITISHDA PYTHON DASTURLASH VOSITALARI YORDAMIDA AMALIY DASTURLAR YARATISHNING AHAMIYATI. Н34 Наука и инновации в XXI веке: Материалы Международной, 264.

6. Tojimamatov, I. N., Mamalatipov, O. M., & Karimova, N. A. (2022). SUN'IY NEYRON TARMOQLARINI O 'QITISH USULLARI.

7. Usmonov, B., Rakhimov, Q., & Akhmedov, A. (2023, March). The problem of takeoff and landing of a hereditarily deformable aircraft in a turbulent atmosphere. In AIP Conference Proceedings (Vol. 2612, No. 1, p. 060015). AIP Publishing LLC.

8. Усмонов, Б. Ш., & Рахимов, К. О. (2020). Построение математической модели в прямой и вариационной постановке задачи изгибно-крутильного колебания наследственно-деформируемого крыла самолета. Проблемы вычислительной и прикладной математики, (5), 108-119.

9. УСМОНОВ, Б., & РАХИМОВ, К. ПРОБЛЕМЫ ВЫЧИСЛИТЕЛЬНОЙ И ПРИКЛАДНОЙ МАТЕМАТИКИ. ПРОБЛЕМЫ ВЫЧИСЛИТЕЛЬНОЙ И ПРИКЛАДНОЙ МАТЕМАТИКИ Учредители: Научно-инновационный центр информационно-коммуникационных технологий, (4), 50-59.

10. Usmonov, B., & Rakhimov, Q. (2019). Vibration analysis of airfoil on hereditary deformable suspensions. In E3S Web of Conferences (Vol. 97, p. 06006). EDP Sciences.

SCIENTIFIC PROGRESS VOLUME 4 I ISSUE 4 I 2023 _ISSN: 2181-1601

Scientific Journal Impact Factor (SJIF 2022=5.016) Passport: http://sjifactor.com/passport.php?id=222ff7

11. L. Rao, "TechCrunch is part of the yahoo family of brands," Techcrunch.com, 2010. [Online]. Available:

12. https://techcrunch.com/2010/09/17/twitter-seeing-6-billion-api-calls-per-day-70k-per-second/ ( Accessed : 12 December 2021).

13. S. Mittal and O. Sangwan, "Big data analytics using machine learning techniques," in 9th Int. Conf. on Cloud Computing, Data Science & Engineering (Confluence), Amity University, India, 2019.

14. R. Bhatnagar, A. Hassanien, M. Tolba, M. Elhoseny and M. Mostafa, "Machine learning and big data processing: A technological perspective and review," The International Conference on Advanced Machine Learning Technologies and Applications, Advances in Intelligent Systems and Computing, Springer, Cham, vol. 723, pp. 468-478, 2018.

15. J. Qiu, Q. Wu, G. Ding, Y. Xu and S. Feng, "A survey of machine learning for big data processing,"Journal on Advances in Signal Processing, vol. 2016, no. 1, pp. 1-16, 2016.

16. S.SinghandU.Jaiswal,"Machinelearningforbigdata:Anewperspective,"InternationalJ ournalofApplied Engineering Research, ISSN 0973-4562, vol. 13, no. 5, pp. 27532762, 2018.

i Надоели баннеры? Вы всегда можете отключить рекламу.