• Nature
  • Katta ma’lumotlarni qayta ishlash texnologiyalari (Big Data)




    Download 33.95 Kb.
    bet1/2
    Sana26.02.2024
    Hajmi33.95 Kb.
    #162765
      1   2
    Bog'liq
    1380912, bitiruv malakaviy ish landshaftlarni tasniflash va uning amaliy ahamiyati, 87985, Лаба№5 В ПЛАНЕ отчет, 4-дарс, 2000 Учёт издержек в туризме Козырева Т.В, Xizmatlar uz mart, Мукаммал хотира, 1-Mavzu1, Iqtisodiyot nazariya furqat, #2 Strmark, Маьлумот, Bekzod modellashtirish, Tohir Malik. Murdalar Gapirmaydilar. T, Mustaqil ish Mavzusi Qorayeva M

    Katta ma’lumotlarni qayta ishlash texnologiyalari (Big Data)


    Samarqand iqtisodiyot va servis instituti
    Axborot texnologiyalari” kafedrasi
    oʻqituvchisi assistent stajyor
    Tolmasbek. X. Karimov
    “BIG DATA” iborasi 2008-yilda Klifford Linchning yengil qo‘li bilan paydo bo‘ldi. Nature jurnalining maxsus sonida mutaxassis axborot oqimlarining portlovchi o‘sishini – BIG DATA deb atadi. Unda u kuniga 150 Gb dan ortiq bo‘lgan har qanday ma’lumotlarning massivlarini kiritdi.
    2011-yilgacha katta ma’lumot texnologiyalari faqat ilmiy tahlil sifatida ko‘rib chiqilgan va amaliy yechim topmagan. Biroq, ma’lumotlar miqdori keskin o‘sib bordi va juda ko‘p miqdordagi tartiblanmagan ma’lumotlar muammosi 2012-yil boshida dolzarb bo‘lib qoldi.
    Katta ma'lumotlarni qayta ishlash texnologiyalari katta hajmdagi ma'lumotlarni to'plash, saqlash, tahlil qilish va vizualizatsiya qilish uchun vositalar, usullar va platformalar to'plamini o'z ichiga oladi. Mana ulardan ba'zilari:
    1. Taqsimlangan ma'lumotlarni saqlash (tarqatilgan fayl tizimi) - Apache Hadoop va Apache Spark kabi tizimlar kompyuterlar klasterida parallel ravishda ma'lumotlarni saqlash va qayta ishlash imkonini beradi.
    2. Relyatsion ma'lumotlar bazalari - An'anaviy ma'lumotlar bazasini boshqarish tizimlari (DBMS) tuzilgan ma'lumotlarni saqlash va murakkab so'rovlarni bajarish uchun ishlatilishi mumkin.
    3. NoSQL ma'lumotlar bazalari - bu ma'lumotlar bazalari katta hajmdagi tuzilmagan ma'lumotlar bilan ishlash uchun maxsus ishlab chiqilgan, qat'iy sxema tuzilmasini talab qilmaydi va veb-miqyosdagi ma'lumotlar bilan ishlay oladi.
    4. Ma'lumotlar oqimlarini qayta ishlash usullari (Stream Processing) - Apache Kafka va Apache Flink real vaqtda doimiy ravishda kiruvchi ma'lumotlarni qayta ishlash imkonini beradi.
    5. Mashinani o'rganish va ma'lumotlar tahlili - Python va R kabi texnologiyalar katta hajmdagi ma'lumotlarni tahlil qilish uchun mashinani o'rganish algoritmlari va modellarini yaratish uchun ishlatiladi.
    6. Tableau, QlikView va Power BI kabi maʼlumotlarni vizualizatsiya qilish vositalari sizga maʼlumotlarni oson oʻqiladigan shaklda taqdim etish va ularni vizual tarzda oʻrganish imkonini beradi.
    7. Bulutli texnologiyalar – Amazon Web Services (AWS) va Microsoft Azure kabi bulutli platformalarning aksariyati katta ma’lumotlarni qayta ishlash uchun maxsus vositalar va xizmatlarni taqdim etadi.
    Bular yirik ma'lumotlar texnologiyalarining bir qismi bo'lib, har yili yangi vositalar va texnikalar paydo bo'ladi. Ularning barchasi ko'proq asosli qarorlar qabul qilish va qimmatli bilim va tushunchalarni aniqlash uchun katta hajmdagi ma'lumotlarni qayta ishlash, tahlil qilish va ulardan foydalanishga qaratilgan.
    Katta ma'lumotlar variantlari
    Katta ma'lumotlarning asosiy xususiyatlari oltita "V" sifatida belgilanadi:
    ● Hajmi - hajmi - kuniga 150 GB dan.
    ● Tezlik - tezlik. Katta ma'lumotlarning hajmi va mazmuni har soniyada o'zgarib turadi, shuning uchun uni katta hisoblash quvvati yordamida to'plash va qayta ishlash kerak. Masalan, barcha samolyot yo'nalishlarini onlayn ko'rsatadigan FlightRadar24 xizmati.
    ● xilma-xillik - xilma-xillik. Katta ma'lumotlar qatoriga fotosuratlar, videolar va matnlar, turli o'lcham va formatdagi fayllar, turli manbalardan olingan ma'lumotlar kiradi. Oddiy ma'lumotlar odatda bir hil bo'ladi, masalan, har bir xodimning to'liq ismi ko'rsatilgan Excel jadvali.
    ● Haqiqiylik - ishonchlilik. Katta ma'lumotlar faqat ishonchli manbalardan to'planadi va tahlil qilish uchun aniq va ob'ektiv usullar qo'llaniladi. Shuning uchun korporatsiyalar va xalqaro tashkilotlar ushbu ma'lumotlar asosida strategik qarorlar qabul qiladilar.
    ● oʻzgaruvchanlik – oʻzgaruvchanlik. Katta ma'lumotlar onlayn tarzda yangilanadi, shuning uchun uning oqimi beqaror. Bunga uzatish tezligi, manbalardagi o'zgarishlar, foydalanuvchi harakatlari va hatto fasllarning o'zgarishi ta'sir qiladi. Ma'lumotlarni tahlil qilishda siz ushbu omillarning barchasini hisobga olishingiz va taxmin qilishingiz kerak. Masalan, havo qatnovi to'g'risidagi ma'lumotlar parvozning kechikishi va yo'nalish o'zgarishiga olib keladigan ob-havo sharoitlariga tuzatishlar bilan ishlatilishi kerak.
    ● Qiymat - qiymat. Ma'lumotlarning o'zi hech narsani anglatmaydi, lekin unga asoslanib, siz chuqur xulosalar chiqarishingiz va asosli qarorlar qabul qilishingiz mumkin. Masalan, yil davomida yo'llarda harakatlanishni tahlil qiling va shahar transporti uchun marshrutlarni qanday qilib eng yaxshi qurish kerakligini tushuning.
    Katta ma'lumotlar ham:
    ● Strukturaviy - ya'ni allaqachon ma'lum parametrlarga ko'ra belgilangan. Aytaylik, bemorlarning asosiy tibbiy ko'rsatkichlari bo'yicha ma'lumotlar: harorat, bosim, qon testlari va EKG.
    ● Qisman tuzilgan, masalan, so'nggi besh yil ichida mintaqadagi tabiiy ofatlar qayd etilgan turli formatdagi fayllar.
    ● Tarkibi bo'lmagan, masalan, barcha VK foydalanuvchilarining fotosuratlari, musiqalari va xabarlari.
    Katta ma'lumotlar va oddiy ma'lumotlar o'rtasidagi yana bir muhim farq uning taqsimlangan tuzilishidir. Bu ularni turli mikroservislar yordamida boshqarish va tahlil qilish mumkinligini anglatadi.
    Big Data texnologiyasi qanday ishlaydi: yig'ish, saqlash, qayta ishlash
    Katta ma'lumotlar uchun ishlatiladigan texnologiyalar:
    1. To'plam
    Katta ma'lumotlar turli manbalardan to'planadi:
    ● Ijtimoiy - foydalanuvchilar ijtimoiy tarmoqlarda, onlayn xizmatlarda va ilovalarda nashr etadigan va qiladigan hamma narsa. Bunga fotosuratlar, videolar, audio, messenjerlardagi xabarlar, geolokatsiyalar va xeshteglar kiradi.
    ● Statistik - odamlar, hayvonlar, transport vositalari, tovarlar va xizmatlar, siyosiy va iqtisodiy hodisalar haqidagi davlat idoralari va tadqiqot kompaniyalarining barcha ma'lumotlari.
    ● Tibbiy - tibbiy ko'rsatkichlar, testlar, apparat diagnostikasi, emlashlar, kasallik tarixi haqidagi elektron yozuvlardan olingan ma'lumotlar.
    Mashina - kuzatuv kameralari, videoregistratorlar, boshqaruv tizimlari va aqlli qurilmalardan olingan yozuvlar.
    ● tranzaksiya - banklar va boshqa moliyaviy xizmatlar orqali to'lovlar va o'tkazmalar to'g'risidagi ma'lumotlar.
    Yig'ish jarayonida ma'lumotlar tozalash yoki ma'lumotlarni tozalashdan o'tadi. Ushbu bosqichda maxsus dasturlar yordamida ma'lumotlar topiladi, tanlanadi va filtrlanadi, aniqligi va belgilangan parametrlarga muvofiqligi tekshiriladi. Ma'lumotlarni tozalash bo'yicha mutaxassislar algoritmlar foydalanuvchi so'rovlariga javoban ma'lumotlarning kerakli segmentlarini topishni osonlashtirishi uchun ma'lumotlar to'plamini belgilaydilar.
    Ma'lumotlar to'liq yoki qisman oxirgi muvaffaqiyatli qidiruvdan keyin olinadi. Masalan, ob-havo prognozini tuzishda ular faqat oxirgi 24 soatlik ma'lumotlardan foydalanadilar. Katta ma'lumotni ma'lum bir muddatga olish uchun saqlash maxsus ma'lumotlarni yig'ish funktsiyasidan foydalanadi.
    2. Saqlash
    Oddiy ma'lumotlar bitta kompyuterga yoki onlayn diskka mos keladi. Bu katta ma'lumotlar bilan ishlamaydi, shuning uchun u bulutli serverlar va taqsimlangan hisoblash quvvati yordamida saqlanadi va qayta ishlanadi. Buning yordamida bir vaqtning o'zida bir nechta odamlar turli nuqtalardan kirish huquqiga ega bo'lgan Big Data bilan ishlashlari mumkin.
    Katta ma'lumotlarni saqlash uchun:
    ● DWH - yoki ma'lumotlar ombori - kompaniya hisobotlarni ishlab chiqaradigan va qarorlar qabul qiladigan barcha ma'lumotlarning yagona ombori. Ulardagi fayllar qo'llanish sohalari bo'yicha guruhlangan va xronologik tartibda joylashtirilgan. Masalan, barcha mijozlar, tranzaktsiyalar va bo'limlar haqida ma'lumotlarni to'playdigan onlayn-do'konning DWH. Ulardagi ma'lumotlar ETL printsipi bo'yicha qabul qilinadi (ingliz tilidan Extract, Transform, Load): avval u chiqariladi, so'ngra o'zgartiriladi va keyin bitta formatda yuklanadi.
    ● Data Lake - yagona format va aniq tuzilishga ega bo'lmagan ma'lumotlar ko'llari. Bu erda protsedura quyidagicha: qazib olish, ma'lumotlar bazasiga yuklash va joriy vazifalar uchun mos formatga aylantirish. Ma'lumotlar ko'li matnlar, fotosuratlar va PDF-fayllar saqlanadigan virtual diskga o'xshaydi, ma'lumotlar bazasi esa ularning barchasi ro'yxatga olingan jadvaldir.
    ● DBMS - ma'lumotlar bazasini boshqarish tizimlari, aloqador yoki aloqasiz bo'lishi mumkin. Katta ma'lumotlar bilan ishlash uchun birinchilardan ko'proq foydalaniladi - ulardagi ma'lumotlar kalitlar bilan o'zaro bog'langan jadvallar shaklida tashkil etilgan va so'rovlar uchun ular maxsus til - SQL dan foydalanadilar. Masalan, Yandex Metrica xizmatida qo'llaniladigan ClickHouse ustunli DBMSda veb-sayt trafigiga oid barcha ma'lumotlar bir nechta jadvallarda saqlanadi. Satrlar sahifa ko'rinishi kabi hodisalar, ustunlar esa mobil qurilmalardan konvertatsiya qilish kabi parametrlardir. Bu bir vaqtning o'zida bir nechta parametrlardan foydalangan holda bir necha soniya ichida sayt uchun trafik hisobotini yaratishga imkon beradi, chunki ularning barchasi qo'shni hujayralarda joylashgan.

    Ko'pgina kompaniyalar aloqador bo'lmagan ma'lumotlar bazasidan foydalanadilar. Ularda ma'lumotlar bir-biriga bog'liq bo'lgan jadvallarga aylantirilmaydi, balki boshqa, oldindan belgilangan sxema bo'yicha saqlanadi. Bu sizga kerakli ma'lumotlarni saqlashdan tezda joylashtirish va olish, shuningdek, yuqori yuklangan ilovalarni ishga tushirish imkonini beradi. Aytaylik, Amazon’dan DynamoDB turli so‘rovlar tillarini qo‘llab-quvvatlaydigan serversiz NoSQL DBMS hisoblanadi. U aqlli uy tizimlarida, onlayn o'yinlarda va reklama xizmatlarida qo'llaniladi.


    3. Qayta ishlash
    An'anaviy vositalar yordamida katta hajmdagi ma'lumotlarni qayta ishlash qiyin bo'ladi: bu juda ko'p vaqtni oladi. Ushbu vazifalar uchun MapReduce texnologiyasidan foydalangan holda ishlaydigan maxsus dasturiy ta'minot qo'llaniladi. Birinchidan, algoritm belgilangan parametrlar bo'yicha ma'lumotlarni tanlaydi, so'ngra ularni alohida tugunlar, serverlar yoki kompyuterlar o'rtasida taqsimlaydi va keyin ular bir vaqtning o'zida bir-biriga parallel ravishda ushbu ma'lumotlar segmentlarini qayta ishlaydi.
    MapReduce-dan foydalanadigan xizmatlarga misollar:
    ● Hadoop - bu bir nechta mutaxassislarga bir vaqtning o'zida Big Data to'plash, saqlash va ular bilan ishlash imkonini beruvchi ochiq manbali xizmat. U yukni avtomatik ravishda qayta taqsimlaydi, agar tugunlardan biri ishlamay qolsa, qolganlari o'z o'rnida ishlashni davom ettiradi.
    ● Apache Spark - bu yuqori tezlikda yangilanadigan oqimli ma'lumotlar bilan ishlash uchun bir nechta kutubxonalar xizmati. Shu bilan birga, ichidagi ma'lumotlarni filtrlash, qayta ishlash va neyron tarmoqlarni mashina o'rganish uchun ishlatish mumkin.
    Ma'lumot to'plash sifatini kuzatish, uni tuzish va kerakli narsani topish uchun ba'zi kompaniyalar mutaxassislarni - DWH tahlilchilarini yollashadi.
    4. Tahlil
    Ishingizda katta ma'lumotlardan foydalanish uchun uni turli parametrlar bo'yicha tahlil qilishingiz kerak. Bunga yordam bering:
    ● SQL — relyatsion DBMSlar bilan ishlashda foydalaniladigan soʻrovlar tili.
    ● Neyron tarmoqlar bir necha soniyalarda tonnalab ma'lumotlarni qayta ishlash va eng murakkab vazifalar uchun aniq ma'lumotlarni taqdim etish uchun mashinani o'rganishdan foydalangan holda o'rgatilgan.
    Ma'lumotlarning kerakli segmentlarini ajratib olish va ularni tushunarli hisobotlar va grafiklarga aylantirish uchun ular Business Intelligence (BI) asosidagi maxsus tahliliy xizmatlardan foydalanadilar. Masalan, Microsoft-ning Power BI - bu CRM, Excel elektron jadvallari va boshqa manbalardan ma'lumotlarni to'playdigan, so'ngra ularni interaktiv hisobotlar shaklida taqdim etadigan biznes razvedka xizmati.
    Ma'lumotlar fanlari bo'yicha mutaxassis kursida talabalar eng mashhur vositalar va texnologiyalardan foydalangan holda Big Data bilan ishlashga o'rgatiladi. Va asosiysi, "xom" ma'lumotlardan eng qimmatli narsalarni ajratib olish va biznesga yordam beradigan qarorlar qabul qilishdir.
    Katta ma'lumotlar tahlili qayerda qo'llaniladi?
    Katta ma'lumotlar biznes, davlat sektori va sanoatda qo'llaniladi. Bu erda katta ma'lumotlar eng ko'p ishlatiladigan sohalar:
    ● Transport. Yo'nalishlar va avtomobil tezligi bo'yicha katta ma'lumotlardan foydalangan holda, navigatorlar tirbandliklarni hisobga olgan holda eng qisqa marshrutni taklif qilishadi.
    ● Mobil aloqa va Internet. Uyali aloqa operatorlari har bir hududda tarmoq yuklanishini bashorat qilish uchun katta maʼlumotlardan foydalanadilar va qayerda oddiy uyali aloqa minoralari yetarli emasligini va qayerda 5G borligini tushunishadi.
    ● Tibbiyot. Katta ma'lumotlar yordamida epidemiya qanday rivojlanishini va qaysi vaqtda vaksinalar ishlab chiqarishni ko'paytirish zarurligini taxmin qilish mumkin.
    ● Marketing. Misol uchun, Amazon katta ma'lumotlardan foydalangan holda o'qitilgan va xizmatni barcha daromadlarning 35% gacha olib keladigan mahsulotni tavsiya qilish tizimidan foydalanadi.
    ● HR. Muvaffaqiyatli nomzodlarning millionlab profillariga asoslanib, siz eng mos nomzodlarni avtomatik ravishda tanlab oladigan va ularga intervyu uchun taklifnoma yuboradigan algoritm yaratishingiz mumkin.
    ● Ishlab chiqarish. Katta ma'lumotlar ishchilarning ishini ustaxonalarda baxtsiz hodisalar xavfini kamaytiradigan tarzda tashkil etishga yordam beradi.
    ● Fintech. Barcha firibgarlik holatlari bo'yicha ma'lumotlarga asoslanib, banklar onlayn to'lovlar uchun eng xavfsiz xizmatlarni yaratishi mumkin.
    ● Ta'lim. Katta hajmdagi ma'lumotlar abituriyentlar uchun universitetlarning shaxsiy tavsiyalarini va bitiruvchilar uchun kasblar bo'yicha tavsiyalar berishga yordam beradi.
    ● Narsalar interneti. Katta ma'lumotlar aqlli qurilmalar, sensorli sensorlar, kuzatuv kameralari va o'zi boshqariladigan avtomobillarni boshqarish tizimlarini yanada yaxshiroq ishlashi va odamlar hayotini osonlashtirish uchun ishlatiladi.
    ● Fan. Tadqiqot natijalari, so'rovlar va asboblarni o'qish noaniq naqshlarni aniqlashga va fanning turli sohalarida yangi kashfiyotlar qilishga yordam beradi.
    ● Davlat boshqaruvi. Davlat idoralari va xalqaro tashkilotlar uchun statistik ma'lumotlar ko'rinishidagi katta ma'lumotlar resurslarni yaxshiroq taqsimlashga va odamlar uchun haqiqatan ham dolzarb bo'lgan muammolarga javob berishga yordam beradi.
    ● Sun'iy intellekt va robotlar. Haqiqiy dialoglar bilan ma'lumotlar to'plamidan foydalanib, kompaniyalar texnik yordam yoki qo'ng'iroq markazi xodimlarini almashtiradigan ovozli va chat botlarini o'rgatadilar.


    Download 33.95 Kb.
      1   2




    Download 33.95 Kb.

    Bosh sahifa
    Aloqalar

        Bosh sahifa



    Katta ma’lumotlarni qayta ishlash texnologiyalari (Big Data)

    Download 33.95 Kb.