• Siqish(compression)
  • Ma’lumotlarning o’xshashlik (takrorlanish) larni kamaytirish(Data deduplication)




    Download 2,38 Mb.
    bet7/14
    Sana17.01.2024
    Hajmi2,38 Mb.
    #139936
    1   2   3   4   5   6   7   8   9   10   ...   14
    Bog'liq
    Top

    Ma’lumotlarning o’xshashlik (takrorlanish) larni kamaytirish(Data deduplication) – Xotirada ma’lumotdagi o’xshash qismlarni baholaydi. Faqatgina takrorlangan qismlardan bittasini yuklaydi va shu nusxani ma’lumotning shu qismiga foydalanuvchi kirganida ishlatadi.
    1 ta obyektli xotira (Single-instance storage)- bu fayllar bilan ishlaydi. Misol, 1 ta fayl bir nechta odamga yuborilgan, bunda, bu fayllardan faqat 1 ta nusxa olinadi. Bu texnologiya pointerdan foydalanadi.
    Siqish(compression) – Ma’lumotlarning o’xshashlik( takrorlanish) larini kamaytirish ga o’xshab ketadi. Farqi u fayllar bilan ishlaydi, faqat. Birliklar bitlarda o’lchanadi, solishtiriladi. Algoritmi Data deduplication texnologiyasi bilan bir xil.
    Numerosity Reduction - Ma’lumotlarni ochib berishning qulay bir formasidan foydalanib, ma’lumotning bir qismini kamaytirishga ishlatiladigan texnologiya (Data reduction texnologiyasi.).Parametrli yoki parametrsiz turlarda bo’ladi. Parametrli metodlar uchun, model ma’lumotni baholashga ishlatiladi. Bunda, ma’lumot emas, parametrlar xotiraga yuklanadi. Parametrsiz metodlar uchun, histogramma va boshqa grafik ma’lumotlar, sinflashtirish, soddalashtirish kabi kamaytirilgan ifodalar yuklanadi xotiraga.

    37

    Hajmining qisqarishi (Dimensionality Reduction) nima maqsadga qo’llaniladi?




    Dimensionality Reduction – O’qituvchisiz mashinali o’qitish da ishlatiladi. Ma’lumotdagi o’zgaruvchilar sonini kamaytirib berish jarayoni. Misol, Agar foydalanuvchining qidiruvchi ma’lumotida 3 ta o’zgaruvchi bo’lsa, bu ma’lumotlar to’plami orasida, qidirish uchun 3 o’lchamli fazoda olinadi, degani. Agar bu miqdor n(10, 100, 1000, ...) ga sozlansa, Bunda qidiruv, qayta ishlash algoritmlari chigal bo’lib ketadi. Qolaversa, tasavvur qila olish mumkin bo’lgan fazolar: 2D, 3D. Bunda bu algoritm muhim o’zgaruvchilarni saralab olish, oshiqchalarini kamaytirish imkonini beradi. Shu maqsadda.

    38

    Sonni kamaytirish (Numerosity Reduction) nima maqsadga qo’llaniladi?




    Ma’lumotlarni ochib berishning qulay bir formasidan foydalanib, ma’lumotning bir qismini kamaytirishga ishlatiladigan texnologiya (Data reduction texnologiyasi.).Parametrli yoki parametrsiz turlarda bo’ladi. Parametrli metodlar uchun, model ma’lumotni baholashga ishlatiladi. Bunda, ma’lumot emas, parametrlar xotiraga yuklanadi. Parametrsiz metodlar uchun, histogramma va boshqa grafik ma’lumotlar, sinflashtirish, soddalashtirish kabi kamaytirilgan ifodalar yuklanadi xotiraga.

    39

    Sonni kamaytirishning parametric bo’lgan hol uchun yoritib bering.




    Parametrli metodlar uchun, model ma’lumotni baholashga ishlatiladi. Bunda, ma’lumot emas, kiritilgan parametrlar xotiraga yuklanadi.

    40

    Sonni kamaytirishning non-parametric bo’lgan hol uchun yoritib bering.




    Parametrik bo'lmagan ma'lumotlarni qisqartirish texnikasi - bu ma'lumotlar uchun hech qanday modelni nazarda tutmaydigan ma'lumotlarni qisqartirish usuli.
    Parametrik bo'lmagan ma'lumotlarni qisqartirish (NDR) usullari parametrik ma'lumotlarni qisqartirish (PDR) texnikasiga qarama-qarshidir. PDR texnikasi ma'lumotlar uchun ma'lum bir modelni qabul qilishi kerak. Modelning parametrlari ma'lumotlarni qisqartirish amalga oshirilishidan oldin aniqlanadi. NDR texnikasi hech qanday modelni qabul qilmaydi va to'g'ridan-to'g'ri ma'lumotlarga qo'llaniladi. PDR texnikasining ma'lumotlarni qisqartirish samaradorligi ko'p jihatdan modelning ma'lumotlarga mos kelishiga bog'liq. Agar yaxshi moslashtirilgan bo'lsa, yaxshi aniqlikka, shuningdek, ma'lumotlarni sezilarli darajada qisqartirishga erishish mumkin; aks holda, ikkalasiga bir vaqtning o'zida erishib bo'lmaydi. NDR texnikasi ma'lumotlardan qat'i nazar, bir xil samaradorlikni beradi, ammo u yaxshi moslangan PDR texnikasi kabi yuqori ma'lumotlarni qisqartirishga erisha olmaydi.
    Ommabop NDR texnikasiga gistogrammalar, klasterlar va indekslar kiradi. Gistogrammalar ma'lumotlar taqsimotini taxminiy ravishda taqsimlash uchun ishlatiladi.

    41

    Ma'lumotlar kubini yig'ish (Data Cube Aggregation) jarayonini misollar asosida yoritib bering.




    Ushbu uslub ma'lumotlarni oddiyroq shaklda jamlash uchun ishlatiladi. Ma'lumotlar kubini yig'ish - bu asl ma'lumotlar to'plamini ko'rsatish uchun ma'lumotlar kubining turli darajalarida yig'ilishdan foydalanadigan ko'p o'lchovli yig'ish, shu bilan ma'lumotlarning qisqarishiga erishiladi.
    Misol uchun, sizda 2018 yildan 2022 yilgacha bo'lgan har chorakda All Electronics savdosi haqidagi ma'lumotlaringiz bor deylik. Agar siz yiliga yillik sotuvga erishmoqchi bo'lsangiz, har bir yil uchun choraklik savdolarni jamlashingiz kifoya. Shunday qilib, yig'ish sizga hajmi jihatidan ancha kichik bo'lgan kerakli ma'lumotlarni taqdim etadi va shu bilan biz hech qanday ma'lumotlarni yo'qotmasdan ham ma'lumotlarni qisqartirishga erishamiz.

    Ma'lumotlar kubini yig'ish - bu ko'p o'lchovli tahlilni osonlashtiradigan ko'p o'lchovli yig'ish. Ma'lumotlar kubi oldindan hisoblangan va umumlashtirilgan ma'lumotlarni taqdim etadi, bu esa ma'lumotlarni tez kirishni osonlashtiradi.



    42

    Ma'lumotlarni siqish (Data Compression) jarayonini misollar asosida yoritib bering.




    Ma'lumotlarni siqish ma'lumotlar strukturasini o'zgartirish, kodlash yoki kamroq joy sarflaydigan tarzda aylantirishni qo'llaydi. Ma'lumotni siqish ortiqcha narsalarni olib tashlash va ma'lumotlarni ikkilik shaklda taqdim etish orqali ma'lumotlarning ixcham ko'rinishini yaratishni o'z ichiga oladi. Siqilgan shakldan muvaffaqiyatli tiklanishi mumkin bo'lgan ma'lumotlar yo'qotishsiz siqish deb ataladi. Bundan farqli o'laroq, siqilgan shakldan asl shaklni qayta tiklash mumkin bo'lmagan holatlarning aksi - Lossy siqish. Ma'lumotlarni siqish uchun o'lchovlilik va sonni kamaytirish usuli ham qo'llaniladi.

    Ushbu uslub Huffman Encoding va run-length Encoding kabi turli xil kodlash mexanizmlari yordamida fayllar hajmini kamaytiradi. Ularning siqish texnikasiga ko'ra uni ikki turga bo'lishimiz mumkin.


    Download 2,38 Mb.
    1   2   3   4   5   6   7   8   9   10   ...   14




    Download 2,38 Mb.

    Bosh sahifa
    Aloqalar

        Bosh sahifa



    Ma’lumotlarning o’xshashlik (takrorlanish) larni kamaytirish(Data deduplication)

    Download 2,38 Mb.