|
10-Mavzu: Ma’lumotlar bazalari va katta hajmdagi ma’lumotlar bilan ishlash texnologiyalari Reja
|
bet | 14/44 | Sana | 10.06.2024 | Hajmi | 0,95 Mb. | | #262104 |
Bog'liq 10-Mavzu Ma’lumotlar bazalari va katta hajmdagi ma’lumotlar bilGorizontal mashtablilik. Bu katta ma'lumotlarni qayta ishlashning asosiy tamoyilidir. Yuqorida aytib o'tganimizdek, kundan kunga katta ma'lumotlar ortmoqda. Shunga ko'ra, ushbu ma'lumotlar tarqatiladigan hisoblash tugunlari sonini ko'paytirish va sifat darajasini oshirish lozim. Ma'lumotlar miqdori 2 barobar oshdi degani - klasterdagi temir miqdori 2 barobar oshdi degani.
Faoliyat barqarorligi. Ushbu tamoyil avvalgisidan kelib chiqadi. Klasterda ko'plab hisoblash tugunlari bo'ladi (ba'zan o'n minglab) va ularning soni ko'payishi aniq. Shuning uchun mashinaning ishlamay qolish ehtimoli oshadi. Masalan, Yahoo-ning Hadoop klasterida 42000 dan ortiq mashinalar mavjud. Ma'lumotlarning katta qismi bunday uzilishlar ehtimolini hisobga olishi va ularni sifatli saqlab turishi kerak.
Ma’lumotlarning lokalligi. Ma'lumotlar juda ko'p sonli hisoblash tugunlari bo'yicha tarqatilganligi sababli, agar ular bir serverda jismonan joylashgan bo'lsa va boshqasida qayta ishlansa, ma'lumot uzatish xarajatlari asossiz ravishda katta bo'lishi mumkin. Shuning uchun, ular saqlanadigan o’sha mashinada ma'lumotlarni qayta ishlash maqsadga muvofiqdir.
Ushbu tamoyillar yaxshi tuzilgan ma'lumotlar uchun an'anaviy, markazlashtirilgan, vertikal saqlash modellarida mavjud bo'lganlardan farq qiladi. Shunga ko'ra, katta ma'lumotlar bilan ishlash uchun yangi yondashuvlar va texnologiyalar ishlab chiqilmoqda.
Dastlab yondashuvlar va texnologiyalar to'plamiga noSQL MBBT, MapReduce algoritmlari va Hadoop loyiha vositalari kabi tuzilgan ma'lumotlarni massiv ravishda parallel qayta ishlash vositalari kiritilgan. Keyinchalik juda katta hajmdagi ma'lumotlar massivlarini qayta ishlashga o'xshash imkoniyatlarni ta'minlaydigan boshqa yechimlar va ba'zi bir qo'shimcha qurilmalar katta ma'lumotlar texnologiyalari deb nomlana boshlandi.
MapReduce — Google tomonidan taqdim etilgan kompyuter klasterlarida taqsimlangan parallel hisoblash modeli. Ushbu modelga muvofiq, dastur klaster tugunlarida bajariladigan va so'ngra yakuniy natijaga qadar tabiiy ravishda kamaytirilgan bir xil elementar topshiriqlarning ko'p soniga bo'linadi9.
MapReduce ishlash tamoyili 8.4-rasmda ko’rsatilgan.
Рис. 8.4. MapReduce.
MapReduce ma'lumotlar ba'zi yozuvlar shaklida tartibga solinishini nazarda tutadi. Ma'lumotlarni qayta ishlash 3 bosqichda amalga oshiriladi:
Map bosqichi. Ushbu bosqichda ma'lumotlar foydalanuvchi tomonidan belgilanadigan map () funksiyasi yordamida oldindan qayta ishlanadi. Ushbu bosqichning vazifasi ma'lumotlarni qayta ishlash va filtrlashdir. Jarayon funksional dasturlash tillaridagi xarita ishlashiga juda o'xshaydi - har bir kirish yozuviga foydalanuvchi tomonidan belgilangan funksiya qo'llaniladi.
Bitta kirish yozuviga qo'llaniladigan map () funksiyasi bir nechta kalit-qiymat juftligini hosil qiladi. To'plam - faqat bitta yozuvni qaytarishi, hech narsa qaytarmasligi yoki bir nechta kalit-qiymat juftligini qaytarishi mumkin. Kalit va qiymatda nima bo'lishini foydalanuvchi o'zi hal qilishi kerak, ammo kalit juda muhim. Chunki bitta kalitli ma'lumotlar kelajakda reduce funksiyasining bitta ekzemplyarida bo’ladi.
|
| |