|
10-Mavzu: Ma’lumotlar bazalari va katta hajmdagi ma’lumotlar bilan ishlash texnologiyalari Reja
|
bet | 15/44 | Sana | 10.06.2024 | Hajmi | 0,95 Mb. | | #262104 |
Bog'liq 10-Mavzu Ma’lumotlar bazalari va katta hajmdagi ma’lumotlar bilShuffle bosqichi. Foydalanuvchi tomonidan sezilmasdan o'tadi. Ushbu bosqichda xarita funktsiyasining chiqishi "savatlarga ajratiladi" - har bir savat xarita bosqichining bitta chiqish kalitiga to'g'ri keladi. Kelajakda ushbu savatlar reduce uchun ma'lumot sifatida xizmat qiladi.
Reduce bosqichi. Shuffle bosqichida hosil bo'lgan har bir "savat" reduce () ga o’tadi.
Reduce funksiyasi foydalanuvchi tomonidan belgilanadi va alohida "savat" uchun yakuniy natijani hisoblab chiqadi. Reduce () funksiyasi tomonidan qaytarilgan barcha qiymatlar to'plami MapReduce vazifasining yakuniy natijasidir. MapReduce haqida bir nechta qo'shimcha ma'lumotlar:
Map funksiyasining barchasi mustaqil va parallel ravishda ishlaydi. Shu jumladan klasterdagi turli xil mashinalarda ham ishlashi mumkin.
Reduce funksiyasining barchasi mustaqil va parallel ravishda ishlaydi. Shu jumladan klasterdagi turli xil mashinalarda ham ishlashi mumkin.
Shuffle funksiyasining ichki tuzilishi parallel bo’lib, u ham klasterdagi turli xil mashinalarda ishlashi mumkin. 1-3-bandlar gorizontal mashtablashtirish tamoyilini bajarishga imkon beradi.
Map funksiyasi odatda ma'lumotlar saqlanadigan o'sha mashinada qo'llaniladi - bu tarmoq orqali ma'lumotlar uzatilishini kamaytirishga imkon beradi (ma'lumotlar lokalligi tamoyili).
MapReduce – bu har indekslar mavjudligini va doim to'liq ma'lumotlarni skanerlash degani. Bu MapReduce juda tez javob talab etilganda juda yomon ishlashini anglatadi.
NoSQL (Not Only SQL) — turli norelatsion ma'lumotlar bazalari va omborlari uchun umumiy atama bo’lib, ma'lum bir texnologiya yoki mahsulotga tegishli emas. An'anaviy relyatsion ma'lumotlar bazalari juda tez va bir xil so'rovlar uchun juda mos keladi va aksincha katta ma'lumotlarga xos bo'lgan murakkab va egiluvchan so'rovlarda bosim o'rtacha me'yordan oshib ketadi va MBBT dan foydalanish samarasiz bo'ladi.
Hadoop — yuzlab va minglab tugunlarning klasterlarida ishlaydigan tarqatiladigan dasturlarni ishlab chiqish va bajarish uchun utilita, kutubxonalar va ramkalar to'plami. Bu katta ma'lumotlarning asoslaridan biri hisoblanadi.
R — statistik ma'lumotlarni qayta ishlash va grafikalar uchun dasturlash tili. U ma'lumotlarni tahlil qilish maqsadida keng qo'llaniladi va statistik dasturlarning amaldagi standartiga aylangan.
|
| |