Bu "katta ma'lumotlar" ning asosiy texnologiyalaridan biri hisoblanadi

Download 14,79 Kb.
Sana	21.12.2023
Hajmi	14,79 Kb.
	#125622

Bog'liq
11 mavzu

Hadoop - bu Apache Software Foundation loyihasi bo'lib, yuzlab va minglab tugunlardan iborat klasterlarda ishlaydigan taqsimlangan dasturlarni ishlab chiqish va amalga oshirish uchun bepul tarqatiladigan yordamchi dasturlar, kutubxonalar va ramkalar to'plamidir. Ko'p yuklangan veb-saytlar, jumladan Yahoo! va Facebook[5]. Java-da MapReduce hisoblash paradigmasi doirasida ishlab chiqilgan bo'lib, unga ko'ra dastur klaster tugunlarida bajariladigan va tabiiy ravishda yakuniy natijaga qisqartirilgan ko'p sonli bir xil elementar vazifalarga bo'lingan.

2014 yil holatiga ko'ra, loyiha to'rtta moduldan iborat - Hadoop Common[⇨] (o'rta dastur - boshqa modullar va tegishli loyihalar uchun ishlatiladigan infratuzilma dasturiy ta'minot kutubxonalari va yordamchi dasturlar to'plami), HDFS[⇨] (tarqatilgan fayl tizimi), YARN[⇨ ] (ishlarni rejalashtirish va klasterni boshqarish tizimi) va Hadoop MapReduce [⇨] (tarqatilgan MapReduce hisob-kitoblarini dasturlash va bajarish uchun platforma), Hadoop avvalroq Apache Software Foundation loyiha tizimi doirasida mustaqil boʻlgan bir qator boshqa loyihalarni oʻz ichiga olgan. .

Bu "katta ma'lumotlar" ning asosiy texnologiyalaridan biri hisoblanadi. Hadoop atrofida tegishli loyihalar va texnologiyalarning butun ekotizimi[⇨] shakllandi, ularning aksariyati dastlab loyiha doirasida ishlab chiqilgan va keyinchalik mustaqil bo'lgan. 2000-yillarning ikkinchi yarmidan boshlab texnologiyani faol tijoratlashtirish jarayoni boshlandi[⇨], bir nechta kompaniyalar oʻz bizneslarini Hadoop-ning tijorat distribyutsiyasi va ekotizim uchun texnik qoʻllab-quvvatlash xizmatlari va deyarli barcha yirik yetkazib beruvchilar yaratish asosida qurmoqdalar. Tashkilotlar uchun axborot texnologiyalari u yoki bu shaklda Hadoopni o'z ichiga oladi, mahsulot strategiyalari va yechim yo'nalishlari.
Hadoop - bu kompyuterlar klasterlari bo'ylab katta ma'lumotlar to'plamlarini qayta ishlash va saqlashni osonlashtiradigan ochiq manbali ramka. U dastlab 2005 yilda Dag Cutting va Mayk Kafarella tomonidan ishlab chiqilgan va hozirda Apache Software Foundation tomonidan qo'llab-quvvatlanadi.

Hadoop ramkasining asosiy komponentlariga quyidagilar kiradi:

1. Hadoop Distributed File System (HDFS): HDFS - bu bir nechta mashinalarda katta ma'lumotlar to'plamini saqlash uchun mo'ljallangan taqsimlangan fayl tizimi. U yuqori nosozliklarga chidamliligini ta'minlaydi, chunki ma'lumotlar klasterdagi bir nechta tugunlar bo'ylab takrorlanadi. HDFS katta fayllar bilan ishlash va ma'lumotlar oqimiga kirish uchun optimallashtirilgan bo'lib, uni katta ma'lumotlarni qayta ishlashga moslashtiradi.

2. MapReduce: MapReduce Hadoop klasterida parallel ravishda katta maʼlumotlar toʻplamlarini qayta ishlash va tahlil qilish uchun foydalaniladigan dasturlash modelidir. U ma'lumotlarni qayta ishlash vazifasini ikki bosqichga ajratadi: xarita bosqichi va qisqartirish bosqichi. Xarita bosqichi kiritilgan ma'lumotlarni qayta ishlaydi va oraliq kalit-qiymat juftlarini hosil qiladi, so'ngra yakuniy natijani ishlab chiqarish uchun qisqartirish bosqichida birlashtiriladi va qayta ishlanadi.

3. YARN (Yana bir Resurs Muzokarachisi): YARN - bu Hadoop-da resurslarni boshqarish va ishlarni rejalashtirish asosidir. U klasterda ishlovchi turli ilovalar bo‘yicha resurslarni (CPU, xotira va h.k.) taqsimlashni boshqarib, klaster resurslaridan samarali foydalanishni ta’minlaydi. YARN MapReduce, Apache Spark va Apache Flink kabi turli xil ma'lumotlarni qayta ishlash tizimlariga bir xil Hadoop klasterida ishlash imkonini beradi.

4. Hadoop Common: Hadoop Common boshqa Hadoop komponentlari tomonidan talab qilinadigan kutubxonalar va yordamchi dasturlarni taqdim etadi. U kirish/chiqarish (I/U) operatsiyalari, tarmoq, xavfsizlik va jurnalga yozish kabi umumiy funksiyalarni o'z ichiga oladi.

Hadoop miqyosi, nosozliklarga chidamliligi va iqtisodiy samaradorligi tufayli katta ma'lumotlarni qayta ishlash va tahlil qilish uchun mashhur bo'ldi. Bu tashkilotlarga qimmat, ixtisoslashtirilgan apparat vositalariga tayanmasdan, tovar apparatlaridan foydalangan holda katta hajmdagi ma'lumotlarni saqlash va qayta ishlash imkonini beradi. Hadoop shuningdek, turli xil ma'lumotlarni qayta ishlash vositalari va dasturlash tillari bilan integratsiyalasha oladigan moslashuvchan va kengaytiriladigan tizimni taqdim etadi.

Asosiy komponentlarga qo'shimcha ravishda, Hadoop ekotizimida muayyan foydalanish holatlari uchun imkoniyatlarini oshiradigan keng doiradagi vositalar va ramkalar mavjud. Ba'zi mashhur misollar orasida Apache Hive (ma'lumotlarni saqlash va SQL-ga o'xshash so'rovlar tili), Apache Pig (ma'lumotlar oqimi skript tili), Apache HBase (tarqatilgan NoSQL ma'lumotlar bazasi), Apache Spark (xotirada ma'lumotlarni qayta ishlash) va Apache Kafka (tarqatilgan oqim) kiradi. platforma).

Umuman olganda, Hadoop katta ma'lumotlar to'plamlarini saqlash, qayta ishlash va tahlil qilish uchun kengaytiriladigan va taqsimlangan asosni taqdim etish orqali katta ma'lumotlar sohasida inqilob qildi. Bu tashkilotlarga ma'lumotlardan qimmatli tushunchalarni ochish va ilgari qiyin yoki amalga oshirib bo'lmaydigan murakkab ma'lumotlarni qayta ishlash vazifalarini hal qilish imkonini berdi.
Albatta! Hadoop haqida ba'zi qo'shimcha ma'lumotlar:

1. Scalability: Hadoop gorizontal miqyosda ishlab chiqilgan, ya'ni u klasterga qo'shimcha mashinalar qo'shish orqali ortib borayotgan ma'lumotlar hajmini boshqarishi mumkin. Ma'lumotlar hajmi oshgani sayin, tashkilotlar Hadoop klasteriga ko'proq tovar uskunasini qo'shishi mumkin, bu uzluksiz kengayish va qayta ishlash quvvatini oshirish imkonini beradi.

2. Xatolarga chidamlilik: Hadoop nosozliklarga juda chidamli bo'lishi uchun qurilgan. Bunga Hadoop Distributed File System (HDFS) da ma'lumotlarni replikatsiya qilish orqali erishadi. Ma'lumotlar bloklarga bo'linadi va klasterdagi bir nechta tugunlar bo'ylab takrorlanadi. Tugun ishlamay qolgan taqdirda, ma'lumotlarning mavjudligi va ishonchliligini ta'minlab, takrorlangan nusxalardan ma'lumotlarni qayta tiklash mumkin.

3. Ma'lumotlar joylashuvi: Hadoop hisoblashni ma'lumotlarga yaqinlashtirish orqali ma'lumotlarni qayta ishlashni optimallashtiradi. Ma'lumotlarni tarmoq bo'ylab ko'chirish o'rniga, Hadoop ma'lumotlar joylashgan tugunlarda vazifalarni rejalashtiradi. Ushbu ma'lumotlarning joylashuvi xususiyati tarmoq tiqilib qolishini kamaytiradi va ma'lumotlarni uzatish vaqtini qisqartirish orqali umumiy ish faoliyatini yaxshilaydi.

4. Moslashuvchanlik: Hadoop - turli xil ma'lumotlarni qayta ishlash modellari va vositalarini qo'llab-quvvatlaydigan moslashuvchan ramka. MapReduce an'anaviy qayta ishlash modeli bo'lsa-da, Hadoop Apache Spark, Apache Flink va Apache Hive kabi boshqa ramkalar bilan ham integratsiyalashgan. Ushbu moslashuvchanlik tashkilotlarga ma'lumotlarni qayta ishlashning o'ziga xos talablari uchun eng mos vositani tanlash imkonini beradi.

5. Iqtisodiy samaradorlik: Hadoop ixtisoslashtirilgan apparat yoki xususiy yechimlarga nisbatan arzon bo'lgan tovar apparatlaridan foydalanadi. Ushbu tejamkor yondashuv Hadoop-ni barcha o'lchamdagi tashkilotlar uchun ochiq qiladi, bu ularga katta hajmdagi ma'lumotlarni muhim infratuzilma investitsiyalarisiz saqlash va qayta ishlash imkonini beradi.

6. Ma'lumotlarni qayta ishlash imkoniyatlari: Hadoop o'zining ma'lumotlarni qayta ishlash imkoniyatlarini kengaytiruvchi vositalar va ramkalarning mustahkam ekotizimini taqdim etadi. Misol uchun, Apache Hive foydalanuvchilarga SQL-ga o'xshash til yordamida ma'lumotlarni so'rash va tahlil qilish imkonini beradi, bu esa relyatsion ma'lumotlar bazalari bilan tanish bo'lganlar uchun osonlashtiradi. Apache Pig ma'lumotlarni qayta ishlash vazifalarini soddalashtiradigan Pig Lotin deb nomlangan skript tilini taqdim etadi. Apache Spark xotirada ma'lumotlarni qayta ishlashni taklif qiladi, bu esa katta ma'lumotlar to'plamlarida tezroq va iterativ tahlillarni amalga oshirish imkonini beradi.

7. Hamjamiyat va qo'llab-quvvatlash: Hadoop Apache Software Foundation tomonidan qo'llab-quvvatlanadigan jonli ochiq manbali hamjamiyatga ega. Ushbu hamjamiyat Hadoop va uning tegishli loyihalarini rivojlantirish, takomillashtirish va ta'mirlashga faol hissa qo'shadi. Jamiyatning umumiy bilimlari va tajribasi qimmatli manbalar, forumlar va Hadoop-ni qabul qiluvchi foydalanuvchilar va tashkilotlar uchun yordam beradi.

Ta’kidlash joizki, Hadoop o‘tmishda keng qo‘llanilgan bo‘lsa-da, katta ma’lumotlar landshafti rivojlandi va boshqa texnologiyalar Hadoopga muqobil yoki to‘ldiruvchi sifatida paydo bo‘ldi. Tashkilotlar endi bulutga asoslangan saqlash va qayta ishlash xizmatlari, ixtisoslashtirilgan ma'lumotlar platformalari va real vaqtda oqim tizimlarini tanlash uchun kengroq imkoniyatlarga ega. Shunga qaramay, Hadoop katta hajmdagi ma'lumotlarni qayta ishlash va tahlil qilish uchun kuchli va asosiy texnologiya bo'lib qolmoqda.

Download 14,79 Kb.