INTERNATIONAL SCIENTIFIC AND TECHNICAL CONFERENCE
“DIGITAL TECHNOLOGIES: PROBLEMS AND SOLUTIONS OF PRACTICAL
IMPLEMENTATION IN THE SPHERES”
APRIL 27-28, 2023
327
ma’lumotlar hajmi shundan oldingi butun insoniyatning o‘tmish tarixiga qaraganda ko‘proq
ma’lumotlar yig‘ilganini takidlashgan. 2025 yilga kelib, barcha ma’lumotlar 163 zettabayt (ZB)
ga teng bo‘lishi mumkinligi ta’kidlangan.
Katta ma’lumotlar
- bu xar xil turdagi va avtonom ma’lumot
manbalaridan kelib
chiqadigan keng miqyosli, hajmli va ko‘p formatli ma’lumot oqimlarining yig‘indisidir[2,3].
Katta
hajmli ma’lumotlarning asosiy xarakteristikasi bo‘lib, u keng miqyosli ma’lumotlar markazlarida
va saqlash zonalari tarmoqlarida saqlash joylarini egallash bilan tavsiflanadi. Katta
ma’lumotlarning katta o‘lchamlari nafaqat ma’lumotlarning turli xil bo‘lishiga olib keladi, balki
natijada ma’lumotlar to‘plamida xilma-xil o‘lchovlar paydo bo‘ladi[4]. Katta miqdordagi
ma’lumotlarni tahlil qilish inson his etish imkoniyatidan tashqarida bo‘lgan
qonuniyatlarni
aniqlashda yordam beradi[5]. Big data atamasi ilk bora Nature jurnalining 2008 yildagi sonida
duch kelish mumkin. Jurnal muharriri Klifford Linch dunyodagi ma’lumotlar hajmining intensiv
ortib borishiga bag’ishlangan maqolasida bu haqda to’xtalgan. Mutaxassislarning fikricha, kuniga
100 gb dan ko'p ma'lumot tushadigan oqimlarga big data deb aytish mumkin.
Katta hajmli
ma’lumotlarni tushintirishda “Meta Group”(eski Facebook) kompniyasi tomonidan ishlab
chiqilgan xususiyatlar muhimdir.
1 rasm.
Katta hajmli ma’lumot xususiyatlari.
Volume – ma’lumotlar hajmining kattaligi [3]. Ma’lumotlarning hajmini kattaligi,
ahamiyati va uni katta ma’lumotlar deb hisoblash mumkinmi yoki yo‘qligini birdiradi;
Variety – bu ma’lumotlarning turi va xususiyatini ifodalab, turli xil ma’lumotlarni
bir vaqtning o‘zida qayta ishlash imkoniyatidir.
Velocity – ma’lumotlar o‘sish tezligi va natijaga erishish uchun ma’lumotlarni
qayta ishlash vaqtining real vaqtga yaqinligi.
Value – Katta ma’lumotlar to‘plamlarini qayta ishlash va tahlil qilish orqali erishish
mumkin bo‘lgan ma’lumotlarning ahamiyati.
Veracity – bu katta ma’lumotlar uchun kengaytirilgan ta’rif bo‘lib, bu ma’lumotlar
sifati va ma’lumotlar qiymatini anglatadi.
Ushbu xususiyatlardan kelib chiqib biz tanlagan obyekt Abdulla Qodiriyning “O’tkan
kunlar” asarini katta hajmli ma’lumot deb atash mumkin. Ushbu asar 220 sahifadan iborat bo’lib,
unda sal kam 100 000 so’zdan foydalanilgan. Belgilar soni esa 574 000 dan oshadi.
Hadoop modullarini buyruqlar satri orqali ishga tushirib olamiz. Buning uchun buyruqlar
satriga
start-all
buyrug’ini kiritamiz. Bu buyruqdan so’ng Hadoopning quyidagi 4 ta moduli ishga
tushadi: