1-rasm. Katta hajmli ma’lumot xususiyatlari.
Volume – ma‟lumotlar hajmining kattaligi [3].
Ma‟lumotlarning hajmini kattaligi, ahamiyati va uni katta
ma‟lumotlar deb hisoblash mumkinmi yoki yo„qligini birdiradi;
Academic Research in Educational Sciences
Volume 4 | Issue 3 | 2023
ISSN: 2181-1385
ISI: 0,967 | Cite-Factor: 0,89 | SIS: 1,9 | ASI: 1,3 | SJIF: 5,771 | UIF: 6,1
525
March, 2023
https://t.me/ares_uz Multidisciplinary Scientific Journal
Variety – bu ma‟lumotlarning turi va xususiyatini ifodalab, turli xil
ma‟lumotlarni bir vaqtning o„zida qayta ishlash imkoniyatidir.
Velocity – ma‟lumotlar o„sish tezligi va natijaga erishish uchun
ma‟lumotlarni qayta ishlash vaqtining real vaqtga yaqinligi.
Value – Katta ma‟lumotlar to„plamlarini qayta ishlash va tahlil qilish orqali
erishish mumkin bo„lgan ma‟lumotlarning ahamiyati.
Veracity – bu katta ma‟lumotlar uchun kengaytirilgan ta‟rif bo„lib, bu
ma‟lumotlar sifati va ma‟lumotlar qiymatini anglatadi.
Ushbu xususiyatlardan kelib chiqib biz tanlagan obyekt Abdulla Qodiriyning
“O‟tkan kunlar” asarini katta hajmli ma‟lumot deb atash mumkin. Ushbu asar 220
sahifadan iborat bo‟lib, unda sal kam 100 000 so‟zdan foydalanilgan. Belgilar soni
esa 574 000 dan oshadi. Biz yechmoqchi bo‟lgan masala esa ushbu asardagi
so‟zlarning chastotasini hisoblashdan iborat. Boshqacha aytganda, ushbu ulkan
asarda har bir so‟z nechta marta qo‟llanganini xiosblash zarur bo‟ladi.
Bu masalani yechishda biz ikki hil metoddan foydalandik:
1.
Java Core ga asoslangan dastur yordamida ananviy hisoblash
2.
Hadoop MapReduce ga asoslangan parallel hisoblash
Endi bu ikki metod haqida to‟xtalib o‟tamiz. Java Core ga asoslangan
dasturimiz Eclipse IDE muhitida yozilgan. Bu dastur bitta WordCount deb
nomlangan klass dan tuzilgan bo‟lib, java.io.FileInputStream kutubxonasi yordamida
katta hajmli ma‟lumotni fayldan o‟qib oladi. Bundan tashqari dasturda
java.util.ArrayList,
java.util.Iterator,
java.util.Scanner
kabi
kutubxonalardan
foydalanilgan. Dasturning asosiy bajaruvchi tanasi quyidagicha
Dastur sanalgan so‟zlarni java.io.FileOutputStream kutubxonasi yordamida
faylga yozib qo‟yadi. Dastur hisoblashlarni ananviy tarzda parallel bo‟lmagan usulda
bajaradi. Ya‟ni dastur kodini kompilyatsiya qiladi. Keyingi qadamda uni JRE (Java
ishlash muhiti) ga uzatadi. JRE esa o‟z navbatida CPU(markaziy protsessor)ga
uzatadi va CPU da hisoblash bajarilib, shu ketma ketlikda orqaga qaytadi. Java Core
ga asoslangan birinchi metodimiz haqida chuqur to‟xtalib
o‟tirmayman, ikkinchi metodimizga chuqurroq to‟xtalaman.
|