Academic Research in Educational Sciences Volume 4

Download 0,72 Mb. Pdf ko'rish
bet	2/9
Sana	21.11.2023
Hajmi	0,72 Mb.
	#102719

1 2 3 4 5 6 7 8 9

Bog'liq
hadoop-mapreduce-orqali-katta-hajmli-ma-lumotni-parallel-qayta-ishlash

Kalit so’zlar: so‟zlar chastotasi, Big Data, Hadoop HDFS, Hadoop MapReduce,
parallel hisoblash, taqsimlangan saqlash tizimi
ABSTRACT
The difficulty of processing semi-ordered massive quantities of data with distributed
storage systems and parallel computing is addressed in this article. Hadoop HDFS (Hadoop
Distributed File System) is used as a distributed storage system, while Hadoop MapReduce
is utilized for parallel processing. Furthermore, the outcomes of processing these massive
amounts of data using non-parallel algorithms are provided in this study. The gathered
results were used to draw conclusions.
Keywords: Hadoop HDFS, Hadoop MapReduce, Big Data,
parallel computing, distributed storage system.

Academic Research in Educational Sciences
Volume 4 | Issue 3 | 2023
ISSN: 2181-1385
ISI: 0,967 | Cite-Factor: 0,89 | SIS: 1,9 | ASI: 1,3 | SJIF: 5,771 | UIF: 6,1

523

March, 2023
https://t.me/ares_uz Multidisciplinary Scientific Journal
KIRISH
Dunyoda raqamlangan ma'lumotlar hajmi shiddat bilan o‟sib bormoqda. Bu o‟z
navbatida raqamli ma‟lumotlarni saqlab qo‟yich, ularni saralash, qayta ishlash va ular
asosida xulosalar chiqarish kabi muommolarni yuzaga chiqaradi. Bu muommolarni
o‟rganish va yechimlar taklif qilish uchun axborot texnologiyalari sohasida Big data,
Data science (malumotlar ilmi), Data mining (ma'lumotlarni intelektual tahlili),
Machine learning (mashinali o'qitish), Deep learning (chuqur o'qitish), Sun'iy neyron
tarmog'i kabi fan tarmoqlari vujudga keldi. Biz ushbu maqolada tadqiq qilgan qilgan
muommo BigData (katta hajmli ma‟lumotlar) sohasiga tegishli. Hozirgi kundagi
ma‟lumotlarning keskin oshib borish fonida, ularni saqlash va tezkor qayta ishlash
masalasi mavuning dolzarbligini ko‟rsatadi.
Tadqiqot obyekti sifatida o‟zbek adibi Abdulla Qodiriyning “O‟tkan kunlar”
asarini katta hajmli ma‟lumot sifatida belgilab oldik. Tadqiqot predmeti sifatida esa
katta hajmli ma‟lumotlarni saqlash uchun ishlatiladigan Apache Hadoop HDFS
hamda ma‟lumotlarni parallel qayta ishlovchi Hadoop MapReduce dasturlarini
belgilab oldik. Izlanishlarimizning maqsadi sifatida katta hajmli ma‟lumotlarni
ananaviy hisoblash usullari orqali qayta ishlab bo‟lmasligini, parallel hisoblashlar
orqali qayta ishlash samarali va tezkor ekanligini isbotlash.
Izlanishlarimizning vazifalari sifatida quyidagilarni belgilab oldik:

Katta hajmli ma‟lumotni taqsimlangan fayl tizimlarida saqlash

Katta hajmli ma‟lumotni ananaviy usulda qayta ishlab natija olish

Katta hajmli ma‟lumotni parallel hisoblash yordamida qayta ishlab natija
olish

Olingan natijalarni solishtirib xulosalar chiqarish
Obyekt sifatida belgilab olganimiz Abdulla Qodiriyning “O‟tkan kunlar”
asarining elektron shakldagi talqinini topamiz. 220 betdan iborat elektron matn
shakldagi asarni .txt formatiga o‟tkazib olamiz. Matndagi so‟zlarni chastotasini ya‟ni
har bir so‟zning takrorlanishlar sonini aniqlovchi dasturni Java dasturlash tilida yozib
olamiz. Tanlangan obyektimizni ananaviy usulda qayta ishlaymiz. Olingan natijani va
qayta ishlash vaqtini qayt qilib qo‟yamiz. Endi ayni shu katta hajmli ma‟lumotimizni
Hadoop MapReduce modeli yordamida parallel qayta ishlaymiz. Olingan natijalarni
va qayta ishlash uchun sarflangan vaqtni yana qayt qilib qo‟yamiz. Qayd qilingan
natijalarni va qayta ishlar uchun sarflangan vaqtlarni solishtirib ko‟rganimizda yaqqol
farqni kuzatdik. Olingan natijalarni solishtirish natijasida tegishli xulosalar qildik.

Download 0,72 Mb.

1 2 3 4 5 6 7 8 9

Download 0,72 Mb.

Pdf ko'rish