|
Qayta ishlash
|
bet | 3/5 | Sana | 13.05.2024 | Hajmi | 248,25 Kb. | | #228978 |
Bog'liq hadoop mapreduce orqali katta hajmli ma lumotni parallel qayta ishlash2-rasm. Hadoopning modullari
Hadoopning bu 4 ta modulini kompyuterda sozlab olganimizdan keyin, asardagi so‟zlarni qayta ishlovchi
job(topshiriq) yaratamiz. Hadoop uchun jobni Java, Python, C++, Scala kabi dasturlash tillarida yaratish mumkin. Hadoopni kompyuterimizga sozlab olib, o‟z maqsadimizga mos jobni yaratib olaganimizdan so‟ng, Hadoop modullarini buyruqlar satri orqali ishga tushirib olamiz. Buning uchun buyruqlar satriga start-all buyrug‟ini kiritamiz. Bu buyruqdan so‟ng Hadoopning quyidagi 4 ta moduli ishga tushadi:
Keyingi qadamda aynan shu buyruqlar satri yordamida HDFS da yaki jild yaratib olamiz. Buning uchun buyruqlar satriga hdfs dfs -mkdir /test buyrug‟ini kiritamiz. Yangi jilda ixtiyoriy nomni berishimiz mumkin. Keyin esa katta hajmli ma‟lumot sifatida belgilab olgan .txt formatidagi faylimizni HDFS da yaratgan yangi jildimizga ko‟chirib o‟tkazamiz. Buning uchun buyruqlar satriga hdfs dfs -put
/home/codegyani/data.txt /test buyrug‟ini kiritamiz.
3-rasm. Hadoop modullarining ishlash jarayoni
Katta hajmli ma‟lumotimizni taqsimlangan fayl tizimida saqlab olgan, endi uni qayta ishlash uchun tayyorlagan Job imizni ishga tushiramiz. Jobni buyruqlar satrida hadoop jar /home/codegyani/wordcountdemo.jar com.javatpoint.WC_Runner
/test/data.txt /r_output
ushbu buyruq yoramida ishga tushiramiz.
O‟tkazilgan tajribalar najilariga to‟xtaladigan bo‟lsak, natijalar absolyut bir hil chiqqanligini ko‟rishimiz mumkin. Ya‟ni ikkala metod bo‟yicha sanalgan so‟zlarning soni 100% bir hil ekanligin ko‟rdik. Olingan natijani quyidagi diagrammada ko‟rsatilgan.
diagramma. Katta hajmli ma’lumotdagi so’zlarning chastotaviy tahlili
So‟zlarning chastotaviy tahlilidan tashqari katta hajmli ma‟lumotni qayta ishlash uchun sarflangan vaqt ham biz katt ahamiyatga ega. Chunki asosiy maqsadimiz qayta ishlash jarayoni tezlashtirishdan iborat. Quyidagi rasmda esa Java Corega asoslangan dasturda, biz tanlagan katta hajmli ma‟lumotni qayta ishlash uchun sarflangan vaqtni ko‟rishimiz mumkin.
|
| |