HADOOP MAPREDUCE ORQALI KATTA HAJMLI MA’LUMOTNI PARALLEL QAYTA ISHLASH
ANNOTATSIYA
Ushbu maqolada biz katta hajmli ma‟lumot sifatida qarash mumkin bo‟lgan tarixiy asardagi so‟zlarning chastotaviy tahlilini amalga oshirdik. Buning uchun katta hajmdagi ma‟lumotlarni taqsimlangan saqlash tizimlari saqlash jarayonini amalga oshirdik, hamda parallel hisoblashlar yordamida qayta ishlangan ma‟lumotlani tahlil qildik. Taqsimlangan saqlash tizimi sifatida Hadoop HDFS(Hadoop Distributed File System) tizimidan, parellel hisoblashni amalga oshirishda esa Hadoop MapReduce komponentidan foydalanilgan. Bundan tashqari ushbu maqolada, aynan shu katta hajmli ma‟lumotlarni ananaviy hisoblashlar yordamida qayta ishlashdan olingan natijalar ham keltirilgan. Ananviy hisoblashlar va parallel hisoblashlar yordamida olingan natijalarga asoslangan holda xulosalar qilingan.
Kalit so’zlar: so‟zlar chastotasi, Big Data, Hadoop HDFS, Hadoop MapReduce, parallel hisoblash, taqsimlangan saqlash tizimi
KIRISH
Dunyoda raqamlangan ma'lumotlar hajmi shiddat bilan o‟sib bormoqda. Bu o’z navbatida raqamli ma’lumotlarni saqlab qo’yich, ularni saralash, qayta ishlash va ular asosida xulosalar chiqarish kabi muommolarni yuzaga chiqaradi. Bu muommolarni o’rganish va yechimlar taklif qilish uchun axborot texnologiyalari sohasida Big data, Data science (malumotlar ilmi), Data mining (ma'lumotlarni intelektual tahlili), Machine learning (mashinali o'qitish), Deep learning (chuqur o'qitish), Sun'iy neyron tarmog'i kabi fan tarmoqlari vujudga keldi. Biz ushbu maqolada tadqiq qilgan qilgan muommo BigData (katta hajmli ma’lumotlar) sohasiga tegishli. Hozirgi kundagi ma’lumotlarning keskin oshib borish fonida, ularni saqlash va tezkor qayta ishlash masalasi mavuning dolzarbligini ko’rsatadi.
Tadqiqot obyekti sifatida o’zbek adibi Abdulla Qodiriyning “O’tkan kunlar” asarini katta hajmli ma’lumot sifatida belgilab oldik. Tadqiqot predmeti sifatida esa katta hajmli ma’lumotlarni saqlash uchun ishlatiladigan Apache Hadoop HDFS hamda ma’lumotlarni parallel qayta ishlovchi Hadoop MapReduce dasturlarini belgilab oldik. Izlanishlarimizning maqsadi sifatida katta hajmli ma’lumotlarni ananaviy hisoblash usullari orqali qayta ishlab bo’lmasligini, parallel hisoblashlar orqali qayta ishlash samarali va tezkor ekanligini isbotlash.
Izlanishlarimizning vazifalari sifatida quyidagilarni belgilab oldik:
Katta hajmli ma’lumotni taqsimlangan fayl tizimlarida saqlash
Katta hajmli ma’lumotni ananaviy usulda qayta ishlab natija olish
Katta hajmli ma’lumotni parallel hisoblash yordamida qayta ishlab natija
olish
Olingan natijalarni solishtirib xulosalar chiqarish
Obyekt sifatida belgilab olganimiz Abdulla Qodiriyning “O’tkan kunlar”
asarining elektron shakldagi talqinini topamiz. 220 betdan iborat elektron matn shakldagi asarni .txt formatiga o’tkazib olamiz. Matndagi so’zlarni chastotasini ya’ni har bir so’zning takrorlanishlar sonini aniqlovchi dasturni Java dasturlash tilida yozib olamiz. Tanlangan obyektimizni ananaviy usulda qayta ishlaymiz. Olingan natijani va qayta ishlash vaqtini qayt qilib qo’yamiz. Endi ayni shu katta hajmli ma’lumotimizni Hadoop MapReduce modeli yordamida parallel qayta ishlaymiz. Olingan natijalarni va qayta ishlash uchun sarflangan vaqtni yana qayt qilib qo’yamiz. Qayd qilingan natijalarni va qayta ishlar uchun sarflangan vaqtlarni solishtirib ko’rganimizda yaqqol farqni kuzatdik. Olingan natijalarni solishtirish natijasida tegishli xulosalar qildik.
|