Maqola yilda Aloqa tarmoqlari jurnali yanvar 013 doi: 10. 1142/S0219265912500090 Iqtiboslar 50 O'qiydi 8,648 mualliflar

Download 182,94 Kb. Pdf ko'rish
Sana	08.12.2023
Hajmi	182,94 Kb.
	#114070

Ushbu nashr uchun munozaralar, statistika va muallif profillarini ko'ring:
https://www.researchgate.net/publication/236263585
Katta ma'lumotlarni qayta ishlash: katta muammolar
Maqola
yilda
Aloqa tarmoqlari jurnali * yanvar 2013
DOI: 10.1142/S0219265912500090
Iqtiboslar
50
O'qiydi
8,648
8 mualliflar
, shu jumladan:
Changqing Ji
Dalian Dengizchilik Universiteti
14
Nashrlar
630
Iqtiboslar
PROFILGA QARANG
Daoven Qiu
Sun Yat-Sen Universiteti
222
Nashrlar
4,687
Iqtiboslar
PROFILGA QARANG
Uchechukvu Avada
Sent-Endryus universiteti
29
Nashrlar
578
Iqtiboslar
PROFILGA QARANG
Keqiu Li
Dalian texnologiya universiteti
304
Nashrlar
4,118
Iqtiboslar
PROFILGA QARANG
Bu sahifada quyidagi barcha kontent tomonidan Yuklandi
Uchechukvu Avada
haqida 31 ko'proq 2014.
Foydalanuvchi yuklab olingan faylni yaxshilashni talab qildi.
Aprel 10, 2013 11:17
O'zaro bog'liqlik tarmoqlari jurnali
Vol. 13, Nos. 3 & 4 (2012) 1250009 (
19
sahifalar)
c Jahon ilmiy nashriyot kompaniyasi
DOI:
10.1142/S0219265912500090

KATTA MA'LUMOTLARNI QAYTA ISHLASH: KATTA MUAMMOLAR
VA IMKONIYATLAR
∗
CHANGQING JI
Axborot fanlari va texnologiyalari kolleji,
Dalian dengizchilik universiteti, 116026, Xitoy
Fizika fanlari va texnologiyalari kolleji,
Dalian Universiteti, Dalian 116622, Xitoy
jcqgood@gmail.com
YU LI
Kompyuter fanlari va texnologiyalari maktabi,
Dalian texnologiya universiteti, Dalian 116024, Xitoy
liyu87122@gmail.com
VENMING QIU
Kompyuter fanlari va texnologiyalari maktabi,
Dalian texnologiya universiteti, Dalian 116024, Xitoy
Venming Qiu@gmail.com
YINGVEY JIN
Menejment maktabi,
Dalian texnologiya universiteti, Dalian 116024, Xitoy
jinyw67@dlut.edu.cn
YUJIE XU
Axborot fanlari va texnologiyalari kolleji,
Dalian Dengizchilik Universiteti, Dalian 116026, Xitoy
yujiex.dlmu@gmail.com
UCHECHUKVU AVADA
Kompyuter fanlari va texnologiyalari maktabi,
Dalian texnologiya universiteti, Dalian 116024, Xitoy
awadauche@gmail.com
KEQIU LI
Kompyuter fanlari va texnologiyalari maktabi,
Dalian texnologiya universiteti, Dalian 116024, Xitoy
likeqiu@gmail.com
∗
Ushbu maqolaning dastlabki versiyasi keng tarqalgan xalqaro simpoziumda taqdim etildi
Tizimlar, algoritmlar va tarmoqlar (I-SPAN' 2012) yilda San-Markos, Texas, 13 yil 15-2012 dekabr.
1250009-1
J. Inter. To'r. 2012.13. Yuklab olingan www.worldscientific.com
texnologiya Dalian universiteti tomonidan 08/07/13. Faqat shaxsiy foydalanish uchun.
Aprel 10, 2013 11:17
C. Ji va boshq.
VENYU QU
Axborot fanlari va texnologiyalari kolleji,
Dalian Dengizchilik Universiteti, Dalian 116026, Xitoy
eunice.qu@gmail.com
20 Dekabr 2012 Qabul Qilindi
Qayta Ko'rib 20 Yanvar 2013
Ijtimoiy tarmoq, semantik veb, sensor
tarmoqlari va LBS (joylashuvga asoslangan xizmat) ilovalari kabi rivojlanayotgan ilovalarning tez o'sishi bilan
qayta ishlanadigan turli xil ma'lumotlar
tez o'sishda davom etmoqda. Keng ko'lamli ma'lumotlarni samarali boshqarish va qayta
ishlash qiziqarli, ammo muhim muammo tug'diradi. Yaqinda katta ma'lumotlar
akademiya, sanoat va hukumatning katta e'tiborini tortdi. Ushbu hujjat
tizim va dastur jihatlaridan bir nechta katta ma'lumotlarni qayta ishlash texnikasini taqdim etadi. Birinchidan,
bulutli ma'lumotlarni boshqarish va katta ma'lumotlarni qayta ishlash mexanizmlari nuqtai nazaridan biz
katta ma'lumotlarni qayta ishlashning asosiy masalalarini, shu jumladan katta ma'lumotlarni aniqlash, katta
ma'lumotlarni boshqarish platformasi,
katta ma'lumotlarga xizmat ko'rsatish modellari, tarqatilgan fayl tizimi, ma'lumotlarni saqlash, ma'lumotlarni
virtualizatsiya qilish platformasi

va tarqatilgan dasturlar. MapReduce parallel ishlash doirasida quyidagi, biz
adabiyotlarda xabar ba'zi MapReduce optimallashtirish strategiyasini joriy. Va nihoyat, biz
ochiq muammolar va muammolarni muhokama
qilamiz va kelajakda bulutli hisoblash muhitida katta ma'lumotlarni qayta ishlash bo'yicha tadqiqot
yo'nalishlarini chuqur o'rganamiz.
Kalit so'zlar
: Katta ma'lumotlar; bulutli hisoblash; ma'lumotlarni boshqarish; tarqatilgan ishlov berish.
1. Kirish
So'nggi yigirma yil ichida hisoblash quvvatining uzluksiz o'sishi
ma'lumotlarning katta oqimini qo'llab-quvvatladi. Katta ma'lumotlar nafaqat ko'proq foyda
keltiradi, balki kompyuterlar uchun ham tushunarli. Masalan, dzero kabi zamonaviy yuqori
energiyali
fizika tajribalari
a
, odatda kuniga bir terabaytdan ortiq
ma'lumot hosil qiladi. Mashhur ijtimoiy tarmoq veb-sayti Facebook 570 milliard sahifani
ko'rishga xizmat qiladi,
3 milliard yangi fotosuratlarni saqlaydi va 25 milliard tarkibni boshqaradi
b
montly. Google qidiruv va reklama biznesi, Facebook, Flickr, YouTube va Linkedin
sun'iy intellekt fokuslari to'plamidan foydalanadilar. Bu ma'lumotlar katta miqdorda
ajralish
va qarorlar instantaneously qilish talab. Google Earth foydalanadi 70.5 TB: xom tasvir
uchun 70 TB
va indeks ma'lumotlari uchun 500 GB 2006 yilda
c
. Multimedia ma'lumotlar min-
ing platformalar oson har
bir kishi dasturiy ta'minot jihatidan harakat minimal miqdori bilan bu maqsadlarga erishish
uchun qilish, CPU va tarmoq. Sentyabr 2012 yilning,
ijtimoiy video kampaniyasi "Kony 2012" erishish va
100 million fikr engib o'tish uchun eng tez virusli video edi. Yaqinda virusli musiqa video
Janubiy Koreya
rassom "PSY" tomonidan "Gangnam Style" hit faqat 100 kun davomida onlayn keyin 52
million YouTube fikr bosing. 29
yil 2012 martda Amerika hukumati "katta ma'lumotlarni tadqiq qilish va de-
velopment tashabbusi" ni e'lon qildi va big data birinchi marta milliy siyosatga aylandi
d
.
a
http://www-d0.fnal.gov
b
http://www.facebook.com
c
http://googlesystem.blogspot.com/2006/09/how-much-data-does-google-store.html
d
http://www.whitehouse.gov/blog/2012/03/29/big-data-big-deal
1250009-2
J. Inter. To'r. 2012.13. Yuklab olingan www.worldscientific.com
texnologiya Dalian universiteti tomonidan 08/07/13. Faqat shaxsiy foydalanish uchun.
Aprel 10, 2013 11:17
Katta ma'lumotlarni qayta ishlash: katta qiyinchiliklar va imkoniyatlar
Ushbu misollarning barchasi shuni ko'rsatadiki," katta ma'lumotlar davri bu erda " va
katta ma'lumotlarni saqlash va qayta ishlash xarajatlariga olib keladigan ushbu
ma'lumotlarni intensiv operatsiyalarini qo'llab-quvvatlash uchun juda katta ma'lumotlar
muammolari va muhim resurslar ajratilgan.
Katta ma'lumotlar va bulutli hisoblash ikkalasi ham eng tezkor texnologiyalar
identifikatori-
Gartner Inc yilda fied.rivojlanayotgan texnologiyalar uchun 2012 yilgi shov-shuv davri
e
. Gartner, shuningdek
, big data tipping point texnologiyalaridan biri deb hisoblaydi. Cloud computing
resurslarni barcha turlari uchun infratuzilma va katta ma'lumotlarni qayta ishlash usuli
hisoblash ta'minlash uchun yangi paradigma bilan bog'liq. Bundan tashqari, ba'zi yangi
bulutga
asoslangan texnologiyalarni qabul qilish kerak, chunki bir vaqtning o'zida qayta ishlash
uchun katta ma'lumotlar bilan
ishlash qiyin. Ayniqsa, katta ma'lumotlardan foydalanish va qayta
ishlash korxonalar va ilmiy muassasalar uchun raqobat va o'sishning asosiy asosiga
aylanmoqda.
Katta ma'lumotlar bilan bog'liq texnologiyalar asosan bulutli hisoblash, ilg'or mashinalarni
o'rganish va ma'lumotlarni aqlli qayta ishlashni o'z ichiga oladi. Grid va bulutli hisoblash
kabi mavjud texnologiyalar
resurslarni birlashtirish va yagona tizim ko'rinishini taklif qilish orqali katta miqdordagi
hisoblash quvvatiga ega bo'lishni maqsad qilgan
. Ushbu texnologiyalar orasida
bulutli hisoblash keng ko'lamli va murakkab hisoblashni amalga oshirish uchun kuchli
arxitekturaga aylanib
bormoqda va hisoblash infratuzilmasini
mavhumlashtirish va ulardan foydalanish usulini inqilob qildi. Bundan tashqari, ushbu
texnologiyalarning muhim maqsadi
jigarni hisoblashdan iborat keng ko'lamli, multi-media va yuqori o'lchovli ma'lumotlar
to'plamlari kabi katta ma'lumotlarni hal qilish uchun echim sifatida
.
Keyin katta ma'lumotlar nima? Tarixiy nuqtai nazardan qaraganda, " juda
katta ma'lumotlar bazasi "GB darajasini ifodalaydi," katta "sil darajasini ifodalaydi,
va" katta ma'lumotlar " sil yoki undan ortiq darajasini anglatadi. Ning nashrida fan jurnali
2008 yil "katta ma'lumotlar ""insonning tishli jarayonlarining rivojlanishini ifodalaydi
, odatda hozirgi
texnologiya, usul va nazariyaning o'tgan vaqt ichida ma'lumotlarni olish, boshqarish va
qayta ishlash qobiliyatidan tashqari o'lchamdagi ma'lumotlar to'plamlarini o'z ichiga
oladi"deb ta'riflanadi
.
1
Yaqinda Gartner tomonidan berilgan katta ma'lumotlarning ta'rifi
:"katta ma'lumotlar
-bu qarorlarni qabul qilish, tushuncha kashf etish va jarayonni optimallashtirish uchun
yangi ishlov berish shakllarini talab qiladigan yuqori hajmli, yuqori tezlikda va/yoki yuqori
xilma-xil axborot aktivlari
".
2
Ga binoan Vikimedia,"infor-
mation texnologiyasida katta ma'lumotlar ma'lumotlar to'plamlari to'plami shunchalik katta
f
J. Inter. To'r. 2012.13. Yuklab olingan www.worldscientific.com
texnologiya Dalian universiteti tomonidan 08/07/13. Faqat shaxsiy foydalanish uchun.

va murakkabki
, ma'lumotlar bazasini boshqarish vositalari yordamida ishlov berish qiyinlashadi".
Ushbu maqolaning maqsadi I-SPAN 2012 qog'ozimizni kengaytirishdir
3
va
katta ma'lumotlarni boshqarish texnologiyalari va ilovalarining umumiy ko'rinishini
ta'minlashga qaratilgan katta ma'lumotlar tadqiqotlari va tegishli ishlarning holatini taqdim
eting. Shuningdek, biz
asosiy yondashuvlar haqida umumiy ma'lumot beramiz va
ularni katta ma'lumotlarni boshqarish platformasi, katta ma'lumotlar xizmati
modellari,tarqatilgan fayl tizimi,
ma'lumotlarni saqlash, ma'lumotlarni virtualizatsiya qilish platformasi, tarqatilgan
dasturlar va MapReduce
optimallashtirish kabi strategiyalariga nisbatan tasniflaymiz. Va nihoyat, biz katta
ma'lumotlarni qayta ishlashdagi ochiq muammolar va muammolarni
uchta muhim jihatda muhokama qilamiz: katta ma'lumotlarni saqlash, tahlil qilish va
xavfsizlik.
e
http://www.gartner.com
f
http://en.wikipedia.org/wiki/Big-data
1250009-3
Aprel 10, 2013 11:17
C. Ji va boshq.
Qolgan qog'oz quyidagicha tashkil etilgan. 2-bo'limda arxitektura
va katta ma'lumotlarni qayta ishlashning asosiy tushunchalari ko'rib chiqiladi. 3 va 4-
bo'limlarda
asosiy tarqatilgan dasturlarning tasnifi va MapReduce
ramkasini optimallashtirish usullari keltirilgan, 5-bo'limda esa bir nechta ochiq muammolar
va kelajakdagi muammolar muhokama qilinadi. Fi-
nally, bo'lim 6 bu qog'oz xulosa.
2. Katta Ma'lumotlarni Boshqarish Tizimi
Gartner tomonidan 2010 yilda o'tkazilgan so'nggi so'rovga ko'ra
g
, So'rov ishtirokchilarining 47%
ma'lumotlarning o'sishini uchta uchta qiyinchilikda, so'ngra tizimning ishlashi
va miqyosi 37%, tarmoq tiqilishi va ulanish arxitekturasi
36%. Ko'pgina tadqiqotchilar tijorat ma'lumotlar bazasini boshqarish
tizimlari (DBMSs) juda katta ma'lumotlarni qayta ishlash uchun mos emasligini taxmin
qilishdi.
Qaragan qaragan ish yuklarni esa Classic archi-tecture salohiyati to'siq bazasi server
hisoblanadi.
Bitta ma'lumotlar bazasi serverida o'lchov va xarajatlarni cheklash mavjud, bu
katta ma'lumotlarni qayta ishlashning ikkita noaniq maqsadi. Ma'lumotlarni qayta
ishlashning turli xil yirik
modellarini moslashtirish uchun D. Kossmann va boshq.
bo'linish, replikatsiya,tarqatilgan boshqaruv va keshlash arxitekturasini o'z ichiga olgan
klassik ko'p bosqichli ma'lumotlar bazasi ilovalari arxitekturasiga asoslangan to'rt xil
arxitekturani taqdim
etdi.
4
Muqobil provayderlar
turli xil biznes modellariga ega va har xil turdagi ilovalarni maqsad qilib qo'ygani aniq:
Google
engil ish yukiga ega kichik ilovalarga ko'proq qiziqadi
, Azure esa hozirda o'rta va yirik xizmatlar uchun eng arzon xizmatdir. So'nggi
bulutli xizmat ko'rsatuvchi provayderlarning aksariyati o'zlarining haqiqiy xizmat
talablarini qondirishga qodir gibrid arxitekturadan foydalanmoqdalar
. Ushbu bo'limda biz asosan
to'rtta asosiy jihatlardan katta ma'lumotlar arxitekturasini muhokama qilamiz: katta
ma'lumotlar xizmati modellari, tarqatilgan fayl tizimi,
tarkibiy bo'lmagan va yarim tuzilgan ma'lumotlarni saqlash va ma'lumotlarni virtualizatsiya
qilish platformasi.
2.1. Katta ma'lumotlar xizmati modeli
Barchamizga ma'lumki, bulutli hisoblash
-bu xizmat sifatida dasturiy ta'minot (SaaS), xizmat sifatida infratuzilma (IaaS) va xizmat
sifatida platforma(PaaS) kabi xizmat sifatida odamlarga qimmatli resurslarni etkazib
beradigan axborot-kommunikatsiya texnologiyalarining bir turi
.). Mijozlarga ushbu xizmatlarni taklif qiladigan bir nechta etakchi axborot texnologiyalari
(IT) echimlari provayderlari
mavjud. Katta ma'lumotlar tushunchasi kelib endi,
cloud computing xizmat model asta
-sekin DaaS (bir xizmat sifatida ma'lumotlar bazasi), AaaS (bir xizmat sifatida tahlil) va
BDaaS (bir xizmat sifatida katta ma'lumotlar) bo'lgan katta ma'lumotlar xizmat modeli,
ichiga o'tkazish qilinadi. Batafsil tavsiflar quyidagilar:
Ma'lumotlar bazasi xizmat sifatida
ma'lumotlar bazasi xizmatlari
har qanday ijro muhitida, shu jumladan Paasda joylashtirilgan ilovalar mavjudligini
anglatadi. Ammo katta ma'lumotlar
kontekstida bu NoSQL ma'lumotlar stressi
va xotiradagi ma'lumotlar bazalari kabi masshtabli arxitekturalar bo'lishi mumkin.
g
http://publictechnology.net/sector/central-gov/gartner-data-growth-remains-challenge-data-
markaz-menejerlar
1250009-4
J. Inter. To'r. 2012.13. Yuklab olingan www.worldscientific.com
texnologiya Dalian universiteti tomonidan 08/07/13. Faqat shaxsiy foydalanish uchun.
Aprel 10, 2013 11:17

Katta ma'lumotlarni qayta ishlash: katta qiyinchiliklar va imkoniyatlar
Tahlil xizmat sifatida
ana-
lytics platformasi bilan yuqori abstraktsiya darajasida o'zaro aloqada bo'lish bilan ko'proq
tanish bo'lar edi. Ular odatda
ma'lumotlar olimlari yoki dasturchilari ular uchun ishlab chiqqan skriptlar va so'rovlarni
bajaradilar.
Katta ma'lumotlar xizmat sifatida
katta ma'lumotlar platformalari bilan birgalikda
yangi katta ma'lumotlar to'plamini sozlash yoki yaratish kerak bo'lgan foydalanuvchilar
uchun mo'ljallangan, ammo tayyor echimlar
hali mavjud emas. Foydalanuvchilar birinchi zarur cloud computing Infrastructure-
ture sotib, va qo'lda katta ma'lumotlarni qayta ishlash dasturini o'rnatish kerak. Murakkab
taqsimlangan
xizmatlar uchun bu juda qiyin bo'lishi mumkin.
5
2.2. Tarqatilgan Fayl Tizimi
Google fayl tizimi (GFS)
6
ma'lumotlar bo'linishi
va replikatsiyasi orqali xatolarga bardoshlikni qo'llab-quvvatlaydigan bo'lakka asoslangan
tarqatilgan fayl tizimi. Google bulutli hisoblash platformasining asosiy saqlash qatlami
sifatida
u MapReduce-ning kirish va saqlash natijalarini o'qish uchun ishlatiladi
.
7
Xuddi shunday, Hadoop ham uning ma'lumotlar haydovchi sifatida tarqatilgan
fayl tizimiga ega-
Hadoop tarqatilgan fayl tizimi (HDFS) deb nomlangan yosh qatlami,
8
bu GFS ning ochiq manbali
hamkasbi. GFS va HDFS-
bu POSIX semantikasi oddiy bo'lmagan va katta fayllar uchun juda optimallashtirilgan
(gigabaytlarda o'lchangan) foydalanuvchi darajasidagi fayl tizimlari
.
9
Amazon Oddiy Saqlash Xizmati (S3)
10
Amazon veb-xizmatlari tomonidan
taqdim etiladigan onlayn ommaviy saqlash
veb-xizmati. Ushbu fayl tizimi
Amazon Elastic Compute Cloud server-on-demand infratuzilmasida joylashgan klasterlarga
qaratilgan. S3
tovar narxlarida miqyoslilik, yuqori mavjudlik va past kechikishni ta'minlashga qaratilgan.
ES2
11
Epic-ning elastik saqlash tizimi bo'lib,
u bir xil saqlash doirasidagi ikkala funktsiyani qo'llab-quvvatlash uchun mo'ljallangan.
Tizim
turli manbalardan ma'lumotlarni samarali yuklashni, moslashuvchan ma'lumotlarni ajratish
sxemasini, indeksni va parallel ketma-ket
skanerlashni ta'minlaydi. Bundan tashqari,
Moose fayl tizimi (MFS), Kosmos tarqatilgan fayl tizimi (KFS) kabi reklama kiyinmasligi
kerak bo'lgan bir nechta umumiy fayl tizimlari mavjud.
2.3. Tarkibiy bo'lmagan va yarim tuzilgan ma'lumotlarni saqlash
Muvaffaqiyat bilan veb 2.0, aksariyat IT-kompaniyalar tobora
o'sib borayotgan ma'lumotlarni saqlash va tahlil qilishlari kerak, masalan, qidiruv
jurnallari, veb-tarkib va
odatda petabayt oralig'ida bo'lgan turli xil veb-xizmatlardan to'plangan oqimlarni bosing
. Biroq, veb-ma'lumotlar to'plamlari odatda aloqasiz yoki kamroq tuzilgan bo'lib
, bunday yarim tuzilgan ma'lumotlar to'plamlarini miqyosda qayta ishlash yana bir
qiyinchilik tug'diradi. Bundan tashqari,
yuqorida aytib o'tilgan oddiy tarqatilgan fayl tizimlari
Google, Yahoo!kabi xizmat ko'rsatuvchi provayderlarni qondira olmaydi., Microsoft va
Amazon. Barcha provayderlar
potentsial foydalanuvchilarga xizmat ko'rsatish va bulut muhitida katta ma'lumotlarni
boshqarish tizimining tegishli davlatiga egalik qilish maqsadlariga
ega. Bigtable
12
ning tarqatilgan saqlash tizimi Google
minglab tovar serverlarida juda katta hajmga (petabayt ma'lumotlar) o'lchash uchun
mo'ljallangan tuzilgan ma'lumotlarni boshqarish uchun
. Bigtable to'liq
relational ma'lumotlar modelini qo'llab-quvvatlamaydi. Biroq, u mijozlarga
ma'lumotlar tartibi va formati ustidan dinamik nazoratni qo'llab-quvvatlaydigan oddiy
ma'lumotlar modelini taqdim etadi. PNUTS
13
Yahoo! - ni qo'llab-quvvatlash uchun mo'ljallangan katta hajmdagi ma'lumotlar bazasi
tizimi. veb-ilovalar. Asosiy
1250009-5
J. Inter. To'r. 2012.13. Yuklab olingan www.worldscientific.com
texnologiya Dalian universiteti tomonidan 08/07/13. Faqat shaxsiy foydalanish uchun.
Aprel 10, 2013 11:17
C. Ji va boshq.
tizimning diqqat markazida murakkab so'rovlar emas, balki veb-ilovalar uchun xizmat
ko'rsatadigan ma'lumotlar
mavjud. Pnuts-da yangi dasturlarni osongina qurish mumkin
va ushbu dasturlarni yaratish va saqlash xarajatlari juda ko'p narsa emas. Dinamo
14
Amazonning ichki dasturlarini qo'llab-quvvatlash uchun qurilgan juda mavjud va
kengaytiriladigan tarqatilgan kalit/qiymatga asoslangan ma'lumotlar do'koni
. Ushbu dasturlarning talablariga javob beradigan oddiy asosiy kalit
interfeysini taqdim etadi. Biroq, u
kalit qiymatini saqlash tizimidan farq qiladi. Facebook klasterga asoslangan yangi
ma'lumotlar
15
satr va ustunli ma'lumotlar bazasi tizimlarining xususiyatlarini birlashtirgan gibrid

ombori tizimini loyihalashni taklif qildi, Llama,
ma'lumotlarni boshqarish tizimi. Shuningdek, ular
Hadoop uchun cfile deb nomlangan yangi ustunli fayl formatini tasvirlab berishdi, bu
ma'lumotlarni tahlil qilishda boshqa fayl formatlariga qaraganda yaxshiroq ishlashni
ta'minlaydi.
2.4. Ma'lumotlarni Virtualizatsiya Qilish Platformasi
Ma'lumotlarni virtualizatsiya qilish turli xil tizimlarni mavhumlashtirish jarayonini
tavsiflaydi. Buni
resurslarning mavhum qatlamlarining kontseptual qurilishi deb ta'riflash mumkin.
Muxtasar qilib aytganda, katta
ma'lumotlar va bulutli hisoblash
it infratuzilmasi va ilovalarini yanada dinamik, modulli va ko'proq sarflanadigan
texnologiyalar va tendentsiyalarning yaqinlashuvini anglatadi
. Ayni paytda, grafik platforma qurish texnologiyasi faqat
asosan bulut ma'lumotlar markazi integratsiya texnologiyasi bog'liq asosiy bosqichida
hisoblanadi
.
Datacenter-ning asosiy g'oyasi
hisoblash resurslaridan maksimal darajada foydalanish uchun virtualizatsiya
texnologiyasidan foydalanishdir. Shuning uchun u ba-
sic tarkibiy qismlarini saqlash, protsessorlar va tarmoq o'tkazuvchanligi kabi
ixtisoslashgan xizmat ko'rsatuvchi provayderlar tomonidan arzon narxlardagi tovar sifatida
taqdim etadi. Katta ma'lumotlarni boshqarish maqsadlariga erishish uchun
tadqiqot institutlari va korxonalarning aksariyati virtualizatsiyani
bulutli arxitekturaga olib keladi. Amazon veb-xizmatlari (Avs), evkalipt,OpenNebula,
Cloud Stack va OpenStack xizmat sifatida infratuzilma uchun eng mashhur bulutlarni
boshqarish platformalaridir
(IaaS). AVS bepul emas, lekin elastik platformada juda katta foydalanishga ega
. Bu foydalanish juda oson va faqat to'lash-as-you-go. Evkalipt
16
Iaasda ochiq manba sifatida ishlaydi. Qayta manbalarni boshqarish va boshqarishda virtual
mashinadan foydalaniladi
. Evkalipt IaaS uchun eng qadimgi bulutlarni boshqarish platformasi bo'lganligi sababli, u
AVS bilan API mos kelishuvini imzolaydi.
AVS ekologik muhiti uchun xususiy bulut bozorida etakchi mavqega ega. OpenNebula
17
turli muhitlar bilan integratsiyaga ega. Xususiy, ommaviy yoki gibrid bulutlarni qurish
uchun eng boy xususiyatlarni, moslashuvchan usullarni va bet-
terning o'zaro muvofiqligini taklif qilishi mumkin. OpenNebula
xizmatga yo'naltirilgan arxitektura (SOA) dizayni emas va hisoblash,
saqlash va tarmoqdan mustaqil komponentlarda zaif ajralishga ega. CloudStack
Amazon EC2-ga o'xshash, ammo foydalanuvchilarning o'z apparatlaridan foydalangan
holda ommaviy bulutli hisoblashni ta'minlaydigan ochiq manbali bulutli operatsion tizimdir
. CloudStack foydalanuvchilari
oxirgi foydalanuvchiga yuqori samaradorlik, cheksiz masshtab va yangi xizmatlar va
tizimlarni tezroq joylashtirish uchun bulutli hisoblashdan to'liq foydalanishlari mumkin
. Hozirgi vaqtda CloudStack Apache
ochiq manbali loyihalaridan biridir. U allaqachon etuk funktsiyalarga ega. Biroq, bu yanada
kerak
1250009-6
J. Inter. To'r. 2012.13. Yuklab olingan www.worldscientific.com
texnologiya Dalian universiteti tomonidan 08/07/13. Faqat shaxsiy foydalanish uchun.
Aprel 10, 2013 11:17
Katta ma'lumotlarni qayta ishlash: katta qiyinchiliklar va imkoniyatlar
bo'shashgan birikma va komponent dizaynini mustahkamlang. OpenStack to'plamidir
ochiq kodli dasturiy ta'minot qayta
qidiruvchilar, ishlab chiquvchilar va korxonalar bilan ochiq manbali hamjamiyatni
yaratishga qaratilgan loyihalar. Ushbu jamiyatdagi odamlar
oddiy, keng miqyosli va boy xususiyatlarga to'la bulutni yaratish uchun umumiy maqsadga
ega.
OpenStack arxitekturasi va tarkibiy qismlari sodda va barqaror, shuning
uchun korxonalar uchun maxsus dasturlarni taqdim etish yaxshi tanlovdir. Hozirgi
vaziyatda
OpenStack yaxshi jamoat va ekologik muhitga ega. Biroq, u hali
ham to'liq bo'lmagan funktsiyalar va tijorat yordamlarining etishmasligi kabi ba'zi
kamchiliklarga ega.
3. Tarqatilgan Dasturlar
Ma'lumotlar portlashining ushbu asrida katta
hajmdagi ma'lumotlarni o'z vaqtida bajarish uchun parallel ishlov berish zarur. Aksincha,
taqsimlangan texnika
va algoritmlardan foydalanish katta ma'lumotlarni qo'llab-quvvatlashda yaxshiroq o'lchov
va ishlashga erishishning kalitidir
. Ayni paytda,
MPI, umumiy maqsadi GPU (GPGPU), MapReduce va MapReduce-kabi, shu jumladan,
mashhur parallel va tarqatilgan ishlash modellari, bir joyi bor
. Biz oxirgi ikkita ishlov berish modeliga e'tibor qaratamiz.
3.1. MapReduce
Google tomonidan taklif qilingan MapReduce,
sanoat va ilmiy doiralar tomonidan tez o'rganilgan va qo'llanilgan juda mashhur katta
ma'lumotlarni qayta ishlash modeli.
7
MapReduce
ikkita asosiy afzalliklarga ega: u ma'lumotlarni saqlash, tarqatish,
ko'paytirish, yuklarni muvozanatlash va boshqalar bilan bog'liq ma'lumotlarni yashiradi.
Bundan tashqari, bu juda oddiy, dasturchilar

faqat ikkita funktsiyani belgilaydilar, ular xarita funktsiyasi va kamaytirish funktsiyasi.
Mavjud MapReduce dasturlarini uchta toifaga ajratdik: pastki makonni ajratish, pastki
jarayonlarni tuzish va taxminiy bir-biriga o'xshash hisob-kitoblar.
MapReduce bulutli hisoblash muhitida katta ma'lumotlarni qayta ishlashning yangi
yondashuvi deb atalsa
-da, u ma'lumotlar bazasi bilan taqqoslaganda "orqaga qarab katta qadam" sifatida tanqid
qilinadi.
18
Munozara davom etar ekan, yakuniy natija shuni ko'rsatadiki, ularning hech
biri
boshqa yaxshi nima da yaxshi, va ikki texnologiyalari to'ldiruvchi bo'lgan.
19
Yaqinda ba'zi DBMS sotuvchilari MapReduce old uchlarini o'zlarining sys-
temslariga, shu jumladan aster, HadoopDB,
20
Greenplum
21
va vertuka
h
. Asosan o'sha
hali bazasi, qaysi shunchaki bir ma'lumotlar bazasi uchun MapReduce old-uchini
ta'minlash. HadoopDB
-bu MapReduce miqyosi va ma'lumotlar bazasining ishlashidan eng yaxshi xususiyatlarni
samarali oladigan gibrid tizim
. Yaqinda, J. Dittrich va boshq.
Hadoop++ nomli tizimning yangi turini taklif qildi
22
qaysi
HadoopDB hokazo SQL va interfeysi o'zgaruvchan, DBMS foydalanish foydalanuvchi
majbur, shu jumladan, shuningdek, og'ir kamchiliklari bor, deb ko'rsatadi
.
Qayta ishlash uchun zarur bo'lgan ma'lumotlar miqdori oshgani sayin, ko'plab
ma'lumotlarni Pro-
cessing usullari mos emas yoki cheklangan bo'lib qoldi. Shunday qilib, yaqinda ko'plab
tadqiqotlar
h
http://www.vertica.com/
1250009-7
J. Inter. To'r. 2012.13. Yuklab olingan www.worldscientific.com
texnologiya Dalian universiteti tomonidan 08/07/13. Faqat shaxsiy foydalanish uchun.
Aprel 10, 2013 11:17
C. Ji va boshq.
sa'y-harakatlar MapReduce
ma'lumotlar qazib olish, ma'lumot olish,tasvirni qidirish, mashinani o'rganish va naqshni
aniqlash kabi turli xil domenlardagi keng ko'lamli ma'lumotlar to'plamlarida qiyin
ma'lumotlarni muhokama qilish muammolarini hal qilish uchun
asos.
Masalan, Mahout
men
bu kengaytiriladigan mashinani yaratishga qaratilgan Apache loyihasi
barcha Hadoop amalga oshirilmoqda learning kutubxonalar. Rikardo
23
parallel
ma'lumotlar tahlil qo'llab-quvvatlash uchun r statistik vositasi va Hadoop integratsiya
yumshoq sys-tem emasmi.
RankReduce
24
mukammal
samarali K-yaqin qo'shnilar yuqori o'lchovli bo'shliqlar qidiruv amalga oshiradi mahalliy
sezgir aralashgan (LSH) va MapRe-duce, birlashtiradi
. F. Cordeiro va boshq. tavsiya etilgan kamon
25
klasterlash usuli juda katta va
MapReduce bilan ko'p o'lchovli ma'lumotlar to'plamlari. MapDupReducer
26
A MapReduce
katta ma'lumotlar to'plamlari bo'yicha yaqin dublikatlarni aniqlashga qodir bo'lgan tizim
efficiently.
In kiritilgan, C. Ranger va boshq.
27
MapReduce ramkasini
bitta mashinada ko'p ple protsessorlarida amalga oshirdi va bu yaxshi ishlashga erishdi. G.
Vang va boshq.
birgalikda-hech narsa taqdim, in-xotira MapReduce kesish BRACE chaqirdi,
28
simu-latsiyalarni samarali qayta ishlash uchun simulyatsiyalarni dasturlash uchun yuqori
darajadagi tilni o'z ichiga
oladi. Yaqinda B. u va boshq. rivojlangan Mars,
29
GPU - ga asoslangan MapReduce
zamonaviy protsessorga asoslangan ramkaga qaraganda yaxshiroq ishlashga ega bo'lgan
ramka.
3.2. MapReduce-kabi
Ko'pgina dasturchilar MapReduce ramkasidan o'zlarini noqulay his qilishadi va
SQL-dan yuqori darajadagi deklarativ til sifatida foydalanishni afzal ko'rishadi.
Dasturchilarning vazifasini engillashtirish va yuqori darajadagi deklarativ interfeyslarni
ta'minlash uchun bir nechta loyihalar ishlab
chiqilgan MapReduce ramka. Deklarativ so'rovlar tillari
dastur mantig'idan indepen-dence so'rovlariga, so'rovlarni qayta ishlatishga va
SQL kabi avtomatik so'rovlarni optimallashtirish xususiyatlariga imkon beradi. Biz ularni
MapReduce-ga o'xshash tizim deb ataymiz.
Apache Cho'chqasi
30
loyiha Hadoop-da parallel ravishda ma'lumotlar oqimini bajarish uchun vosita
sifatida
ishlab chiqilgan. Ushbu ma'lumotlar oqimini ifodalash uchun cho'chqa lotin deb nomlangan
tildan foydalaniladi. Bu
Hadoop doirasida ustiga qurilgan, va uning foydalanish Hadoop uchun hech qanday
o'zgartirish talab qiladi.
Apache Uyasi
31
loyiha-bu Facebook Data Infrastructure jamoasi tomonidan qurilgan
ochiq manbali ma'lumotlar ombori echimi
. U HIVEQL deb nomlangan SQL
kabi so'rovlar tili bilan maxsus so'rovlarni qo'llab-quvvatlaydi. DryadLINQ
32
dasturning LINQ
ifodalarini Microsoft-ning parallel ma'lumotlarni qayta ishlash vositasi Dryad uchun
tarqatilgan ijro rejasiga aylantirish uchun ishlab chiqilgan
.
So'nggi ikki yil ichida, u ba'zi yangi tarqalgan ma'lumotlarni qayta ishlash tizimlari
paydo bo'ldi,
va hatto MapReduce orqasida chaqirdi. Biroq, mohiyatan bularning barchasi MapReduce-
ning
yanada yaxshilanishi va rivojlanishi. Misol uchun, Google incremental calcula-
33
haqiqiy vaqtda so'rovlar tizimi Dremel,
34
tarqatilgan ma'lumotlar bazasi
Google Spanner,
35
Berkeley interaktiv Real vaqt ishlash tizimi Spark,
36
ma'lumotlar
J. Inter. To'r. 2012.13. Yuklab olingan www.worldscientific.com
texnologiya Dalian universiteti tomonidan 08/07/13. Faqat shaxsiy foydalanish uchun.

yozildi kesish Perkolator,
oqim hisoblash tizimi Yahoo!S4,
37
Facebook Puma, Tvitter Strom va hokazo.
men
http://mahout.apache.org/
1250009-8
Aprel 10, 2013 11:17
Katta ma'lumotlarni qayta ishlash: katta qiyinchiliklar va imkoniyatlar
3.3. Dastur Muammosi
Barchamizga ma'lumki, bulutli muhitda katta ma'lumotlar dasturlarini joylashtirish
ahamiyatsiz yoki oddiy ish emas.
Katta ma'lumotlarning ko'proq joylarini qayta ishlash uchun bulutli hisoblash usullaridan
foydalanishimiz kerak. Mavjud ma'lumotlarni
qayta ishlashning bir nechta muhim sinflari va bulutli muhit bilan yanada jozibali
ko'rinadigan
va yaqin kelajakda uning tezlashishiga hissa qo'shadigan ilovalar mavjud, masalan:
Murakkab Multi-media ma'lumotlar:
Bulutga asoslangan yangi multimedia-hisoblash
paradigmasida foydalanuvchilar multimedia dasturlari ma'lumotlarini tarqatilgan tarzda
saqlaydilar va qayta
ishlaydilar, media dasturiy ta'minotining to'liq o'rnatilishini yo'q qiladilar.
Bulutli muhit sharoitida multimediyani qayta
ishlash tarkibga asoslangan multimedia qidirish tizimida katta heterojenlik chal-lenges,
38
tarqatilgan murakkab ma'lumotlarni
qayta ishlash, yuqori bulutli QoS qo'llab-quvvatlash, media bulutli transport protokoli,
media bulutli
tarmoq va media bulutli xavfsizlik, multimedia xizmatlari uchun P2P buluti va
boshqalar.
Jismoniy va Virtual olamlar ma'lumotlari:
Onlayn muhitda odamlar bilan o'zaro aloqada bo'lgan odamlarning kuchi internet
maydonidagi ko'plab kompaniyalarning muvaffaqiyati yoki muvaffaqiyatsizligiga
olib keldi. Katta ma'lumotlarni
saqlashni qanday tashkil qilish va uni haqiqiy dunyoda yoki virtual dunyoda qayta ishlash
kabi ko'plab qiyinchiliklar mavjud.
Bulutli hisoblash va virtual olamlarni birlashtirish uchun biz yangi arxitekturani va virtual
bulutni amalga oshirishni taqdim etishimiz kerak
. Virtualizatsiya qilingan resurslarning keng ko'lami ham
samarali va samarali qayta ishlanishi kerak.
Mobil Bulutli Ma'lumotlar Tahlili:Aqlli telefonlar va planshetlar GPS
, kamera va Bluetooth kabi sensorlarni olib yurishni boshladilar. Odamlar va
qurilmalarning barchasi
erkin bog'langan va trillionlab bunday ulangan komponentlar ulkan
ma'lumotlar okeanini yaratadi. Ular odatda cheklangan hisoblash resurslari bo'lgan kichik
qurilmalarda saqlash qiyin bo'lgan katta ma'lumotlar to'plamiga tayanadilar
. Shunday qilib, ushbu yirik ma'lumotlar
to'plamlarini katta ma'lumotlar markazlarida joylashtirish va ularning talabiga binoan bulut
orqali kirish qulayroq
. Bundan tashqari, katta hajmdagi
yuqori o'lchovli fazoviy katta ma'lumotlarni dinamik indeksatsiya qilish, tahlil qilish va
so'roq qilish asosiy muammolardir.
4. MapReduce Optimallashtirish
Oldingi ishlar shuni ko'rsatdiki, MapReduce tizimlari com-
puting resurslaridan foydalanishda samarasiz.
39
Ushbu bo'limda biz
MapReduce yordamida katta ma'lumotlarni qayta ishlash samaradorligini oshirishga oid
yondashuvlar tafsilotlarini taqdim etamiz.
4.1. Ma'lumot Uzatishdagi To'siqlar
Bulutli foydalanuvchilar ma'lumotlarni uzatish narxini qanday kamaytirishni o'ylashlari
kerak bo'lgan katta muammo
. Binobarin, tadqiqotchilar turli xil ap-proachlarni taklif qila
boshladilar. Xaritani Qisqartirish-Birlashtirish
40
qayta duce bosqichidan keyin birlashma bosqichini
qo'shadigan yangi model bo'lib
, u ikkita turli xil MapReduce ishlaridan ikkita qisqartirishni
birlashtiradi, bu allaqachon bo'lingan va tartiblangan ma'lumotlarni samarali birlashtirishi
mumkin (yoki
1250009-9
J. Inter. To'r. 2012.13. Yuklab olingan www.worldscientific.com
texnologiya Dalian universiteti tomonidan 08/07/13. Faqat shaxsiy foydalanish uchun.
Aprel 10, 2013 11:17
C. Ji va boshq.
aralashgan) xarita va kamaytirish modullar tomonidan. Xarita-Qo'shilish-Kamaytirish
41
katta

klasterlarda murakkab ma'lumotlarni tahlil qilish vazifalarini bajarish uchun bosqichni
qisqartirishdan oldin qo'shilish bosqichini qo'shish orqali MapReduce ish vaqti doirasini
kengaytiradigan va yaxshilaydigan tizim
. Mualliflar
filtrlash ishlaydi yangi ma'lumotlarni qayta ishlash strategiyasini oldindan sented-
ketma-ket ikki MapReduce ish o'rinlari bilan yig'ish vazifalarni qo'shiling. Bu
oraliq natijalarini tez-tez tekshirish ishora va aralashtirish oldini olish uchun bir-to-ko'p
tartibsizlik sxemasini qabul qiladi. Bundan tashqari, dif-
ferent jobs ko'pincha shunday o'xshash ish almashish
ish o'rinlari o'rtasida ma'lumotlar uzatish umumiy miqdorini kamaytiradi, shunga o'xshash
ish bajarish. MRShare
42
T. Nykiel va boshq. bu so'rovlar to'plamini yangi guruhga aylantiradi
, bu ishlarni guruhlarga birlashtirish va har bir guruhni bitta so'rov sifatida baholash orqali
yanada samarali bajarilishi mumkin
.
4.2. Indeksni Optimallashtirish
Ko'pchilik tadqiqotchilar yaxshi ish faoliyatini olish MapReduce an'anaviy va
optimallashtirilgan indeks tuzilmalarni amalga
oshirildi. Ref Yilda.
43
, T. Liu va boshq. gibrid
to'kilgan daraxtlarni parallel ravishda qurdi va
MapReduce yordamida milliardlab rasmlar orasida dublikatlarni topish uchun samarali
ishlatilishi mumkin bo'lgan o'lchovli tasvirni qidirish algoritmini amalga
oshirdi. Biroq, daraxtga asoslangan yondashuvlarda ba'zi muammolar mavjud. Ular
daraxt ildizi yaqinidagi tugunlarni haddan tashqari yuklagan va to'liq markazsizlashtirishni
ta'minlay olmagan an'anaviy yuqoridan pastga qidirish tufayli
kattalashmadi. Voronoyga asoslangan indeks
44
uning bo'sh qoplangan tomonidan juda scalable Klaster qildi va hech narsa arxitekturasini
o'rtoqlashdi.
Hozirgacha Voronoi asosidagi indeks ko'p o'lchovli ma'lumotlarni qayta ishlay olmaydi.
Shunday qilib,
oddiy, kengaytiriladigan va taqsimlangan ishlov berish rejimida yaxshi ishlatiladigan indeks
tuzilishi
ma'lumotlarni samarali saqlash va qayta ishlash uchun eng yaxshi tanlovdir. Keyinchalik,
Menon va boshq., MapReduce-ning o'ziga xos xususiyatlaridan foydalangan holda
qo'shimchalar qatori va ketma-ketlikni qurish uchun yangi parallel algoritmni taqdim
etdi va
ish vaqtini soatdan bir necha daqiqagacha qisqartirdi.
45
Oddiy, ammo amaliy indeks tuzilishi bo'lgan va
MapReduce uchun Ref kabi katta ma'lumotlarni qayta ishlashga mos keladigan teskari
indeksni moslashtiradigan ba'zi hujjatlar mavjud.
46
va hokazo. Biz
keng ko'lamli fazoviy ma'lumotlar muhiti bo'yicha katta tadqiqotlar o'tkazdik va
teskari indeks va fazoviy panjara qismini MapReduce modeli bilan birlashtirib,
oddiy, dinamik, kengaytiriladigan va yuqori o'lchovli fazoviy ma'lumotlarni qayta ishlashga
mos keladigan taqsimlangan teskari panjara indeksini
ishlab chiqdik.
47
Katta ma'lumotlarning ko'p turlari yuqori o'lchovli bo'lsa-da, Shuning uchun Ref.
48
, J. Vang
va boshq. epiC yangi tizimini ishlab chiqdi, unda turli
xil dasturlar uchun so'rovlarni samarali qayta ishlashni ta'minlash uchun har xil turdagi
indekslar qurildi.
4.3. Takroriy Optimallashtirish
Klassik parallel dasturlar yordamida ishlab chiqilgan xabarlarni uzatish kabi ish
vaqtlari MPI (xabarlarni uzatish interfeysi) va PVM (Parallel Virtual mashina), bu erda par-
allel algoritmlar com-ning boy to'plamidan foydalanish uchun yuqoridagi texnikalar
yordamida ishlab chiqilgan
1250009-10
J. Inter. To'r. 2012.13. Yuklab olingan www.worldscientific.com
texnologiya Dalian universiteti tomonidan 08/07/13. Faqat shaxsiy foydalanish uchun.
Aprel 10, 2013 11:17
Katta ma'lumotlarni qayta ishlash: katta qiyinchiliklar va imkoniyatlar
munication va sinxronizatsiya konstruktsiyalari turli xil com-
munication topologiyalarini yaratish uchun taklif etiladi. Aksincha, MapReduce va shunga
o'xshash yuqori darajadagi dasturlash
modellari oddiy aloqa topologiyalari va sinxronizatsiya konstruktsiyalarini qo'llab-
quvvatlaydi.
MapReduce shuningdek, mashhur platforma bo'lib, unda ma'lumotlar oqimi
operatorlarning di-
rektsiyalangan asiklik grafigi shaklini oladi. Biroq,
MapReduce bilan takrorlash muammosini hal qilishda juda ko'p I/Os va keraksiz hisob-
kitoblarni talab qiladi. Burama
49
J. Ekanayake va boshq. samarali
iterativ MapReduce hisob qo'llab-quvvatlaydi rivojlangan MapReduce ish vaqti, qaysi
qo'shimcha
bosqichi kamaytirish keyin bosqichi birlashtirish qo'shadi. Shunday qilib, combine stage-
dan ma'lumotlar chiqishi keyingi it-
eration xaritasi bosqichiga o'tadi. Bu takrorlash paytida ishchilarni qayta-qayta
qo'zg'atishdan qochadi
va ilgari yaratilgan ishchilar keyingi iteratsiya uchun turli xil
KBB yozuvlari bilan qayta ishlatiladi. O'zlarining tadqiqotlarida ular
MapReduce-ning qo'llanilishini faqat xarita, MapReduce, iterativ MapReduce
va boshqa kengaytmalar kabi ko'proq dasturlarga kengaytirdilar. Haloopname
50
ga o'xshaydi Tvister, bu o'zgartirilgan versiyasi
MapReduce ko'chadan boshqarish orqali takroriy dasturlarni qo'llab-quvvatlaydigan ramka
. Bundan tashqari, takrorlash paytida ko'proq I/Os saqlash uchun ikkala bosqichning kirish
va chiqishini keshlash imkonini beradi

. Grafik ma'lumotlar jarayoni-ing davomida yineleme uchastkalar mavjud
. Pregelname
51
ommaviy sinxron
Parallel(BSP) modeli asosida dasturlash modelini amalga oshiradi, unda har bir tugun o'z
kirishiga ega va faqat
keyingi takrorlash uchun zarur bo'lgan ba'zi xabarlarni boshqa tugunlarga o'tkazadi.
4.4. Onlayn
Original MapReduce juda yaxshi, bu, albatta, mumkin emas-da onlayn qayta ishlash kerak,
ayrim ish o'rinlari bor
. MapReduce Onlayn
52
MapReduce onlayn aggrega-
yozildi va uzluksiz so'rovlarni qo'llab-quvvatlash uchun mo'ljallangan. Bu tez-tez tekshirish
ishora va oraliq natijalarini tartibsizlik quvur ishlash cheklash, deb bir masalani ko'taradi.
Mualliflar
MapReduce asoslarini o'zgartirdilar, Mapperlar
mahalliy omborda vaqtincha saqlanadigan ma'lumotlarini bir xil MR ishida vaqti-vaqti bilan
reduktorlarga surishadi. Bundan tashqari,
aloqani kamaytirish uchun xarita tomonidan oldindan yig'ish qo'llaniladi. Hadoop onlayn
Proto-
turi (HOP)
53
T. Condie tomonidan taklif qilingan MapReduce Online-ga o'xshaydi. HOP
-bu MapReduce ramkasining o'zgartirilgan versiyasi bo'lib, foydalanuvchilarga
hisoblash paytida ishdan erta daromad olish imkoniyatini beradi. Shuningdek, u
imkon beradigan doimiy so'rovlarni qo'llab-quvvatlaydi MapReduce
dasturlari Hadoop-ning xatolarga bardoshlik xususiyatlarini saqlab, voqealarni kuzatib
borish va oqimni qayta ishlash kabi dasturlar uchun yozilishi kerak.
D. Jiang va boshq.
54
MapReduce yilda birlashma sort I ko'p xarajati deb topildi / Os va
jiddiy MapReduce faoliyatini ta'sir. Tadqiqotda natijalar
xeshlanadi va har bir xarita vazifasi o'z natijalarini chiqarishi bilanoq reduktorlar
tomonidan o'tkaziladigan Xash jadvallariga suriladi
. Keyin, reduktorlar har bir chelakdagi qiymatlarni birlashtirishni amalga oshiradilar.
Xash jadvalidagi har bir chelak alohida kalitga mos keladigan barcha qiymatlarga ega
bo'lganligi sababli, guruhlash talab qilinmaydi. Bundan tashqari, reduktorlar
barcha xaritachilar hali tugallanmagan bo'lsa ham, tezda agregatsiyani amalga oshirishi
mumkin.
1250009-11
J. Inter. To'r. 2012.13. Yuklab olingan www.worldscientific.com
texnologiya Dalian universiteti tomonidan 08/07/13. Faqat shaxsiy foydalanish uchun.
Aprel 10, 2013 11:17
C. Ji va boshq.
4.5. So'rovlarni Optimallashtirishga Qo'shiling
Qo'shiling so'rovlar katta ma'lumotlar sohasida mashhur muammo hisoblanadi. Ammo
qo'shilish muammosi
ikkitadan ortiq kirishga muhtoj, MapReduce esa bitta kirishni qayta ishlash uchun ishlab
chiqilgan.
R. Vernica va boshq.
55
uchidan uchiga o'xshashlik uchun qo'shilish uchun 3 bosqichli yondashuv
taklif qilindi.
Ular ish hajmini muvozanatlash va replikatsiya zarurligini minimallashtirish uchun
ma'lumotlarni bir nechta tugunlarga samarali ravishda ajratdilar
. V. Lu va boshq.
kNN MapReduce yordamida qo'shiling bajarish uchun qanday tekshirilayotgan.
56
Mappers ob'ektlarni guruhlarga to'playdi, keyin
reduktorlar har bir ob'ekt guruhiga kNN qo'shilishini alohida bajaradilar. Shuf-
fling va hisoblash xarajatlarini kamaytirish uchun ular
masofani filtrlash uchun Azizillo qoidalaridan foydalanadigan samarali xaritalash
mexanizmini ishlab chiqdilar. Bundan tashqari, ikkita taxminiy algoritm
aralashtirish narxini kamaytirish uchun nusxalar sonini kamaytiradi.
4.6. Ma'lumotlarni Burish
MapReduce egri ma'lumotlarni topshirishda juda samarali emas, chunki u faqat
kalitni ko'rib chiqadi va har bir reduktorga ish yukini tarqatish uchun yagona Xash usulini
qo'llaydi.
Bu yuk muvozanatiga olib kelishi, ishlov berish vaqtini oshirishi, "strag-
gler" ni yaratishi mumkin va yakuniy natija ishlashning pasayishi hisoblanadi. Muammo
birinchi navbatda
tasvirlangan Ref.
18
. Google stragglers muammosini engillashtirish uchun ishlatiladigan
zaxira vazifasini taklif
qildi. Hozirgi vaqtda ma'lumotlarning qiyshayishiga ba'zi to'g'ri yondashuvlar
taklif qilingan. S. Ibrohim va boshq. kalit fre-quency asoslangan yaxshi bo'lish sxemasini
qildi.
57
Ular narx modellari asosida kamaytirish uchun kalitlarni tayinladilar,
58
ish yukini
mayda donali qismlarga ajratdi va bu bo'limlarni bo'sh resurslarga ega bo'lgan boshqa
tugunlarga qayta tayinladi
. Y. Xu va boshq. asosiy masala har bir
reduktor muvozanatini bir-biriga qanday qilish kerakligi va taklif qilingan usul deb
hisoblanadi
59
bu ikki bosqichda bir MapReduce ish
ajratib: masal MapReduce ish va kutilgan MapReduce ish. Shuningdek, ular
oraliq kalitlarning chastotalarida taqsimotni kuzatib boradilar va yaxshi
bo'lim sxemasini tuzadilar. Shuning uchun, ma'lumotlar qiyshiq band qilish uchun asosiy
ma'lumotlar distributu-yozildi taxmin
va yaxshi bo'lish sxemasini qilishdir. Biroq,
ishlov berish platformasining yuqori ishlashini saqlab, ma'lumotlarni tarqatish
ma'lumotlarini tez va samarali olish juda katta muammo
J. Inter. To'r. 2012.13. Yuklab olingan www.worldscientific.com
texnologiya Dalian universiteti tomonidan 08/07/13. Faqat shaxsiy foydalanish uchun.

.4.7. Rejalashtirishni Optimallashtirish
MapReduce ish rejalashtirish cloud computing kontekstida issiq va mashhur mavzulardan
biri hisoblanadi
. Operatsion xarajatlarni kamaytirish uchun tashkilotlar ko'pincha Mapre-
duce-ni umumiy klasterga joylashtiradilar. Misol uchun, Face-kitob ma'lumotlar ombori
Hadoop Klaster
2000 dan ortiq mashinalari o'z ichiga oladi va o'rtacha kuniga 25,000 MapReduce ish
o'rinlari qabul qiladi. Ish joylarining ko'pligi sababli, cheklangan resurslarni taqsimlash va
samarali
ish rejalashtiruvchisi tizimning ishlashi va resurslardan foydalanishni yaxshilash uchun
juda muhimdir.
Birinchidan birinchi (FIFO) rejalashtiruvchisi, adolatli rejalashtiruvchi va imkoniyatlar
rejalashtiruvchisi
amalda eng ko'p ishlatiladigan rejalashtiruvchilardir. Biroq, bu rejalashtirish sabab ish
yulduz-
vation. Yaqinda, shuningdek, rejalashtirish usullari haqida ko'p tafovutlar bor. Ref Yilda.
60
,
1250009-12
Aprel 10, 2013 11:17
Katta ma'lumotlarni qayta ishlash: katta qiyinchiliklar va imkoniyatlar
J. Tan va boshq. mo'ljallangan va amalga Qo'shish Scheduler, qaysi
xaritasi vazifa o'sib ulg'aygan qarab vazifalarni kamaytirish yo'lga. Bu rejalashtirish usuli
kattaligi bir tartibda qadar tomonidan ish javob marta ko'p im-provements turkcha.
Ref mualliflar.
61
turli xil va moslashuvchan rejalashtirishni taqsimlash sxemasini taklif qildi FLEX,
bu har xil standart rejalashtirish nazariyasi ko'rsatkichlarini optimallashtiradi. Sandholm
va boshq.
62
tartibga solinadigan dinamik oldingi itizatsiya strategiyasidan foydalangan holda
MapReduce ish jadvalini yaxshilashga harakat qiling
. Bulutdagi ma'lumotlar oqimini rejalashtirish ham juda murakkab va
qiyin muammo, H. Kllapi va boshq.
63
ma'lumotlar oqimi jadvalini
optimallashtirish uchun asos yaratdi, bu juda istiqbolli samaradorlikka ega.
5. Muhokama va muammolar
Avval aytib o'tganimizdek, biz hozir katta ma'lumotlar kunlaridamiz. Eng yaxshi yetti katta
ma'lumotlar haydovchilar fan ma'lumotlar, Internet ma'lumotlar, moliya ma'lumotlar, mobil
qurilma ma'lumotlar, sensor
ma'lumotlar, RFID ma'lumotlar va oqim ma'lumotlar bor. Mashinani
o'rganish va mulohaza yuritishning so'nggi yutuqlari, shuningdek hisoblash quvvati va
saqlashning tez o'sishi bilan birgalikda biz
turli xil manbalardan to'plangan tobora katta, heterojen,
shovqinli va to'liq bo'lmagan ma'lumotlar to'plamlarini anglash qobiliyatimizni
o'zgartirmoqdamiz.
Hozircha tadqiqotchilar katta ma'lumotlarning muhim xususiyatlarini birlashtira
olmaydilar.
Ulardan ba'zilari big data-bu biz mavjud bo'lgan
texnologiya, usul va nazariya yordamida qayta ishlashga qodir bo'lmagan ma'lumotlar deb
o'ylashadi. Biroq,
katta ma'lumotlarning ta'rifini qanday ko'rib chiqsak ham, dunyo "nochorlik" yoshiga
aylanib
bormoqda, shu bilan birga ilm-fan, biznes va jamiyat tomonidan behisob ma'lumotlar
o'zgarib turadi. Big data
ma'lumotlarni boshqarish va tahlil qilish va hatto butun IT sohasi uchun yangi
muammolarni ilgari surdi
.
Biz uchta muhim jihatga duch kelamiz deb hisoblaymiz
katta ma'lumotlarni qayta ishlashda va biz o'z nuqtai nazarimizni batafsil bayon qilamiz:
Katta ma'lumotlarni saqlash va boshqarish:
Ma'lumotlarni boshqarish
tizimlarining hozirgi texnologiyalari katta ma'lumotlarning ehtiyojlarini qondira olmaydi va
saqlash hajmining ortib borayotgan tezligi ma'lumotlarga qaraganda ancha past. Shunday
qilib,
axborot tizimini qayta qurish inqilobi juda zarur. Biz ierarxik saqlash
arxitekturasini loyihalashimiz kerak. Bundan tashqari, oldingi kompyuter algoritmlari
bevosita haqiqiy dunyodan olinadi samarali haydovchi-yoshi ma'lumotlarni ega emas,
tufayli
katta ma'lumotlar heterojenlik uchun. Biroq, ular bir hil ma'lumotlarni qayta ishlashda
mukammal bajaradilar.
Shuning uchun, ma'lumotlarni qanday qilib qayta tartibga solish katta ma'lumotlarni
boshqarishda katta muammolardan biridir.
Virtual server texnologiyasi
dastur, server va saqlash ma'murlari o'rtasida aloqa yomon, ayniqsa,agar, ustidan-sodir
resurslari istiqbolini ko'tarib, muammoni yanada og'irlashtirishi mumkin
. Shuningdek, biz
hozirgi Master-Slave tizimi modelida yuqori bir vaqtda I / u va bitta nomli tugunning to'siq
muammolarini hal qilishimiz kerak.
Katta ma'lumotlarni hisoblash va tahlil qilish:
Katta ma'lumotlarda so'rovni qayta ishlash
paytida,
tezlik muhim talabdir.
64
Biroq, bu juda ko'p vaqtni talab qilishi mumkin, chunki u
qisqa vaqt ichida butun ma'lumotlar bazasidagi barcha tegishli ma'lumotlarni bosib
o'tolmaydi. Bunday
holda, indeks optimal tanlov bo'ladi. Hozirgi vaqtda katta ma'lumotlardagi indekslar faqat
maqsadga qaratilgan
1250009-13
J. Inter. To'r. 2012.13. Yuklab olingan www.worldscientific.com
texnologiya Dalian universiteti tomonidan 08/07/13. Faqat shaxsiy foydalanish uchun.
Aprel 10, 2013 11:17

C. Ji va boshq.
da oddiy ma'lumotlar turi, katta ma'lumotlar esa murakkablashmoqda.
Katta ma'lumotlar va zamonaviy ishlov berish texnologiyasi uchun tegishli indeksning
Kombi-millati
biz bunday muammolarga duch kelganimizda kerakli echim bo'ladi. Ilovani
parallellashtirish va bo'linish va zabt etish AP-proaching uchun tabiiy hisoblash
paradigmalari katta ma'lumotlar muammolar. Ammo qo'shimcha hisoblash resurslarini
olish shunchaki kattaroq va kuchliroq mashinaga o'tish kabi oddiy emas.
An'anaviy ketma-ket algoritm katta ma'lumotlar uchun samarasiz. Agar dasturda
ma'lumotlarning parallelligi etarli bo'lsa
, foydalanuvchilar bulutning arzonlashtirilgan
modelidan foydalanib, qisqa vaqt ichida yuzlab kompyuterlardan foydalanishlari mumkin.
Katta Ma'lumotlar Xavfsizligi:
Onlayn big data ilovasidan foydalanib, ko'plab kompaniyalar
IT xarajatlarini sezilarli darajada kamaytirishi mumkin. Biroq, xavfsizlik va maxfiylik butun
katta
ma'lumotlarni saqlash va qayta ishlashga ta'sir qiladi, chunki
muhim ma'lumotlarni joylashtirish yoki muhim operatsiyalarni bajarish uchun
ishlatiladigan uchinchi tomon xizmatlari va infratuzilmalaridan keng foydalanish mavjud
. Ma'lumotlar va ilovalar ko'lami eksponent ravishda o'sib boradi va
dinamik ma'lumotlarni kuzatish va xavfsizlikni himoya qilishning katta muammolarini
keltirib chiqaradi. An'anaviy
xavfsizlik usuli farqli o'laroq, katta ma'lumotlar xavfsizlik
foydalanuvchilar nozik ma'lumotlarni fosh holda ma'lumotlar qazib olish jarayoni uchun
qanday shaklida asosan hisoblanadi. Bundan tashqari,
maxfiylik himoya joriy texnologiyalar asosan statik ma'lumotlar majmui asoslangan,
ma'lumotlar har doim
jadal o'zgardi esa, ma'lumotlar naqsh, shu jumladan,, xususiyati va
yangi ma'lumotlar qo'shimcha o'zgarish. Shunday qilib, ushbu murakkab sharoitda
maxfiylikni samarali himoya qilishni amalga oshirish qiyin
. Bundan tashqari, huquqiy va me'yoriy masalalar ham e'tiborga muhtoj.
6. Xulosa
Bu qog'oz cloud computing kontekstida katta ma'lumotlarni qayta ishlash bo'yicha so'rov
tizimli oqimini tasvirlangan
. Biz o'z navbatida bulut
saqlash va hisoblash arxitektura, mashhur parallel ishlash doirasida, asosiy
dasturlar va MapReduce/MapReduce-kabi optimallashtirish, shu jumladan, asosiy
masalalar, muhokama qilindi. Katta ma'lumotlar yangi
tushuncha emas, lekin juda qiyin. Bu talab qilinadigan natijalarni Real vaqt rejimida olish
uchun kengaytiriladigan saqlash indeksini va taqsimlangan
yondashuvni talab qiladi.
Ma'lumotlar an'anaviy ravishda qayta ishlash uchun juda katta ekanligi asosiy haqiqatdir.
Shunga qaramay, katta ma'lumotlar murakkab bo'ladi va
biz uchun katta imkoniyatlar bo'lgan barcha katta qiyinchiliklar paytida doimiy ravishda
mavjud bo'ladi. Kelajakda
sanoat va ilmiy doiralar tomonidan muhim muammolarni hal qilish kerak. Kompyuter
olimlari va ijtimoiy fanlar olimlari yaqin
hamkorlik qilishlari, bulutli hisoblashning uzoq muddatli muvaffaqiyatini kafolatlashlari va
yangi hududlarni birgalikda o'rganishlari zarur.
Minnatdorchilik
Bu ish
grant nos. 61225010 ostida Xitoy mashhur yosh olimlar uchun Milliy fan jamg'armasi
tomonidan qo'llab-quvvatlanadi, grant nos ostida NSFC. ning 61173160,61173161
, 61173162, 61173165, 61103234 va 61272417, universitetida yangi asr
zo'r iste'dodlari uchun dastur (NCET-10-0095) Xitoy ta'lim vazirligi.
Kollej talabalarining innovatsion va tadbirkorlik o'quv dasturi loyihasi
1250009-14
J. Inter. To'r. 2012.13. Yuklab olingan www.worldscientific.com
texnologiya Dalian universiteti tomonidan 08/07/13. Faqat shaxsiy foydalanish uchun.
Aprel 10, 2013 11:17
Katta ma'lumotlarni qayta ishlash: katta qiyinchiliklar va imkoniyatlar
Grant nos ostida Xitoy.ning 2011022, 2011003, 201211258013 va 201211258014.
Grant nos ostida Markaziy universitetlar uchun Fundamental tadqiqot fondlari.
ning 2012td008 va 2012qn029.
Adabiyotlar
1. (2008) katta ma'lumotlar: petabayt davridagi fan. Tabiat 455 (7209): 1 .
2. Duglas va Laney (2008) 'katta ma'lumotlar' ning ahamiyati: ta'rif.
3. Ji, C., Li, Y., Qiu, Vt, Avada, U. va li, K. (2012) bulut ichida katta ma'lumotlarni qayta ishlash
hisoblash muhitlar. Keng tarqalgan tizimlar, algoritmlar va tarmoqlar (

ISPAN2012 yil 12-xalqaro simpozium, 17-23 betlar, IEEE.
4. Kossmann, D., Kraska, T. va Loesing, S. (2010) muqobil archi baholash-
bulutda tranzaktsiyalarni qayta ishlash uchun tectures.
Ma'lumotlarni boshqarish bo'yicha 2010 yilgi xalqaro konferentsiya materiallari, 579-590 betlar,
ACM.
5. Horey, J., Begoli, E., Gunasekaran, R., Lim, S. va Nutaro, J. (2012) katta ma'lumotlar platformalari
xizmat sifatida: qiyinchiliklar va yondashuv.
Bulutli Ccomputingdagi issiq mavzular bo'yicha 4-USENIX konferentsiyasi materiallari, 16-16 betlar,
USENIX assotsiatsiyasi.
6. Ghemavat, S., Gobioff, H. va Leung, S. (2003) google fayl tizimi. ACM SIGOPS
Operatsion tizimlarni ko'rib chiqish, vol. 37, pp. 29-43, ACM.
7. Dekan, J. va Ghemavat, S. (2008) Mapreduce: katta hajmdagi soddalashtirilgan ma'lumotlarni qayta
ishlash
klasterlar. ACM aloqalari , 51, 107-113.
8. Borthakur, D. (2007) hadoop tarqatilgan fayl tizimi: arxitektura va dizayn.
Hadoop Loyihasi Veb-Sayti, 11.
9. Rabkin, A. va Katz, R. (2010) Chukva: ishonchli keng ko'lamli jurnallarni yig'ish tizimi.
Katta o'rnatish tizimini boshqarish bo'yicha USENIX konferentsiyasi, 1-15 betlar.
10. Sakr, S., Liu, A., Batista, D., va Alomari, M. (2011) keng ko'lamli ma'lumotlar tadqiqot
bulutli muhitda boshqaruv yondashuvlari. Aloqa tadqiqotlar & Tutorials,
IEEE, 13, 311-336.
11. Cao, Y., Chen, C., Guo, F., Jiang, D., Lin, Y., Ooi, B., Vo, H., Vu, S. va qurbanlarning, Q. (2011)
Es2: oltp va olap-ni qo'llab-quvvatlash uchun bulutli ma'lumotlarni saqlash tizimi. Ma'lumotlar
muhandisligi
( ICDE), 2011 yil IEEE 27-xalqaro konferentsiyasi, 291-302 betlar, IEEE.
12. Chang, F., Dekan, J., Ghemavat, S., Hsieh, Vt, Valach, D., Burrouz, M., Chandra,
T., Fikes, A. va Gruber, R. (2006) Bigtable: tarqatilgan tuzilgan ma'lumotlarni saqlash
tizimi. 7th OSDI, pp. 305-314.
13. Cooper, B., Ramakrishnan, R., Srivastava, U., Silberstein, A., Bohannon, P., Jacobsen,
H., Puz, N., to'quvchi, D. va Yerneni, R. (2008) Pnuts: Yahoo!'s joylashtirilgan ma'lumotlar xizmat
platforma. VLDB vaqf materiallari , 1, 1277-1288.
14. Dekandiya, G., Xastorun, D., Jampani, M., Kakulapati, G., Lakshman, A., Pilchin, A.,
Sivasubramanian, S., Vosshall, P. va Vogels, V. (2007) Dinamo: Amazonning juda
mavjud kalit qiymati do'koni. ACM SIGOPS operatsion tizimlarini ko'rib chiqish, vol. 41, pp. 205-220
, ACM.
15. Lin, Y., Agraval, D., Chen, C., Ooi, B. va Vu, S. (2011) Lama: foydalanib ustunli
MapReduce doirasida kengaytiriladigan birikmalarni qayta ishlash uchun saqlash.
Ma'lumotlarni boshqarish bo'yicha 2011 yilgi xalqaro konferentsiya materiallari, 961-972 betlar,
ACM.
16. Nurmi, D., Volski, R., Grzegorchik, C., Obertelli, G., Soman, S., Yusuf, L. va
Zagorodnov, D. (2009) evkalipt ochiq manbali bulutli hisoblash tizimi. Klaster
1250009-15
J. Inter. To'r. 2012.13. Yuklab olingan www.worldscientific.com
texnologiya Dalian universiteti tomonidan 08/07/13. Faqat shaxsiy foydalanish uchun.
Aprel 10, 2013 11:17
C. Ji va boshq.
Hisoblash va tarmoq, 2009. CCGRID ' 09. 9th IEEE / ACM xalqaro simpozium
, pp. 124-131, IEEE.
17. Sempolinski, P. va tayn, D. (2010) evkaliptni taqqoslash va tanqid qilish, ochiq-
tumanlik va nimbus. Bulutli hisoblash texnologiyalari va fanlari (CloudCom), 2010 yil ieee
ikkinchi xalqaro konferentsiyasi, 417-426 betlar, Ieee.
18. Devitt, D. va Stonebraker, M. (2008) Mapreduce: orqaga katta qadam. The
Ma'lumotlar Bazasi Ustun, 1.
19. Stonebraker, M., Abadi, D., Devit, D., Madden, S., Paulson, E., Pavlo, A. va Rasin,
A. (2010) Mapreduce va parallel dbmss: do'stlar yoki dushmanlar. ACM aloqalari,
53, 64–71.
20. Abouzeid, A., Bajda-Pavlikovskiy, K., Abadi, D., Silberschatz, A. va Rasin, A. (2009)
Hadoopdb: analitik ish yuklari uchun MapReduce va dbms texnologiyalarining me'moriy gibridi
. VLDB jamg'armasi , 2, 922-933.
21. Xu, Y., Kostamaa, P. va Gao, L. (2010) hadoop va parallel ma'lumotlar bazasi integratsiya. Pro-
ma'lumotlarni boshqarish bo'yicha 2010 yilgi xalqaro konferentsiyaning ceedings, 969-974 betlar,
ACM.
22. Dittrich, J., Quiane-Ruiz, J., Jindal, A., Kargin, Y., Setti, V. va shad, J. (2010)
Hadoop++: sariq filni gepard kabi yugurish (hatto sezmasdan ham).
VLDB jamg'armasi , 3, 515-529.
23. Das, S., Sismanis, Y., Beyer, K., Gemulla, R., Xaas, P. va Makferson, J. (2010)
Rikardo: r va hadoop integratsiya. Ma'lumotlarni boshqarish bo'yicha 2010 yilgi xalqaro
konferentsiya
materiallari, 987-998 betlar, ACM.
24. Stupar, A., Mishel, S. va Shenkel, R. (2010) Rankreduce–qayta ishlash k-eng yaqin qo'shni-
mapreduce ustiga bor so'rovlarni. Axborot olish uchun keng ko'lamli tizimlar bo'yicha 8-seminar
materiallari
, 13-18 betlar.
25. Ferreira Cordeiro, R., Traina Junior, C., Machado Traina, A., L opez, J., Kang, U. va

Faloutsos, C. (2011) mapreduce bilan juda katta ko'p o'lchovli ma'lumotlar to'plamlarini klasterlash.
Bilimlarni kashf qilish va ma'lumotlarni qazib olish bo'yicha 17-ACM SIGKDD xalqaro konferentsiyasi
materiallari, 690-698 betlar, ACM.
26. Dev, C., dev, J., Lin, X., dev, Vt, dev, H., Li, H., Tian, Vt, qurbanlarning, J. va Li, R.
(2010) Mapdupreducer: katta ma'lumotlar to'plamlari bo'yicha dublikatlar yaqinida aniqlash.
Ma'lumotlarni boshqarish bo'yicha 2010 yilgi xalqaro konferentsiya materiallari, 1119-1122 betlar,
ACM.
27. Ranger, C., Raghuraman, R., Penmetsa, A., Bradski, G. va Kozyrakis, C. (2007)
MapReduce-ni ko'p yadroli va ko'p protsessorli tizimlar uchun baholash. Yuqori Samarali
Kompyuter Arxitekturasi, 2007. HPCA 2007. IEEE 13-xalqaro simpozium,
13-24 betlar, IEEE.
28. Dev, G., Salles, M., Souell, B., dev, X., Cao, T., Demers, A., Gehrke, J. va oq,
V. (2010) MapReduce-dagi xulq-atvor simulyatsiyalari. VLDB vaqf materiallari,
3, 952–963.
29. U, B., Fang, Vt, Luo, Q., Govindaraju, N. va dev, T. (2008) Mars: a mapreduce
grafik protsessorlari haqida kesish.
Parallel arxitektura va kompilyatsiya texnikasi bo'yicha 17-xalqaro konferentsiya materiallari, 260-
269 betlar, ACM.
30. Olston, C., Reed, B., Srivastava, U., Kumar, R. va Tomkins, A. (2008) cho'chqa lotin: a
ma'lumotlarni qayta ishlash uchun chet tili emas. Ma'lumotlarni boshqarish bo'yicha 2008 yil ACM
SIGMOD
xalqaro konferentsiyasi materiallari, 1099-1110 betlar, ACM.
1250009-16
J. Inter. To'r. 2012.13. Yuklab olingan www.worldscientific.com
texnologiya Dalian universiteti tomonidan 08/07/13. Faqat shaxsiy foydalanish uchun.
Aprel 10, 2013 11:17
Katta ma'lumotlarni qayta ishlash: katta qiyinchiliklar va imkoniyatlar
31. Thusoo, A., Sarma, J., Jain, N., Shao, Z., Chakka, P., Entoni, S., Liu, H., Vaykoff,
P. va murti, R. (2009) uya: xaritani qisqartirish doirasi bo'yicha ombor echimi.
VLDB vaqf materiallari, 2, 1626-1629.
32. Yu, Y., Isard, M., Fetterly, D., Budiu, M., Erlingsson,
U., Gunda, P. va Currey, J.
(2008) Dryadlinq: yuqori darajadagi til yordamida umumiy maqsadli tarqatilgan ma'lumotlarni
parallel hisoblash tizimi
. Operatsion
tizimlarni loyihalash va amalga oshirish bo'yicha 8-USENIX konferentsiyasi materiallari, 1-14 betlar.
33. Peng, D. va Dabek, F. (2010) tarqatilgan yordamida keng ko'lamli ortib ishlash
operatsiyalar va xabarnomalari. Operatsion
tizimlarni loyihalash va amalga oshirish bo'yicha 9-USENIX konferentsiyasi materiallari, 1-15 betlar,
USENIX assotsiatsiyasi.
34. Melnik, S., Gubarev, A., uzoq, J., Romer, G., Shivakumar, S., Tolton, M. va Vassi-
lakis, T. (2010) Dremel: veb-masshtabli ma'lumotlar to'plamlarini interaktiv tahlil qilish. VLDB
jamg'armasi , 3, 330-339.
35. Corbett, J., va boshq. (2012) Spanner: Googles global tarqalgan ma'lumotlar bazasi. Paydo bo'lish
Osdi ishi, p. 1.
36. Zaxariya, M., Chodri, M., Franklin, M., Shenker, S. va Stoika, I. (2010) Uchqun:
ishchi to'plamlar bilan klasterli hisoblash.
Bulutli hisoblashda dolzarb mavzular bo'yicha 2-USENIX konferentsiyasi materiallari, 10-10 betlar,
USENIX assotsiatsiyasi.
37. Neumeyer, L., Robbins, B., Nair, A. va Kesari, A. (2010) S4: tarqatilgan oqim com-
puting platformasi. 2010 yil IEEE xalqaro kon-
ference, 170-177 betlar, IEEE.
38. Qi, H., Li, K., Shen, Y. va qu, Vt (2012) yadro bilan ob'ekt asoslangan tasvir yuklash
qo'shni matritsa va mahalliy kombinatsiyalangan xususiyatlar to'g'risida. Multimedia
hisoblash, aloqa va ilovalar bo'yicha ACM operatsiyalari (TOMCCAP), 8, 54.
39. Lee, K., Lee, Y., Choi, H., Chung, Y. va Moon, B. (2012) parallel ma'lumotlarni qayta ishlash
mapreduce bilan: bir tadqiqot. ACM SIGMOD yozuvi , 40, 11-20.
40. Yang, H., Dasdan, A., Hsiao, R., va Parker, D. (2007) xarita-kamaytirish-birlashtirish:
soddalashtirilgan
katta klasterlarda relyatsion ma'lumotlarni qayta ishlash. Ma'lumotlarni boshqarish bo'yicha 2007 yil
ACM SIGMOD
xalqaro konferentsiyasi materiallari, 1029-1040 betlar, ACM.
41. Jiang, D., Reference, A. va Chen, G. (2011) xarita-qo'shilish-kamaytirish: scalable va effi tomon-
katta klasterlarda cient ma'lumotlarini tahlil qilish. Bilim va ma'lumotlar muhandislik, IEEE Transac-
tions haqida, 23, 1299-1311.
42. Nykiel, T., Potamias, M., Mishra, C., Kollios, G. va Koudas, N. (2010) Mrshare:
Mapreduce bir necha so'rovlar bo'ylab almashish. VLDB vaqf materiallari,
3, 494–505.
43. Liu, T., Rozenberg, C. va Rouli, H. (2007) milliardlab tasvirlarni katta bilan klasterlash
yaqin qo'shni qidiruv scale. Kompyuterni ko'rish dasturlari, 2007. VACV ' 07. IEEE
ustaxonasi, 28-28 betlar, IEEE.
44. Akdogan, A., Demiryurek, U., Banaei-Kashani, F. va Shahabi, C. (2010) Voronoi-
mapreduce bilan asoslangan geografik so'rovlarni qayta ishlash. Bulutli hisoblash texnologiyalari va
fanlari (CloudCom), 2010 yil IEEE ikkinchi xalqaro konferentsiyasi, 9-16 betlar, IEEE.
45. Menon, R., Bhat, G. va Schatz, M. (2011) bilan tez parallel genom indeksatsiya
mapreduce. MapReduce bo'yicha ikkinchi xalqaro seminar materiallari va uning
J. Inter. To'r. 2012.13. Yuklab olingan www.worldscientific.com
texnologiya Dalian universiteti tomonidan 08/07/13. Faqat shaxsiy foydalanish uchun.

qo'llanilishi, 51-58 betlar, ACM.
1250009-17
Aprel 10, 2013 11:17
C. Ji va boshq.
46. Logothetis, D. va Yocum, K. (2008) bulutda maxsus ma'lumotlarni qayta ishlash. Ish yuritish
VLDB jamg'armasi, 1, 1472-1475.
47. Ji, C., Dong, T., Li, Y., Shen, Y., Li, K., Qiu, Vt, Qu, Vt va Guo, M. (2012) teskari
mapreduce bilan grid asoslangan knn so'rovlar ishlash. ChinaGrid, 2012 yil ettinchi ChinaGrid
yillik konferentsiyasi, 25-33 betlar, IEEE.
48. Dev, J., Vu, S., Gao, H., Li, J. va Ooi, B. (2010) katalog yaratish ko'p o'lchovli ma'lumotlar
bulut tizimida. Ma'lumotlarni boshqarish bo'yicha 2010 yilgi xalqaro konferentsiya
materiallari, 591-602 betlar, ACM.
49. Ekanayake, J., Li, H., Zhang, B., Gunarathne, T., BAA, S., Qiu, J., va Fox, G. (2010)
Tvister: iterativ mapreduce uchun ish vaqti.
Yuqori samarali taqsimlangan hisoblash bo'yicha 19-ACM xalqaro simpoziumining materiallari, 810-
818 betlar, ACM.
50. Bu, Y., Xou, B., Balazinska, M. va Ernst, M. (2010) Haloop: samarali iterativ ma'lumotlar
katta klasterlarda ishlov berish. VLDB jamg'armasi , 3, 285-296.
51. Malevich, G., Austern, M., Bik, A., Dehnert, J., Xorn, I., Leyzer, N. va Czajkovski,
G. (2010) Pregel: keng ko'lamli grafik ishlov berish tizimi.
Ma'lumotlarni boshqarish bo'yicha 2010 yilgi xalqaro konferentsiya materiallari, 135-146 betlar,
ACM.
52. Condie, T., Konvey, N., Alvaro, P., Hellerstein, J., Elmeleegy, K., va Sears, R. (2010)
Mapreduce onlayn. Tarmoqli tizimlarni
loyihalash va amalga oshirish bo'yicha 7-USENIX konferentsiyasi materiallari, 21-21 betlar.
53. Condie, T., Konvey, N., Alvaro, P., Hellerstein, J., Gerth, J., Talbot, J., Elmeleegy, K.,
va Sears, R. (2010) MapReduce-da onlayn yig'ish va doimiy so'rovlarni qo'llab-quvvatlash.
ACM SIGMOD, pp. 1115-1118.
54. Jiang, D., Ooi, B., Shi, L. va Vu, S. (2010) mapreduce ishlash: bir
chuqur o'rganish. VLDB jamg'armasi , 3, 472-483.
55. Vernica, R., Carey, M. va Li, C. (2010) samarali parallel to'plam-o'xshashlik yordamida qo'shiladi
mapreduce. SIGMOD konferentsiya, pp. 495-506, Citeseer.
56. Zhang, C., Li, F., va Jestes, J. (2012) samarali parallel knn katta ma'lumotlar uchun qo'shildi
mapreduce. Ma'lumotlar bazasi texnologiyasini kengaytirish bo'yicha 15-xalqaro konferentsiya
materiallari, 38-49 betlar, ACM.
57. Ibrohim, S., Jin, H., Lu, L., Vu, S., u, B. va Qi, L. (2010) Leen: joy/adolat-
bulutdagi mapreduce uchun kalitlarni ajratish. Bulutli hisoblash texnologiyalari va
fanlari (CloudCom), 2010 yil IEEE ikkinchi xalqaro konferentsiyasi, 17-24 betlar, IEEE.
58. Gufler, B., Augsten, N., Reiser, A. va Kemper, A. (2012) MapReduce yuk muvozanat
o'lchovli kardinallik taxminlari asosida. Ma'lumotlar muhandisligi( ICDE), 2012 yil IEEE 28
-xalqaro konferentsiyasi, 522-533 betlar, IEEE.
59. Xu, Y., Zou, P., Qu, Vt, Li, Z., Li, K. va Cui, X. (2012) masal asoslangan bo'lish
egri ma'lumotlar uchun mapreduce yilda. ChinaGrid, 2012 yil ettinchi ChinaGrid yillik
konferentsiyasi
, 1-8 betlar, IEEE.
60. MapReduce rejalashtirish tan, J., Meng, X., va Zhang, L. (2012) kechikish dumlari. Davom etish-
kompyuter tizimlarini o'lchash va modellashtirish bo'yicha 12-ACM SIGMETRICS/PERFORMANCE
qo'shma xalqaro konferentsiyasining ings
, 5-16 betlar, ACM.
61. Bo'ri, J., Rajan, D., Xildrum, K., Xandekar, R., Kumar, V., Parex, S., Vu, K. va
Balmin, A. (2010) Flex: mapreduce ish yuklarni uchun uyasi ajratish rejalashtirish doktori,.
Qavatni 2010, pp. 1-20.
1250009-18
J. Inter. To'r. 2012.13. Yuklab olingan www.worldscientific.com
texnologiya Dalian universiteti tomonidan 08/07/13. Faqat shaxsiy foydalanish uchun.
Aprel 10, 2013 11:17
Katta ma'lumotlarni qayta ishlash: katta qiyinchiliklar va imkoniyatlar
62. Sandholm, T. va Lai, K. (2009) tartibga solinadigan dinamik pri - yordamida MapReduce
optimallashtirish
oritizatsiya. Kompyuter tizimlarini o'lchash va modellashtirish bo'yicha o'n birinchi xalqaro qo'shma

konferentsiya
materiallari, 299-310 betlar, ACM.
63. Kllapi, H., Sitaridi, E., Tsangaris, M. va Ioannidis, Y. (2011) jadval optimallashtirish
bulutdagi ma'lumotlarni qayta ishlash oqimlari uchun.
Ma'lumotlarni boshqarish bo'yicha ACM SIGMOD xalqaro konferentsiyasi materiallari, 289-300
betlar.
64. Zhou, X., Lu, J., Li, C. va du, X. (2012) boshqarishda katta ma'lumotlar qiyinchilik
istiqbol. CCF aloqalari, 8, 16-20.
1250009-19
J. Inter. To'r. 2012.13. Yuklab olingan www.worldscientific.com
texnologiya Dalian universiteti tomonidan 08/07/13. Faqat shaxsiy foydalanish uchun.
Nashr statistikasini ko'rish

Download 182,94 Kb.

Pdf ko'rish