Apache Hadoop va Spark: Ma'lumotlarni tahlil qilish uchun kirish va foydalanish holatlari Abdullayev Jasurbek kontur

Download 24.83 Kb.
bet	9/12
Sana	25.03.2023
Hajmi	24.83 Kb.
	#46614

1 ... 4 5 6 7 8 9 10 11 12

Bog'liq
Apache Hadoop and Spark Introduction and Use Cases for Data Ana-fayllar.org
5-SINF Tarix-converted, Mektep sabaqliqlari MB, №3 Amaliy ishi Mavzu Klaster tizimlarini o’rganish Ishdan maqsa, “Operatsiyalar-operandlar” grafigi ko’rinishidagi hisoblash mode, shaxs son zamon kategoriya, husnixat 2, 2-SINF Jismoniy tarbiya, portal.guldu.uz-madaniyat iqtisodiyoti-1, Inf.tex.loyihalashtirish test, Dasturiy mahsulotlarning tasnifi, 7-sinf Matematika 1-ChSB demo (Umumta lim), Ixtisosliklar kesimida, 2-ma\'ruza media va AC ta\'limi, Ma\'ruzalar matni-КРЕДИТ 1-ҚИСМ

Python RDD API misollari

So'zlar soni

text_file = sc.textFile ( " hdfs : //usr/godil/text/book.txt " ) _ _

hisoblar = text_file.flatMap (lambda liniyasi: line.split (" ")) \

.map(lambda so'zi: (so'z, 1)) \

. reduceByKey (lambda a, b: a+b)

counts.saveAsTextFile ( " hdfs : //usr/godil/output/wordCount.txt " ) _ _

Logistik regressiya

# Ushbu DataFrame ning har bir yozuvi yorlig'ini o'z ichiga oladi

# xususiyat vektor bilan ifodalanadi.

df = sqlContext.createDataFrame (ma'lumotlar, ["yorliq", "xususiyatlar"])

# Algoritm uchun parametrlarni o'rnating.

# Bu erda biz takrorlash sonini 10 tagacha cheklaymiz.

lr = LogisticRegression ( maxIter =10)

# Modelni ma'lumotlarga moslang.

model = lr.fit ( df )

# Ma'lumotlar to'plamini hisobga olgan holda, har bir nuqtaning yorlig'ini taxmin qiling va natijalarni ko'rsating.

model.transform ( df ).show()

http://spark.apache.org/ dan misollar

RDD barqarorligi va olib tashlanishi

RDD barqarorligi
- RDD.persist ()
- saqlash darajasi:
  - MORY_ONLY, MEMORY_AND_DISK, MEMORY_ONLY_SER, DISK_ONLY,…….
RDDni olib tashlash
- RDD.unpersist ()
Eshittirish o'zgaruvchilari va akkumulyatorlari (Birgalikda o'zgaruvchilar)
Eshittirish o'zgaruvchilari dasturchiga uning nusxasini topshiriqlar bilan yuborish o'rniga, har bir tugunda faqat o'qish uchun mo'ljallangan o'zgaruvchini keshda saqlashga imkon beradi.
>broadcastV1 = sc.broadcast ([1, 2, 3,4,5,6])

>broadcastV1.value

[1,2,3,4,5,6]
Akkumulyatorlar faqat assotsiativ operatsiya orqali "qo'shiladigan" va parallel ravishda samarali qo'llab-quvvatlanishi mumkin bo'lgan o'zgaruvchilardir.
to'plash = sc.akkumulyator (0)

Download 24.83 Kb.

1 ... 4 5 6 7 8 9 10 11 12

Download 24.83 Kb.

Apache Hadoop va Spark: Ma'lumotlarni tahlil qilish uchun kirish va foydalanish holatlari Abdullayev Jasurbek kontur

Python RDD API misollari

text_file = sc.textFile ( " hdfs : //usr/godil/text/book.txt " ) _ _

hisoblar = text_file.flatMap (lambda liniyasi: line.split (" ")) \

.map(lambda so'zi: (so'z, 1)) \

. reduceByKey (lambda a, b: a+b)

counts.saveAsTextFile ( " hdfs : //usr/godil/output/wordCount.txt " ) _ _

# Ushbu DataFrame ning har bir yozuvi yorlig'ini o'z ichiga oladi

# xususiyat vektor bilan ifodalanadi.

df = sqlContext.createDataFrame (ma'lumotlar, ["yorliq", "xususiyatlar"])

# Algoritm uchun parametrlarni o'rnating.

# Bu erda biz takrorlash sonini 10 tagacha cheklaymiz.

lr = LogisticRegression ( maxIter =10)

# Modelni ma'lumotlarga moslang.

model = lr.fit ( df )

# Ma'lumotlar to'plamini hisobga olgan holda, har bir nuqtaning yorlig'ini taxmin qiling va natijalarni ko'rsating.

model.transform ( df ).show()

RDD barqarorligi va olib tashlanishi

Eshittirish o'zgaruvchilari va akkumulyatorlari (Birgalikda o'zgaruvchilar)

>broadcastV1 = sc.broadcast ([1, 2, 3,4,5,6])

>broadcastV1.value

[1,2,3,4,5,6]

to'plash = sc.akkumulyator (0)

Apache Hadoop va Spark: Ma'lumotlarni tahlil qilish uchun kirish va foydalanish holatlari Abdullayev Jasurbek kontur