• Apache Spark
  • R egiluvchan D taqsimlangan malumotlar toplami (RDDs)
  • DataFrames va SparkSQL
  • DataFrame misoli
  • Apache Hadoop va Spark: Ma'lumotlarni tahlil qilish uchun kirish va foydalanish holatlari Abdullayev Jasurbek kontur




    Download 24.83 Kb.
    bet7/12
    Sana25.03.2023
    Hajmi24.83 Kb.
    #46614
    1   2   3   4   5   6   7   8   9   ...   12
    Bog'liq
    Apache Hadoop and Spark Introduction and Use Cases for Data Ana-fayllar.org
    5-SINF Tarix-converted, Mektep sabaqliqlari MB, №3 Amaliy ishi Mavzu Klaster tizimlarini o’rganish Ishdan maqsa, “Operatsiyalar-operandlar” grafigi ko’rinishidagi hisoblash mode, shaxs son zamon kategoriya, husnixat 2, 2-SINF Jismoniy tarbiya, portal.guldu.uz-madaniyat iqtisodiyoti-1, Inf.tex.loyihalashtirish test, Dasturiy mahsulotlarning tasnifi, 7-sinf Matematika 1-ChSB demo (Umumta lim), Ixtisosliklar kesimida, 2-ma\'ruza media va AC ta\'limi, Ma\'ruzalar matni-КРЕДИТ 1-ҚИСМ

    Saralash musobaqasi



    Hadoop MR Record (2013)


    Spark Record (2014)

    ma'lumotlar hajmi


    102,5 TB


    100 TB

    O'tgan vaqt

    72 daqiqa


    23 daqiqa


    # tugun

    2100

    206

    #Yadrolar

    50400 jismoniy


    6592 virtuallashtirilgan


    Klaster diskining o'tkazuvchanligi


    3150 GB/s (taxminiy)


    618 Gb/s


    tarmoq

    ajratilgan ma'lumotlar markazi, 10 Gbps

    virtuallashtirilgan (EC2) 10Gbps tarmoq




    tartiblash darajasi


    1,42TB/min


    4,27TB/min


    Saralash tezligi/tugun


    0,67 GB/min


    20,7 GB/min

    Saralash benchmarki, Daytona Grey: 100 TB maʼlumotlar turi (1 trillion yozuv)


    http://databricks.com/blog/2014/11/05/spark-officially-sets-a-new-record-in-large-scale-sorting.html _ _ _
    Spark, tugunlarning 1/10 qismi bilan 3 barobar tezroq

      Apache Spark

      Apache Spark ma'lumotlarni tahlil qilish, mashinani o'rganish, grafiklar, oqim ma'lumotlari va boshqalarni qo'llab-quvvatlaydi. U bir qator ma'lumotlar turlaridan o'qish/yozish va bir nechta tillarda ishlab chiqish imkonini beradi.



    Spark Core
    uchqun oqimi
    MLlib
    GraphX
    ML quvurlari
    Spark SQL
    DataFrames
    Ma'lumotlar manbalari
    Scala , Java, Python, R, SQL
    Hadoop HDFS, HBase , Hive, Apache S3, Streaming, JSON, MySQL va HPC uslubi ( GlusterFS , Luster )

      R egiluvchan D taqsimlangan ma'lumotlar to'plami (RDDs)


    • RDDs (Resilient Distributed Datasets) - bu ma'lumotlar konteynerlari

    • Spark-dagi barcha qayta ishlash komponentlari RDD deb ataladigan bir xil abstraktsiyaga ega

    • Ilovalar RDD abstraktsiyasini baham ko'rganligi sababli, siz yangi RDD yaratish uchun turli xil o'zgarishlarni aralashtirishingiz mumkin

    • To'plamni parallellashtirish yoki faylni o'qish orqali yaratilgan

    • Xatolarga chidamli

      DataFrames va SparkSQL


    • DataFrames (DF) nomli ustunlarda tashkil etilgan boshqa taqsimlangan ma'lumotlar to'plamidan biridir

    • Relyatsion ma'lumotlar bazasiga o'xshash, Python Pandas Dataframe yoki R's DataTables

      • Bir marta qurilgan o'zgarmas

      • naslni kuzatib borish

      • Tarqalgan hisoblarni yoqish

    • Dataframelarni qanday qurish kerak

      • Fayl(lar)dan o'qish

      • Mavjud DF-larni o'zgartirish (Spark yoki Pandas)

      • Python to'plami ro'yxatini parallellashtirish

      • Transformatsiyalar va harakatlarni qo'llang

      DataFrame misoli

    // "Talabalar" ni o'z ichiga olgan yangi DataFrame yarating


    talabalar = foydalanuvchilar.filtr ( foydalanuvchilar. yosh < 21)
    //Shuningdek, Pandalarga o'xshash sintaksisdan foydalanish
    talabalar = foydalanuvchilar[ users.age < 21]
    //Talabalar sonini jinsi bo'yicha hisoblang
    student.groupBy ("jins").count()
    // Yosh talabalarga loglar deb nomlangan boshqa DataFrame bilan qo'shiling
    student.join (jurnallar, logs.userId == users.userId ,
    " chap_tashqi ")
    1   2   3   4   5   6   7   8   9   ...   12




    Download 24.83 Kb.

    Bosh sahifa
    Aloqalar

        Bosh sahifa



    Apache Hadoop va Spark: Ma'lumotlarni tahlil qilish uchun kirish va foydalanish holatlari Abdullayev Jasurbek kontur

    Download 24.83 Kb.