Kirish
Inson tomonidan yozilgan hamma narsa va u yaratgan mashinalar ko'rib chiqilishi mumkin ma'lumotlar. Yangi narsalarni yozib olish va arxivlarni raqamli shaklga o'tkazish orqali biz har kuni ko'proq va ko'proq ma'lumotlarni ishlab chiqaramiz. Ulardan ba'zilari maxsus saqlash joylarida yig'iladi. Masalan, BMT Comtrade xalqaro savdo bo'yicha rasmiy statistik ma'lumotlarni o'z ichiga oladi. Bunday ma'lumotlardan foydalanish juda yaxshi oson, siz faqat ularning xotirasiga kirishingiz kerak.
Ammo tez-tez sodir bo'ladigan narsa shundaki, ma'lumotlar onlayn-do'konlarning ko'plab sahifalarida, ijtimoiy tarmoqlardagi eslatmalarda, server jurnallarida va hokazolarda butun Internet bo'ylab tarqalib ketadi. Bunday bilan ishlashni boshlashdan oldin.
ma'lumotlar tahlil qilish uchun mos shaklda to'planishi va saqlanishi kerak.
Ushbu kitob ushbu savollarni hal qilishga bag'ishlangan.
Ma'lumotlarni kim to'playdi va nima uchun?
Ishlari ma'lumotlar yig'ish bilan u yoki bu tarzda bog'liq bo'lgan mutaxassislar doirasi;
juda keng. O'zingiz uchun hukm qiling.
Ma'lumot to'plash ma'lumotlarni qazib olishning dastlabki bosqichidir - "ma'lumotlar qazib olish" yoki "ma'lumotlar qazib olish". Ma'lumotlarni qazib olish mumkin
juda keng ma'noda - umuman ma'lumotlarni tahlil qilish kabi va torroq ma'noda
(katta hajmdagi) ma'lumotlarda yashirin naqshlarni aniqlash.
Ma'lumot qazib olishga juda yaqin - bu mashinani o'rganish. Ikkala fan ham bir xil usullardan foydalanadi, shuning uchun ular o'rtasida aniq chegara chizish mumkin emas. Bir oz soddalashtirish uchun, biz ma'lumotlarni qazib olish naqsh olish ko'proq manfaatdor, deb aytish mumkin, va
mashinani o'rganish - ulardan foydalanish. Yig'ilgan ma'lumotlardan foydalangan holda, mashinani o'rganish tasniflash muammolarini hal qiladi (masalan, spamni filtrlash yoki foydalanuvchi fikrlari asosida tavsiyalar berish).
shunga o'xshash so'rovlar), prognozlash, klasterlash (masalan, bozor segmentatsiyasi), anomal kuzatuvlarni aniqlash va boshqalar.
Raqobatchilar haqida ma'lumot to'plash, masalan, ularning narx takliflarini kuzatish biznes razvedkasining vazifalaridan biridir. Shunga o'xshash muammolar, ammo bir oz boshqacha kontekstda ochiq manba razvedkasi - ochiq ma'lumotlar manbalariga asoslangan razvedka tomonidan hal qilinadi, bu esa ochiq manbalardan ma'lumotlarni qidirish, to'plash va tahlil qilish uchun javobgardir. Faoliyatning yana bir tegishli sohasi - bu biznes razvedkasi. "Aql-idrok" mavjudligiga qaramay (ing.
"razvedka") nomi bilan aytganda, u raqobatchilarni emas, balki o'z tashkilotidagi biznes jarayonlarini kuzatishni o'z ichiga oladi.
Oldingi fanlardan farqli o'laroq, bu erda ma'lumotlarni tahlil qilish natijalari
faqat ma'lum tashkilotlar tomonidan foydalanilgan, jurnalistikaning yangi yo'nalishi - ma'lumotlarga asoslangan jurnalistika - o'z tadqiqotini olib bormoqda.
12 ❖ Mundarija
jamoatchilikni xabardor qilish uchun ma'lumotlar omborida.
Ommaga ochiq ma'lumotlarning eng yirik provayderlaridan biri bu ijtimoiy tarmoqlardir. Ularda odamlar o'zlarining shaxsiy ma'lumotlarini joylashtiradilar, yangiliklar, shaxsiy fotosuratlar, didlar (masalan, biror narsa yoki
har qanday guruhga qo'shilish), tanishlar doirasi. Bundan tashqari, bularning barchasi o'z ixtiyori bilan, ba'zida yuzaga kelishi mumkin bo'lgan oqibatlar haqida o'ylamasdan amalga oshiriladi.
Shuning uchun, ijtimoiy tarmoqlardan olingan ma'lumotlar ijtimoiy media yordamida olingan
tog'-kon sanoati sotsiologik va marketing tadqiqotlari uchun faol foydalaniladi.
Geografik ma'lumotga ega bo'lgan to'plangan ma'lumotlar geoinformatikada foydali bo'lishi mumkin. Agar ilgari uchun asosiy ma'lumotlar manbalari
geografik axborot tizimlari (GIS) er osti tadqiqotlari va natijalari edi
Yerni masofadan zondlash, ular endi ko'plab "inson sensorlari" tomonidan taqdim etilgan ma'lumotlarga qo'shiladi, ular o'zlarining smartfonlaridan Instagram-ga fotosuratlar yuboradilar, Facebook-da qaydlar qoldiradilar, Twitter-da tvitlar va hokazo.
Yuqoridagi kasblar mutaxassislariga bo'lajak mutaxassislarni - kurs ishlari uchun ma'lumot oladigan talabalarni qo'shish kerak.
va tezislar. Ularning barchasi uchun ham, shunchaki qiziquvchilar uchun ham bu kitob
foydali bo'lishi mumkin.
R bilan tanishtirish
Ushbu bobda biz R ni o'rnatamiz va ishlab chiqish muhitidan qanday foydalanishni o'rganamiz
RGui. Yo'l davomida biz oddiy, lekin juda keng tarqalgan masalani hal qilamiz - biz funktsiyaning grafigini tuzamiz.
O'rnatish
Paket tomonidan qo'llab-quvvatlanadigan har qanday turdagi operatsion tizim uchun mos bo'lgan R-ni o'rnatish usulini ko'rib chiqaylik: Linux, Mac yoki Windows. Windows holatida bu yagona yo'l; Linux va Mac uchun mos keladigan tizimning paket menejeridan foydalanish osonroq.
R-ni o'rnatish uchun uning rasmiy veb-saytiga o'ting va sizni qiziqtirgan dastur versiyasini tanlang. R o'zi, uning hujjatlari va qo'shimcha
paketlar CRAN deb nomlangan ftp va veb-serverlar tarmog'i orqali tarqatiladi
(Kompleks R arxiv tarmog'i). Shuning uchun, keyingi qadam oltmishdan ortiq CRAN nometalllaridan birini tanlashdir. Shundan so'ng, belgilash
operatsion tizim turi, R taqsimotini yuklab oling.
O'rnatish faylini ishga tushiramiz va o'rnatish dasturining ko'rsatmalariga amal qilamiz. Sizning e'tiboringizni talab qiladigan yagona nuqta - bu operatsion tizimning bitni tanlash (1.1-rasm).
O'rnatishdan so'ng dasturni ishga tushiring. Linux va Mac-da, sukut bo'yicha, R konsolda ishlaydi. Bundan tashqari, grafik
interfeys. Linuxda u Tcl/Tk to'plamiga asoslangan va buyruq bilan ishga tushiriladi
R --gui=Tk. Mac-da R uchun o'rnatilgan GUI chaqiriladi
R.app.
R ning Windows versiyasi RGui grafik qobig'i bilan birga keladi
(A.5-rasm), biz keyinroq ko'rib chiqamiz.
E'tibor bering, yuqoridagi barcha grafik qobiqlar bilan ishlash taxminan bir xil ko'rinadi.
RGui muhitida ishlash
RGui Windows uchun standart R grafik qobig'idir
eng oddiy rivojlanish muhiti. U tez yuklanadi va ulardan foydalanish juda oson. RGui-da uchta turdagi derazalar mavjud:
• konsol;
• skript muharriri;
• grafik qurilma oynasi.
R buyruqlar konsolga (A.5-rasm) foydalanuvchi so'rovidan keyin (“>” belgisi) kiritiladi va Enter tugmasini bosish orqali bajarish uchun yuboriladi.
Konsol boshqaruvi:
• buyruq qo‘shish – Yorliq;
• buyruqlar tarixi bo'ylab harakatlanish – o'q tugmalari;
• buyruq bajarilishini tugatish – Esc;
• boshqa oynaga o'tish – Ctrl+Tab;
• konsolni tozalash – Ctrl+L;
O'z dasturlarini (skriptlarini) yaratish uchun1 undan foydalanish qulayroq
konsol emas, balki muharrir (1.3-rasm).
Siz uni Fayl/Yangi skript menyusida ochishingiz mumkin. Birinchi oyna menyu orqali ochiladi, keyingilari - xuddi shu tarzda yoki Ctrl + N tugmalar birikmasi bilan.
Konsolga nisbatan asboblar paneli qanday o'zgarganiga e'tibor bering (A.5-rasm).
Misol tariqasida sinus to'lqinni chizamiz:
x <- seq(-pi,pi,.1)
y <- sin(x)
uchastka(x,y)
Birinchi qatorda x-koordinatalarning bir o'lchovli massivi (vektori) hosil bo'ladi,
qiymatlari −𝜋 dan 𝜋 gacha 0,1 gacha o'zgarib turadi. Bu massiv x o'zgaruvchisida saqlanadi. Belgilar birikmasi <- tayinlash operatsiyasini bildiradi.
1 Biz "skript" va "dastur" atamalarini bir-birining o'rnida ishlatamiz.
18 ❖ R bilan tanishish
Ikkinchi qator vektor x elementlarining sinuslaridan tashkil topgan y vektorini hosil qiladi.
Nihoyat, uchinchi qatorda chizma funktsiyasi kerakli grafikni chizadi.
Tahrirlovchida siz buyruqlarni kiritishingiz va ularni birma-bir yoki bajarishingiz mumkin
va Ctrl+R kombinatsiyasidan foydalangan holda butun bloklar (asboblar panelida mos keladigan tugma ham mavjud). Misol uchun, siz hamma narsani tanlashingiz mumkin
skript – Ctrl+A va uni bajarish uchun yuboring Ctrl+R (1.4-rasm).
Guruch. 1.4 ❖ Kodning tanlangan qismi bajarish uchun yuborilishi mumkin
Ctrl+R tugmalar birikmasi
Natijada biz grafik oynaga ega bo'lamiz, unda grafik o'rnatilgan
sinusoidlar (1.5-rasm). R terminologiyasida grafiklar chizilgan oynalar
va bu grafiklar saqlanadigan fayllar birgalikda grafik qurilmalar deb ataladi.
Asboblar panelidagi tugmani bosish orqali konsolga qaytishingiz mumkin
(1.6-rasm) yoki Ctrl+Tab tugmalari yordamida.
Guruch. 1.6 ❖ Asboblar panelidagi konsolga fokusni qaytarish tugmasi
grafik qurilma
Windows menyusi yordamida oynalarni boshqarish rasmda ko'rsatilgan. 1.7.
Guruch. 1.7 ❖ Windows menyusi yordamida oynalarni boshqarish
Skriptni Saqlash yoki Saqlash buyruqlari yordamida saqlashingiz mumkin
kabi... muharrirning Fayl menyusi yoki uning boshqaruv panelidagi tegishli tugma.
E'tibor bering, R skriptlarini umumiy mavzu bilan birlashtirish qulay
alohida katalog.
Konsolda q() ga qo'ng'iroq qilish yoki menyudan foydalanib R dan chiqishingiz mumkin
Fayl/Chiqish.
RGui-dan chiqqaningizda, muhit sizga ish joyingizni saqlashingizni taklif qiladi.
(1.8-rasm).
20 ❖ R bilan tanishish
Guruch. 1.8 ❖ RGui-dan chiqqanda ish maydonini saqlash
Ish maydoni - bu operativ xotira maydoni
foydalanuvchi tomonidan yaratilgan barcha ob'ektlarni (vektorlar, matritsalar,
jadvallar, ro'yxatlar, funktsiyalar va boshqalar). Ish joyini faylga saqlash va keyin uni yangi R sessiyasiga yuklash
(Fayl/Ish maydonini yuklash...) ishlashni davom ettirish imkonini beradi
qayerdan uzilib qoldi. Bunday holda, barchaning qadriyatlari
oxirgi sessiyada hisoblangan o'zgaruvchilar.
Siz ish joyidagi ob'ektlar ro'yxatini ko'rishingiz mumkin
ls funktsiyalari. Keling, uni konsolda chaqiraylik
> ls()
va biz natijaga erishamiz
## [1] “x” “y”
Haqiqatan ham, sinusoidning koordinata vektorlari endi xotirada saqlanadi
Ikkita xesh belgisi (##) keyingi narsa dasturning bajarilishi natijasi ekanligini bildiradi (ular konsolda ko'rsatilmaydi, 1.9-rasmga qarang). Ma'nosi
birliklar ([1]) keyingi bobda aniq bo'ladi.
Boshqa ish joyini boshqarish buyruqlari:
# Ish joyini joriy ishchi katalogdagi .RData fayliga saqlang
Rasmni saqlash()
# Berilgan obyektlarni faylga saqlang
saqlash (ob'ekt_ro'yxati, fayl = "mening faylim. RData")
# Ish joyi tasvirini yuklang
yuklash ("mening faylim. RData")
# Ish joyini tozalash
rm(list=ls())
# belgisi izoh qatorini ochadi.
Siz ish joyi tasvirini saqlashingiz yoki yuklashingiz mumkin
Fayl menyusi. E'tibor bering, ushbu menyu, RGui-dagi har qanday boshqa menyu kabi,
oddiygina mos keladigan R funktsiyalarini bajaradi.
Masalan, File/Save workpace... menyu buyrug'i save.image funksiyasini chaqiradi va bu chaqiruv natijasini konsolda ko'rish mumkin (1.9-rasm).
Guruch. 1.9 ❖ Fayl/Ish maydonini saqlash... menyu buyrug'i
save.image funksiyasiga qo'ng'iroqni ifodalaydi
Yuqoriga va pastga o'q tugmalari ro'yxat bo'ylab harakatlanish imkonini beradi
ilgari bajarilgan buyruqlar - buyruqlar tarixi. Buyruqlar tarixi diskdagi faylga ham saqlanishi mumkin.
# Buyruqlar tarixini chop etish
history() # oxirgi bajarilgan 25 ta buyruqni sanab o'tadi
history(max.show=Inf) # seansda bajarilgan barcha buyruqlarni ko'rsatadi
# Buyruqlar tarixini saqlang
savehistory(file="myfile") # sukut bo'yicha "."Rhistory"
# Buyruqlar tarixini yuklash
loadhistory(file="myfile") # default "".Rhistory
RGui-dan tashqari, R Commander yoki RStudio kabi R uchun boshqa, yanada ilg'or ishlab chiqish muhitlari mavjud. Xuddi R ning o'zi kabi, ular o'zaro platformalardir va erkin tarqatiladi. e'tibor bering, bu
Garchi bu muhitlar ko'proq imkoniyatlarga ega bo'lsa-da, ular imkoniyatlarni to'ldiradi
RGui, lekin ularni kesib tashlamang. Shunday qilib, RGui bilan ishlash ko'nikmalaringiz ham foydali bo'ladi
yanada rivojlangan muhitda ishlaganda.
Malumot
Yordam menyusining yuqori elementi (konsolda bu Konsol, skript muharririda mos ravishda muharrir) tegishli oyna bilan ishlash bo'yicha qisqacha maslahat beradi. Tahrirlovchi uchun yordam rasmda ko'rsatilgan. 1.10.
Guruch. 1.10 ❖ RGui skript muharririda ishlash uchun yordam
Fun deb nomlangan funktsiya uchun yordamni konsolda yozish orqali olish mumkin
?qiziqarli. Misol uchun, seq funktsiyasi bo'yicha yordam olish uchun biz quyidagilarni yozamiz:
?seq
# yoki
yordam (seq).
R dasturlash tili, statistika va ma'lumot analitikasida kuchli bir vasitadir. R-ga kirish, o'rnatish va ishga tushirish uchun quyidagi qadamlarni bajarishingiz kerak:
1. R-ni o'rnatish: R-ni o'rnatish uchun o'zingizning operatsion tizimingizga mos R-versiyasini yuklab olishingiz kerak. Resmiy R veb-sayti (https://www.r-project.org/) orqali eng so'nggi versiyani yuklab olishingiz mumkin.
2. R-ga kirish: R-ni o'rnatganingizdan so'ng, R-tizimini ishga tushirish uchun R-ni oching. R-tizimining interfeysi sizga kodlarni kiriting va natijalarni ko'rish imkoniyatini beradi. R-tizimini ochganingizda sizga R-console (konsol) ochiladi, bu esa komandalarni yozish va bajarish uchun ishlatiladi.
3. Ma'lumotlarni kiritish: R-da ma'lumotlarni kiritish uchun turli usullar mavjud. Misol uchun, ma'lumotlarni bitta bitta kiritish orqali yoki fayllardan o'qish orqali amalga oshirishingiz mumkin.
- Bitta bitta kiritish: Ma'lumotlarni konsolga to'g'ridan-to'g'ri yozib kiriting. Misol uchun, "x <- c(1, 2, 3, 4, 5)" deb yozib, x nomli ma'lumotlar o'zgaruvchisiga 1 dan 5 gacha bo'lgan sonlarni kiritasiz.
- Fayllardan o'qish: Ma'lumotlarni fayldan o'qish uchun "read.csv()" yoki "read.table()" funktsiyalaridan foydalanishingiz mumkin. Misol uchun, "data <- read.csv('ma\'lumotlar.csv')" deb yozib, "ma'lumotlar.csv" nomli fayldan ma'lumotlar o'qishish.
4. Fayllar bilan ishlash: R fayllar bilan ishlash uchun ko'p imkoniyatlarga ega. Fayl yozish uchun "write.csv()" va "write.table()" funktsiyalaridan foydalanishingiz mumkin. Fayl o'qish uchun esa "read.csv()" va "read.table()" funktsiyalaridan foydalanishingiz mumkin.
- Ma'lumotlarni faylga yozish: Misol uchun, "write.csv(data, 'yangi_malumotlar.csv')" deb yozib, "data" nomli ma'lumotlar ro'yxatini "yangi_malumotlar.csv" nomli faylga yozishingiz mumkin.
- Ma'lumotlarni fayldan o'qish: Misol uchun, "yangi_data <- read.csv('yangi_malumotlar.csv')" deb yozib, "yangi_malumotlar.csv" nomli fayldan ma'lumotlarni o'qishingiz mumkin.
Shu bilan birga, R-ni o'rnatganingiz va uni ishga tushirganingizdan so'ng, ma'lumotlarni kiritishingiz va fayllar bilan ishlashingiz mumkin. Bu qadamlar sizga R-ga kirish va ish boshlashda yordam berishi kerak.
Albatta! Bu erda R bilan ishlash haqida ba'zi qo'shimcha tafsilotlar:
1. R paketlari: R o'zining funksionalligini kengaytiruvchi paketlarning keng ekotizimiga ega. Paketlar - bu muayyan vazifalar yoki domenlarni hal qiluvchi funktsiyalar, ma'lumotlar va hujjatlar to'plami. Siz paketlarni Comprehensive R Archive Network (CRAN) yoki boshqa paketlar omborlaridan o'rnatishingiz mumkin. Paketni o'rnatish uchun install.packages("paket_nomi") buyrug'idan foydalanishingiz mumkin. O'rnatilgandan so'ng, uning funksiyalari va xususiyatlariga kirish uchun kutubxona(paket_nomi) buyrug'i yordamida paketni yuklashingiz mumkin.
2. RStudio: RStudio R uchun mashhur integratsiyalashgan ishlab chiqish muhiti (IDE). U R dasturlash tajribangizni yaxshilash uchun turli vositalar bilan foydalanuvchilar uchun qulay interfeysni taqdim etadi. RStudio kodni tahrirlash, disk raskadrovka, paketlarni boshqarish, vizualizatsiya va ish maydonini boshqarish kabi xususiyatlarni taklif etadi. RStudio-ni rasmiy RStudio veb-saytidan (https://www.rstudio.com/) yuklab olishingiz mumkin. RStudio-dan foydalanish R dasturlash ish jarayonini yanada samarali va tartibli qilishi mumkin.
3. Ma'lumotlarni manipulyatsiya qilish: R ma'lumotlarni manipulyatsiya qilish va o'zgartirish uchun kuchli vositalarni taqdim etadi. Dplyr to'plami ma'lumotlar to'plamini filtrlash, ustunlarni tanlash, saralash, umumlashtirish va birlashtirish kabi ma'lumotlarni manipulyatsiya qilish uchun keng qo'llaniladi. Tidyr to'plami ma'lumotlarni tartibga solishda yordam beradi, shu jumladan keng va uzun formatlar o'rtasidagi ma'lumotlarni qayta shakllantirish funktsiyalari. Ushbu paketlar ixcham va o'qilishi mumkin bo'lgan kod bilan murakkab ma'lumotlarni manipulyatsiya qilish imkonini beradi.
4. Ma'lumotlarni vizualizatsiya qilish: R ma'lumotlarni vizualizatsiya qilish uchun boy kutubxonalar to'plamini taklif qiladi. Ggplot2 to'plami yuqori sifatli, sozlanishi grafik va chizmalarni yaratish uchun mashhur tanlovdir. U vizualizatsiyalarni qatlamma-qatlam qurish imkonini beruvchi grafik yondashuv grammatikasiga amal qiladi. Siz keng ko'lamli vizualizatsiya yaratishingiz mumkin, jumladan, tarqalish chizmalari, chiziqli diagrammalar, gistogrammalar, chiziqli chizmalar va boshqalar. Vizualizatsiya ma'lumotlarni o'rganish, naqshlarni aniqlash va tushunchalarni samarali etkazish uchun zarurdir.
5. Statistik tahlil: R statistik tahlil va modellashtirish uchun keng qo'llaniladi. U regressiya, gipoteza sinovi, vaqt seriyalarini tahlil qilish, klasterlash va mashinani o'rganish kabi statistik usullar uchun ko'plab paketlarni taqdim etadi. Ba'zi tez-tez ishlatiladigan paketlarga stats, lme4, survival, caret va randomForest kiradi. Ushbu paketlar sizning ma'lumotlaringizga murakkab statistik usullarni qo'llash va mazmunli xulosalar chiqarish imkonini beradi
6. Hamkorlik va almashish: R hamkorlikni va kod va tahlillarni almashishni osonlashtiradi. Kodingizni yozish va saqlash uchun R skriptlarini yaratishingiz mumkin, bu uni qayta foydalanish va boshqalar bilan baham ko'rish imkonini beradi. R Markdown - bu R kodini, matnni va vizualizatsiyani bitta hujjatda birlashtirgan kuchli vositadir. Bu sizga dinamik hisobotlar, taqdimotlar va hatto interaktiv boshqaruv panellarini yaratishga imkon beradi. Ishingizni HTML, PDF yoki boshqa formatlar sifatida baham ko'rish boshqalar sizning tahlillaringiz va natijalaringizni takrorlashini ta'minlaydi.
Esda tuting, R-da forumlar, o'quv qo'llanmalar va hujjatlarga ega bo'lgan keng onlayn hamjamiyat mavjud bo'lib, ular R dasturlash sayohatingizda sizga yordam beradi. Rasmiy R hujjatlari, onlayn oʻquv qoʻllanmalar va R bilan bogʻliq veb-saytlar kabi resurslarni oʻrganish sizga chuqurroq bilim va siz bajarmoqchi boʻlgan aniq vazifalar yoki tahlillar uchun misollar taqdim etishi mumkin.
R muhitida ma'lumotlarni kiritish va fayllar bilan ishlash.
Ma'lumotlarni R muhitiga kiritish va fayllar bilan ishlashning turli usullari mavjud. Quyidagi qismda sizga ba'zi misollar va R funktsiyalari berilgan.
1. Ma'lumotlarni konsolga kiritish: Siz ma'lumotlarni to'g'ridan-to'g'ri konsolga yozib kiritingiz. Misol uchun, agar siz 5 ta sonni ro'yxatga olishni xohlaysiz, quyidagi kodni konsolga yozasiz:
numbers <- c(1, 2, 3, 4, 5)
Bu kodda, numbers nomli o'zgaruvchi ro'yxatga 1 dan 5 gacha bo'lgan sonlarni o'z ichiga oladi.
2. CSV fayldan ma'lumotlarni o'qish: Odatda ma'lumotlar CSV (comma-separated values) formatida saqlanadi. CSV fayldan ma'lumotlarni o'qish uchun read.csv() funktsiyasidan foydalanishingiz mumkin. Misol uchun, agar "data.csv" nomli faylda ma'lumotlar bo'lsa, quyidagi kodni ishga tushiring:
data <- read.csv("data.csv")
Bu kod ma'lumotlarni "data" nomli o'zgaruvchi bilan yuklab oladi va uni fayldan o'qiydi.
3. Faylga ma'lumotlarni yozish: Ma'lumotlarni CSV faylga yozish uchun write.csv() funktsiyasidan foydalanishingiz mumkin. Misol uchun, agar "result.csv" nomli faylga "result" nomli ma'lumotlar ro'yxatini yozishni xohlaysiz, quyidagi kodni ishga tushiring:
write.csv(result, "result.csv", row.names = FALSE)
Bu kod "result" nomli ma'lumotlar ro'yxatini "result.csv" nomli faylga yozadi. row.names = FALSE argumenti esa qatlar nomlarini faylga yozmaganligini ifodalaydi.
4. Fayldan ma'lumotlarni o'qish va hisoblash: Fayldan o'qilgan ma'lumotlarda hisoblash amallarini bajarish uchun R-da bir nechta funktsiyalar mavjud. Misol uchun, agar "data.csv" nomli faylda "age" ustunida yoshlar saqlangan bo'lsa, quyidagi kod yoshlar yig'indisini hisoblaydi:
data <- read.csv("data.csv")
total_age <- sum(data$age)
Bu kod "data.csv" fayldan ma'lumotlarni o'qib, "age" ustunidagi yoshlar yig'indisini total_age o'zgaruvchiga saqlaydi.
Ushbu misollar sizga R muhitida ma'lumotlarni kiritish va fayllar bilan ishlashning asosiy usullarini namoyish etdi. R daqiq ma'lumot kiritish va fayllarni boshqarish uchun boshqa ko'plab funktsiyalar mavjud. R dokumentatsiyasini o'rganib, turli misollar bilan amaliyot qilish orqali ushbu funktsiyalarni va qo'llanmalarni yanada tushunishingiz mumkin.
Albatta! R-da ma'lumotlar va fayllar bilan ishlash bo'yicha ba'zi qo'shimcha tafsilotlar:
1. Ma'lumotlarni manipulyatsiya qilish: R ma'lumotlarni manipulyatsiya qilish uchun kuchli funktsiyalar va paketlarni taqdim etadi. Dplyr to'plami qatorlarni filtrlash, ustunlarni tanlash, ma'lumotlarni saralash, ma'lumotlarni umumlashtirish va bir nechta ma'lumotlar to'plamiga qo'shilish kabi umumiy ma'lumotlarni manipulyatsiya qilish vazifalarini bajarishga imkon beruvchi fe'llar to'plamini taklif qiladi. Tidyr to'plami ma'lumotlarni tartibga solishda yordam beradi, shu jumladan keng va uzun formatlar o'rtasidagi ma'lumotlarni qayta shakllantirish funktsiyalari. Ushbu paketlar ma'lumotlar bilan ishlashning toza va samarali usulini ta'minlaydi, bu sizga ularni ehtiyojlaringiz bo'yicha o'zgartirish va boshqarish imkonini beradi.
2. Fayl formatlari: CSV fayllardan tashqari, R turli fayl formatlaridan maʼlumotlarni oʻqish va yozishni qoʻllab-quvvatlaydi. Ba'zi umumiy fayl formatlari quyidagilarni o'z ichiga oladi:
- Excel: readxl va writexl paketlari Excel fayllaridan (.xlsx) ma'lumotlarni o'qish va yozish imkonini beradi.
- JSON: jsonlite to'plami JSON formatida ma'lumotlarni o'qish va yozish funktsiyalarini ta'minlaydi.
- SQLite: RSQLite to'plami SQLite ma'lumotlar bazalari, jumladan, ma'lumotlarni o'qish va yozish bilan o'zaro ishlash imkonini beradi.
- HDF5: rhdf5 to'plami ierarxik ma'lumotlar formati 5 (HDF5) fayllari bilan ishlash imkonini beradi.
- RData: R ning mahalliy ikkilik fayl formati .RData bo'lib, R obyektlarini saqlash va yuklash imkonini beradi. RData fayllari bilan ishlash uchun save() va load() funksiyalaridan foydalanishingiz mumkin.
Muayyan ma'lumotlarga bo'lgan talablaringizga qarab, turli fayl formatlaridan ma'lumotlarni o'qish va yozish uchun mos paket yoki funksiyani tanlashingiz mumkin.
3. Ma'lumotlarni import qilish va eksport qilish: R ma'lumotlarni import va eksport qilish uchun turli funktsiyalar va paketlarni taqdim etadi. Ba'zi tez-tez ishlatiladigan funktsiyalarga quyidagilar kiradi:
- read.table() va write.table(): Bu funksiyalar koʻp qirrali boʻlib, turli fayl formatlarini, jumladan CSV, tab bilan ajratilgan va belgilangan kenglikdagi fayllarni boshqarishi mumkin.
- read.csv() va write.csv(): Bu funksiyalar jadval ma'lumotlarini saqlash uchun keng qo'llaniladigan CSV fayllarini boshqaradi.
- readr to'plami: readr to'plami read_csv() va write_csv() kabi samarali funktsiyalarni ta'minlaydi, ular asosiy R funktsiyalariga nisbatan tezroq ishlashni taklif qiladi.
- Haven to'plami: Haven paketi SPSS, SAS va Stata fayl formatlarida ma'lumotlarni o'qish va yozish imkonini beradi.
Ushbu funksiyalar va paketlardan foydalanib, siz R ga turli manbalardan maʼlumotlarni muammosiz import qilishingiz va natijalaringizni keyingi tahlil qilish yoki boshqalar bilan baham koʻrish uchun turli fayl formatlariga eksport qilishingiz mumkin.
4. Ishchi katalog: Ishchi katalog bu sizning kompyuteringizdagi papka bo'lib, u erda R sukut bo'yicha fayllarni qidiradi. Joriy ishchi katalogni getwd() funksiyasidan foydalanib tekshirishingiz va setwd() funksiyasi yordamida o'zgartirishingiz mumkin. R siz ishlamoqchi bo'lgan fayllarni topa olishi va kirishiga ishonch hosil qilish uchun ishchi katalogni to'g'ri o'rnatish juda muhim.
5. Fayl yo'llari: Fayllar bilan ishlashda to'g'ri fayl yo'llarini, jumladan, kataloglar va fayl nomlarini belgilash juda muhimdir. R fayl yo'llarini platformadan mustaqil ravishda qurish uchun file.path() va normalizePath() kabi funktsiyalarni taqdim etadi. Muayyan mezonlar asosida katalogdagi fayllar roʻyxatini olish uchun list.files() funksiyasidan ham foydalanishingiz mumkin.
Bular R. R ning koʻp qirraliligida maʼlumotlar va fayllar bilan ishlashning baʼzi qoʻshimcha jihatlari va turli paketlar va funksiyalarning mavjudligi uni maʼlumotlarni manipulyatsiya qilish, tahlil qilish va fayllarni boshqarish uchun kuchli vositaga aylantiradi. Muayyan paketlar yoki fayl formatlari bilan bog'liq hujjatlar va manbalarni o'rganish sizning maxsus ehtiyojlaringiz uchun batafsil ma'lumot va misollarni taqdim etishi mumkin.
Albatta! R-da ma'lumotlar va fayllar bilan ishlash bo'yicha qo'shimcha ma'lumotlar:
1. Ma'lumotlarni tozalash: R ma'lumotlarni tozalash vazifalari uchun bir nechta paketlar va funksiyalarni taqdim etadi. Dplyr, tidyr va stringrni o'z ichiga olgan tartibli paketlar to'plami ma'lumotlarni tozalash va o'zgartirish uchun keng funksiyalarni taklif etadi. Bu funksiyalar etishmayotgan qiymatlarni qayta ishlash, dublikatlarni olib tashlash, maʼlumotlar turlarini oʻzgartirish, satrlarni qayta ishlash va boshqa umumiy maʼlumotlarni tozalash operatsiyalarini bajarish imkonini beradi. Janitor to'plami o'zgaruvchilar nomlarini tozalash va tartibsiz ma'lumotlar tuzilmalarini boshqarish kabi vazifalar uchun ham foydalidir.
2. Excel fayllarini o‘qish: R-da Excel fayllarini o‘qish uchun readxl paketiga qo‘shimcha ravishda openxlsx va readxl paketlaridan ham foydalanishingiz mumkin. Bu paketlar read.xlsx(), read.xlsx2() va read_xlsx() kabi funksiyalarni ta’minlaydi. Bu sizga Excel faylidagi ma'lum varaqlar yoki diapazonlardagi ma'lumotlarni o'qish imkonini beradi.
3. Ma'lumotlar bazasiga ulanish: R ma'lumotlar bazalariga ulanish va ma'lumotlar bazasi tizimlarida saqlangan ma'lumotlar bilan ishlash uchun bir nechta paketlarni taklif qiladi. DBI to'plami MySQL, PostgreSQL, SQLite va boshqalar kabi turli xil ma'lumotlar bazasi tizimlariga ulanish uchun umumiy interfeysni taqdim etadi. Ulanishni o'rnatish uchun dbConnect() funksiyasidan foydalanishingiz va keyin ma'lumotlar bazasidan ma'lumotlarni olish uchun SQL so'rovlarini bajarishingiz mumkin. dplyr to'plami, shuningdek, xotiradagi ma'lumotlar ramkalari bilan bir xil sintaksisdan foydalangan holda ma'lumotlar bazalari bilan ishlash uchun qulay interfeysni taqdim etadi.
4. Web Scraping: R-da veb-saytlardan ma'lumotlarni olish imkonini beruvchi veb-qirqishni ta'minlaydigan rvest va xml2 kabi paketlar mavjud. Ushbu paketlar yordamida siz HTML-kontentni olishingiz, uni tahlil qilishingiz va qiziqarli elementlar yoki jadvallarni ajratib olishingiz mumkin. Agar kerakli ma'lumotlar yuklab olinadigan formatda bo'lmasa, lekin veb-saytda mavjud bo'lsa, veb-qirqish foydalidir.
5. Fayl tizimi operatsiyalari: R kataloglarni yaratish, fayllarni o'chirish, katalog tarkibini ro'yxatga olish va fayl mavjudligini tekshirish kabi turli xil fayl tizimi operatsiyalari uchun funktsiyalarni taqdim etadi. dir.create(), file.remove(), list.files() va file.exists() kabi funksiyalar fayl va kataloglarni dasturiy tarzda boshqarishga yordam beradi.
6. Katta ma'lumotlar to'plamlari bilan ishlash: Xotiraga sig'masligi mumkin bo'lgan katta ma'lumotlar to'plamlari bilan ishlashda R samarali ma'lumotlar tuzilmalari va operatsiyalarini ta'minlaydigan data.table va disk.frame kabi paketlarni taklif qiladi. Ushbu paketlar xotiradan foydalanishni optimallashtirish va diskni saqlashdan foydalanish orqali katta ma'lumotlar to'plamini qayta ishlash va tahlil qilish imkonini beradi.
7. Parallel ishlov berish: R parallel ishlov berishni qo'llab-quvvatlaydi, bu esa hisob-kitoblarni tezlashtirish uchun bir nechta protsessor yadrolaridan foydalanish imkonini beradi. Parallel paket kodni parallellashtirish funktsiyalarini ta'minlaydi va foreach to'plami parallel tsikllarni yozishning qulay usulini taklif qiladi. Parallel ishlov berish, ayniqsa, simulyatsiya yoki katta hajmdagi ma'lumotlarni qayta ishlash kabi hisoblash intensiv vazifalari uchun foydalidir.
Bular R. R ning keng paketli ekotizimidagi ma'lumotlar va fayllar bilan ishlashning qo'shimcha jihatlari va hamjamiyat yordami sizga ma'lumotlar bilan bog'liq keng ko'lamli vazifalarni samarali hal qilish imkonini beradi. Muayyan paketlar va funksiyalar uchun mavjud bo'lgan hujjatlar va resurslarni o'rganish sizga maxsus ehtiyojlaringiz uchun chuqurroq bilim va amaliy misollarni taqdim etishi mumkin.
|