MENIU

PRADŽIA | APIE PUSLAPĮ | KONTAKTAI | AUTORINĖS TEISĖS

Similar page in ENGLISH is available HERE.

Search This Blog

Sunday, May 15, 2016

01 tema. R statistinis paketas - kaip jį prisijaukinti?

Ši tema apie tai, kaip iš MS Excel įkelti duomenis į R statistinę programą, naudojant read.table() funkciją, kopijuojant iš kompiuterio atminties (clipboard); kaip importuotą lentelę parodyti R statistinio paketo lange naudojant show() funkciją; kaip sudaryti paprastą tiesinį modelį naudojant mod() funkciją; kaip R lange parodyti sudaryto modelio parametrus naudojant funkciją summary(); kaip išsaugoti duomenis R aplinkoje.

Daugelis mūsų esame girdėję apie nemokamą R statistinį paketą, tačiau dauguma apie jį girdėjusių mano pažįstamų jo kratosi kaip pernelyg sudėtingo. Pripažįstu, man ir pačiam teko įdėti daug pastangų, kol jį prisijaukinau. Tačiau jokiu būdu ne todėl, kad naudotis juo sudėtinga - tiesiog trūksta instrukcijų „žaliems“. O perpratus pagrindinius naudojimo principus, naudojimasis R statistiniu paketu tampa labai paprastas.

Tad, nuo ko pradėti? Pirmiausia parsisiunčiame nemokamą paketą, pavyzdžiui, iš https://cran.r-project.org/bin/windows/base/. Atsisiųstą įdiegimo failą „R-3.3.0-win.exe“ (ar vėlesnę versiją) įdiegiame įprasta tvarka, realiai visuose žingsniuose reikia paspausti tik „Ok“ arba „Next“, galiausiai „Finish“. Štai ir viskas (tiesa, vėliau gali prireikti įdiegti reikalingas išorines bibliotekas, nes baziniame pakete yra ne visos funkcijos).

Atsidarome įdiegtą R paketą. Vaizdas bus maždaug toks:


Dabar mums reikia įkelti duomenis, kuriuos analizuosime. Tarkime, norime sudaryti regresiją (lygtį), kuri leistų apskaičiuoti (prognozuoti), koks bus lengvojo automobilio išmetamas anglies dvideginio (CO2) kiekis (g / km), turint tam tikrą automobilio variklio tūrį (kubiniais cm, kitaip, cc), svorį (kg) ir pagaminimo metus (pvz., 2000). Tokius automobilių duomenis galima rasti specializuotose svetainėse, pvz., http://www.autoevolution.com/cars/.

Šiuo atveju turėsime maždaug tokius duomenis, kaip žemiau pateiktoje lentelėje. Pirmajame stulpelyje pateiktas eilės numeris didėjančia tvarka, šis stulpelis turi būti be pavadinimo. Pateiktuose skaičiuose turi būti naudojamas angliškas formatas (pvz., dešimtosios skaičiaus dalys atskirtos tašku, o ne kableliu).



CO2
cc
svoris
metai
1
134
999
1340
2001.5
2
166
1390
1420
2003.5
3
149
1390
1790
2005.5
4
154
1595
1810
2005.5
5
185
1600
1930
2008.5
6
185
1600
1870
2002.5
7
202
1984
1900
2002.5
8
252
2800
2470
2005
9
164
1272
1400
1987.5
10
172
1781
1400
1987.5
11
167
1391
1505
1994.5
12
176
1781
1535
1994.5

Įkeltinus duomenis dažniausiai turėsime MS Excel formatu. Nukopijuokime šią lentelę iš mūsų atverto MS Excel failo į kompiuterio atmintį (į „clipboard“), kitaip sakant, atlikime „Copy“ operaciją (tik „Copy“, „Paste“ nereikia). Galite pabandyti nukopijuoti tiesiog aukščiau pateiktą lentelę iš šio mano posto (tiesa, į kompiuterio atmintį tiesiai iš internetinio puslapio ji gali būti perkelta nekorektiškai, todėl pirma iš puslapio lentelę nukopijuokite, pvz., į MS Word, o iš MS Word ją perkelkite į kompiuterio atmintį).

Dabar mūsų lentelė bus kompiuterio atmintyje. Grįžkime prie mūsų R paketo lango ir ten įrašykime:

lentele<-read.table("clipboard",header=TRUE)

ir spauskime „Enter“.

Tai reiškia, kad R pakete bus sukurtas objektas (lentelė) pavadinimu „lentele“ (gali būti „lentelė1“, „lentele2“ ar kaip tik jums patinka), ir ši lentelė bus sukurta kompiuterio atmintyje esančių duomenų pagrindu ("clipboard"), ir ši lentelė turės antraštę (header), kurioje bus pateikti kintamųjų pavadinimai, pagal kuriuos galėsime šiuos kintamuosius išsikviesti.

Norėdami įsitikinti, kad lentelė tikrai perkelta, R paketo lange įrašykime:

show(lentele)

ir spauskime „Enter“.

Lentelė bus parodyta R paketo lange:


Būtiniausių funkcijų sąrašą, tokių kaip „lentele<-read.table("clipboard",header=TRUE)“ ar „show(lentele)“, turėkite pasiruošę atskirame, pvz., MS Word faile. Aš netgi nerenku ranka šių komandų R paketo lange, aš pirma nukopijuoju iš savo sąrašo komandą „lentele<-read.table("clipboard",header=TRUE)“ į R paketo langą (tačiau nespaudžiu „Enter“), tada kopijuoju duomenų lentelę iš MS Excel failo į kompiuterio atmintį, ir tik tada R paketo lange spaudžiu „Enter“.

Dabar pabandykime sudaryti modelį, pavyzdžiui, įveskime komandą:

mod <- lm(CO2 ~ cc + svoris + metai, data=lentele)

ir spauskime „Enter“.

Tai reiškia, kad duomenų, esančių objekte „lentele“ pagrindu bus kuriamas modelis „mod“ (gali būti ir „mod1“, „mod2“ ar bet kaip kitaip), kuris bus tiesinis („lm“) ir kuris sieks aprašyti CO2 priklausomybę nuo variklio tūrio (cc), svorio ir metų naudojant lygtį: CO2 = a + b1 * cc + b2 * svoris + b3 * metai + paklaida. Norėdami pamatyti apskaičiuotus modelio parametrus įveskime komandą:

summary(mod)

ir spauskime „Enter“. Modelio parametrai atsiras R paketo lange (žr. žemiau). Kaip matome, modelis yra toks:

CO2 = 1224.41290 + 0.04667 * cc + 0.02942 * svoris - 0.58754 * metai


Dabar belieka išsaugoti savo projektą, kad galėtume bet kada prie jo sugrįžti. Spaudžiame „File“, tada „Save workspace...“ (žr. žemiau), ir išsaugojame .RData formatu, pvz.„pavyzdys.RData“. Vėliau šią išsaugotą bylą galėsime bet kada atsidaryti, pavyzdžiui, per gretimą meniu punktą „Load Workspace“, ir tęsti duomenų analizę.


Tad linkiu Jums smagiai praleisti laiką prisijaukinant šį puikų duomenų analizės instrumentą.

Taip pat galite susipažinti su video medžiaga, kaip įkelti duomenis į R (VIDEO#1 ir VIDEO#2).

No comments:

Post a Comment