Ši tema apie tai, kaip sukurti tiesinį daugialypės regresijos modelį R aplinkoje naudojant mod() funkciją; kaip R lange parodyti modelio parametrus naudojant summary() funkciją.
Ankstesnėje (pirmojoje) temoje išmokome įdiegti R paketą savo kompiuteryje, perkelti į R paketą duomenis iš savo MS Excel lentelės (arba OpenOffice Calc lentelės), sukurti paprastą modelį (sudaryti tiesinę daugialypę regresiją).
Ankstesnėje (pirmojoje) temoje išmokome įdiegti R paketą savo kompiuteryje, perkelti į R paketą duomenis iš savo MS Excel lentelės (arba OpenOffice Calc lentelės), sukurti paprastą modelį (sudaryti tiesinę daugialypę regresiją).
Sudarėme modelį:
CO2 = 1224.41290 + 0.04667 * cc + 0.02942 * svoris - 0.58754
* metai
Šis modelis mums leidžia apskaičiuoti (prognozuoti), koks
bus lengvojo automobilio išmetamas anglies dvideginio (CO2) kiekis (g / km),
turint tam tikrą automobilio variklio tūrį (kubiniais cm, kitaip, cc), svorį
(kg) ir pagaminimo metus (pvz., 2000).
Modelio parametrai yra tokie (žr. žemiau).
Matome, kad determinacijos koeficientas (R-squared) viršija
0.8, vadinasi, mūsų modelis paaiškina daugiau nei 80 proc. priklausomybės
(likusios priklausomybės jis nesugeba paaiškinti). Tai geras rezultatas.
Tačiau ne visi anglies dvideginio kiekį (CO2) paaiškinantys
kintamieji yra naudingi modelyje. Tik automobilio variklio tūrio (kubiniais cm,
kitaip, cc) koeficientas yra statistiškai reikšmingas su 95 proc. patikimumu,
žr. Pr(>|t|) reikšmę, kuri tik kintamojo cc atveju yra mažesnė už 0.05.
Todėl likę aiškinantieji kintamieji turėtų būti pašalinti iš
modelio. Jeigu būtume naudoję pilnus duomenis. Tačiau praeitoje temoje juk
naudojome tik 12 automobilių duomenis. O štai pilni duomenys:
CO2
|
cc
|
svoris
|
metai
|
|
1
|
134
|
999
|
1340
|
2001.5
|
2
|
166
|
1390
|
1420
|
2003.5
|
3
|
149
|
1390
|
1790
|
2005.5
|
4
|
154
|
1595
|
1810
|
2005.5
|
5
|
185
|
1600
|
1930
|
2008.5
|
6
|
185
|
1600
|
1870
|
2002.5
|
7
|
202
|
1984
|
1900
|
2002.5
|
8
|
252
|
2800
|
2470
|
2005
|
9
|
164
|
1272
|
1400
|
1987.5
|
10
|
172
|
1781
|
1400
|
1987.5
|
11
|
167
|
1391
|
1505
|
1994.5
|
12
|
176
|
1781
|
1535
|
1994.5
|
13
|
158
|
1390
|
1710
|
2000
|
14
|
259
|
2792
|
1970
|
2000
|
15
|
163
|
1390
|
1780
|
2005.5
|
16
|
149
|
1390
|
1790
|
2005.5
|
17
|
154
|
1595
|
1810
|
2005.5
|
18
|
149
|
1390
|
1750
|
2010
|
19
|
166
|
1595
|
1780
|
2010
|
20
|
113
|
1197
|
1720
|
2013.5
|
21
|
109
|
1395
|
1780
|
2013.5
|
22
|
164
|
1043
|
1130
|
1987.5
|
23
|
167
|
1272
|
1130
|
1987.5
|
24
|
142
|
1198
|
1570
|
2006.5
|
25
|
139
|
1390
|
1550
|
2011.5
|
26
|
137
|
1595
|
1620
|
1990.5
|
27
|
228.5
|
2792
|
1860
|
1990.5
|
28
|
192
|
1595
|
1750
|
1998
|
29
|
115
|
1395
|
1940
|
2014.5
|
30
|
129
|
1798
|
2030
|
2014.5
|
31
|
142
|
1984
|
2080
|
2014.5
|
32
|
140.4
|
1196
|
1320
|
1995
|
33
|
165
|
1332
|
1580
|
1998.5
|
34
|
191
|
1587
|
1615
|
1998.5
|
35
|
178
|
1598
|
2035
|
2005.5
|
36
|
184
|
1794
|
2035
|
2005.5
|
37
|
209
|
2290
|
2060
|
2007
|
38
|
193
|
1587
|
1730
|
1998.5
|
39
|
148
|
1124
|
1405
|
2000
|
40
|
152
|
1360
|
1450
|
2000
|
41
|
171
|
1587
|
1525
|
2000
|
42
|
119
|
1197
|
1610
|
2014
|
43
|
125
|
1197
|
1630
|
2014
|
44
|
134
|
1390
|
1685
|
2014
|
45
|
158
|
1598
|
2125
|
2011
|
46
|
162
|
1798
|
2125
|
2011
|
47
|
149
|
1199
|
1590
|
2001
|
48
|
173
|
1598
|
1625
|
2001
|
49
|
199.9
|
2198
|
1745
|
2001
|
50
|
92
|
875
|
1370
|
2011
|
51
|
119
|
1242
|
1370
|
2011
|
52
|
140
|
1368
|
1370
|
2011
|
53
|
264
|
2996
|
2130
|
1990
|
54
|
271
|
3430
|
2150
|
1990
|
55
|
284
|
3982
|
2310
|
1990
|
56
|
314
|
4988
|
1250
|
1990
|
57
|
199
|
2996
|
2505
|
2010
|
58
|
278
|
4395
|
2660
|
2010
|
59
|
303
|
5972
|
2765
|
2010
|
60
|
204
|
1781
|
1775
|
1997.5
|
61
|
200
|
2598
|
1835
|
1997.5
|
62
|
197
|
1781
|
1925
|
2002.5
|
63
|
228
|
2393
|
1980
|
2002.5
|
64
|
197
|
1781
|
1940
|
2005.5
|
65
|
192
|
1984
|
1890
|
2005.5
|
66
|
169
|
1798
|
1960
|
2011
|
67
|
144
|
1798
|
2015
|
2011
|
68
|
144
|
1798
|
2055
|
2011
|
69
|
144
|
1984
|
2000
|
2011
|
70
|
140
|
1984
|
2035
|
2011
|
71
|
159
|
1984
|
2080
|
2011
|
72
|
206
|
1781
|
1995
|
1999.5
|
73
|
238
|
2393
|
2085
|
1999.5
|
74
|
204
|
1781
|
2040
|
2002.5
|
75
|
238
|
2393
|
2085
|
2002.5
|
76
|
233
|
2976
|
2085
|
2002.5
|
77
|
194
|
1984
|
2255
|
2006.5
|
78
|
209
|
2773
|
2240
|
2006.5
|
79
|
174
|
1984
|
2220
|
2009.5
|
80
|
194
|
2773
|
2250
|
2009.5
|
81
|
223
|
2995
|
2420
|
2009.5
|
82
|
154
|
1984
|
2235
|
2012.5
|
83
|
172
|
2773
|
2290
|
2012.5
|
84
|
224
|
1998
|
2435
|
2004
|
85
|
292
|
3498
|
2545
|
2004
|
86
|
223
|
1998
|
2435
|
2010
|
87
|
227
|
1998
|
2475
|
2010
|
88
|
266
|
3724
|
2340
|
2003.5
|
89
|
263
|
4266
|
2400
|
2003.5
|
90
|
270
|
4966
|
2400
|
2003.5
|
91
|
270
|
4966
|
2420
|
2003.5
|
92
|
242
|
3498
|
2475
|
2007
|
93
|
267
|
4663
|
2545
|
2007
|
94
|
279
|
5461
|
2545
|
2007
|
95
|
340
|
5513
|
2690
|
2007
|
96
|
235.5
|
3498
|
2490
|
2011
|
97
|
252
|
4663
|
2560
|
2011
|
98
|
260
|
5461
|
2560
|
2011
|
99
|
187
|
1749
|
1795
|
2008
|
100
|
207
|
1997
|
1832
|
2008
|
101
|
187
|
1749
|
1795
|
2001.5
|
102
|
207
|
1997
|
1832
|
2001.5
|
103
|
190
|
1749
|
2000
|
2010
|
104
|
190
|
1997
|
2040
|
2010
|
105
|
129
|
1598
|
1563
|
2014
|
106
|
198
|
1798
|
1900
|
2003.5
|
107
|
203
|
1999
|
1905
|
2003.5
|
108
|
188
|
1798
|
1925
|
2006
|
109
|
191
|
1999
|
1940
|
2006
|
110
|
165
|
1798
|
1925
|
2009.5
|
111
|
171
|
1999
|
1950
|
2009.5
|
112
|
193
|
2488
|
1970
|
2009.5
|
113
|
185
|
1798
|
1865
|
2001.5
|
114
|
192
|
1999
|
1865
|
2001.5
|
115
|
238
|
2498
|
1940
|
2001.5
|
116
|
187
|
1798
|
1865
|
2004
|
117
|
192
|
1999
|
1865
|
2004
|
118
|
238
|
2498
|
1940
|
2004
|
119
|
187
|
1798
|
1865
|
2006
|
120
|
192
|
1999
|
1865
|
2006
|
121
|
238
|
2498
|
1940
|
2006
|
122
|
247
|
2967
|
1985
|
2006
|
123
|
177
|
1596
|
2050
|
2011
|
124
|
189
|
1999
|
2090
|
2011
|
125
|
162
|
1598
|
1830
|
2008.5
|
126
|
199
|
1997
|
1960
|
2008.5
|
127
|
144
|
1598
|
1830
|
2011.5
|
128
|
184
|
1997
|
1830
|
2011.5
|
129
|
215
|
1997
|
1970
|
2005
|
130
|
233
|
2378
|
2070
|
2005
|
131
|
190.4
|
1598
|
1730
|
1997
|
132
|
216.6
|
1799
|
1775
|
1997
|
133
|
204.7
|
1998
|
1805
|
1997
|
134
|
178
|
1598
|
1785
|
2000.5
|
135
|
183
|
1799
|
1800
|
2000.5
|
136
|
207
|
1998
|
1860
|
2000.5
|
137
|
236
|
2498
|
1865
|
2000.5
|
138
|
184
|
1796
|
1850
|
2003.5
|
139
|
206
|
2198
|
1910
|
2003.5
|
140
|
173
|
1598
|
1870
|
2006.5
|
141
|
173
|
1796
|
1850
|
2006.5
|
142
|
180
|
2198
|
1910
|
2006.5
|
143
|
168
|
1595
|
1790
|
2000.5
|
144
|
190
|
1781
|
1885
|
2000.5
|
145
|
192
|
1984
|
1880
|
2000.5
|
146
|
173
|
1595
|
1915
|
2006
|
147
|
176
|
1798
|
1985
|
2006
|
148
|
242
|
1984
|
1970
|
2006
|
149
|
176
|
1595
|
1895
|
2010
|
150
|
163
|
1798
|
1965
|
2010
|
151
|
130
|
1896
|
1970
|
2010
|
152
|
207
|
1984
|
1820
|
1993
|
153
|
214
|
2309
|
1860
|
1993
|
154
|
202
|
1984
|
1875
|
1992.5
|
155
|
132
|
1598
|
1645
|
2011
|
156
|
165
|
1598
|
1480
|
2003.5
|
157
|
139
|
1598
|
1515
|
2010
|
158
|
128
|
1397
|
1510
|
2010
|
159
|
139
|
1598
|
1645
|
2012.5
|
160
|
156
|
1598
|
1740
|
2005.5
|
161
|
187
|
1796
|
1785
|
2005.5
|
162
|
218
|
1998
|
1860
|
2005.5
|
163
|
305
|
2979
|
2595
|
2001.5
|
164
|
335
|
4398
|
2685
|
2001.5
|
165
|
307
|
2979
|
2595
|
2005
|
166
|
317
|
4398
|
2700
|
2005
|
167
|
244
|
2996
|
2680
|
2008
|
168
|
286
|
4799
|
2785
|
2008
|
169
|
236
|
2979
|
2750
|
2012
|
170
|
188
|
1796
|
1695
|
1994.5
|
171
|
214
|
2494
|
1770
|
1994.5
|
172
|
213
|
2171
|
1890
|
2000
|
173
|
175
|
1995
|
1820
|
2003.5
|
174
|
146
|
1995
|
1890
|
2006.5
|
175
|
148
|
1995
|
1890
|
2009.5
|
176
|
190
|
1975
|
2050
|
2005.5
|
177
|
237
|
2656
|
2170
|
2005.5
|
178
|
158
|
1591
|
1830
|
2011.5
|
179
|
185
|
1988
|
2030
|
2011.5
|
180
|
189
|
2359
|
2140
|
2011.5
|
181
|
177
|
1396
|
1665
|
1997.5
|
182
|
161
|
1493
|
1720
|
1997.5
|
183
|
200
|
1595
|
1765
|
1997.5
|
184
|
167
|
1396
|
1550
|
2001.5
|
185
|
155
|
1590
|
1570
|
2001.5
|
186
|
167
|
1688
|
1580
|
2001.5
|
187
|
209
|
2156
|
1850
|
1999.5
|
188
|
252
|
1973
|
1900
|
1998.5
|
189
|
216
|
1998
|
1930
|
2003
|
190
|
215
|
1998
|
1990
|
2005.5
|
191
|
192
|
1997
|
2050
|
2008
|
192
|
220
|
1997
|
1680
|
1998
|
193
|
226
|
2157
|
1740
|
1998
|
194
|
200
|
1598
|
1915
|
2001
|
195
|
204
|
1796
|
1940
|
2001
|
196
|
214
|
2198
|
2020
|
2001
|
197
|
243
|
1998
|
2065
|
2003
|
198
|
180
|
1598
|
1950
|
2004
|
199
|
196
|
1796
|
1970
|
2004
|
200
|
204
|
2198
|
2020
|
2004
|
201
|
170
|
1598
|
2075
|
2007
|
202
|
182
|
1796
|
2080
|
2007
|
203
|
197
|
2198
|
2135
|
2007
|
204
|
206
|
1781
|
1940
|
1999
|
205
|
238
|
2393
|
2030
|
1999
|
206
|
250
|
2671
|
2210
|
1999
|
207
|
202
|
1781
|
1980
|
2002.5
|
208
|
199
|
1984
|
1945
|
2002.5
|
209
|
238
|
2393
|
2030
|
2002.5
|
210
|
189
|
1984
|
2120
|
2006.5
|
211
|
233
|
2393
|
2135
|
2006.5
|
212
|
174
|
1984
|
2100
|
2009.5
|
Turime 212 benzininių automobilių duomenis, perkelkime šiuos
duomenis į R sukurdami naują lentelę. Kadangi tai bus visiškai nauja lentelė,
galime ją kurti tiek anksčiau išsaugotame (ir dabar atsidarytame) faile
„pavyzdys.RData“, tiek šviežiai atidarytame R paketo lange.
Aukščiau pateiktą lentelę nukopijuokite į MS Excel arba MS
Word (kaip minėjau, tiesioginis kopijavimas iš puslapio gali nesuveikti, todėl
reikalingas tarpinis žingsnis), ir iš ten nukopijuokite šią lentelę į
kompiuterio atmintį (į „clipboard“), kitaip sakant, atlikime „Copy“ operaciją
(tik „Copy“, „Paste“ nereikia).
Dabar mūsų lentelė bus kompiuterio atmintyje. Grįžkime prie
mūsų R paketo lango ir ten įrašykime:
lentele2<-read.table("clipboard",header=TRUE)
ir spauskime „Enter“.
Norėdami įsitikinti, kad lentelė tikrai perkelta, R paketo
lange įrašykime:
show(lentele2)
ir spauskime „Enter“.
Lentelė bus parodyta R paketo lange. Jeigu dirbate anksčiau
išsaugotame faile „pavyzdys.RData“,dabar jame turėsite dvi lenteles (lentele ir
lentele2). Tuo galite įsitikinti įvykdę komandą „show(lentele)“, kuri R lange
parodys senąją lentelę („lentele“).
Dabar sudarykime modelį iš pilnų duomenų:
mod2 <- lm(CO2 ~ cc + svoris + metai, data=lentele2)
ir spauskime „Enter“.
Kaip matote, modelį pavadinome nebe mod, o mod2 (tad faile
„pavyzdys.RData“ dabar bus du modeliai: mod ir mod2). Sudarant modelį naudojame
taip pat ne senosios lentelės („lentele“), o naujosios lentelės („lentele2“) duomenis.
Norėdami pamatyti apskaičiuotus modelio parametrus įveskime
komandą:
summary(mod2)
ir spauskime „Enter“. Modelio parametrai atsiras R paketo
lange:
Matome, kad dabar visi aiškinantieji kintamieji sudarytame
modelyje yra naudingi, kadangi Pr(>|t|) reikšmė visų kintamųjų atveju yra
praktiškai nulinė. Determinacijos koeficientas yra neženkliai suprastėjęs,
kadangi padidėjus automobilių įvairovei tapo sunkiau paaiškinti priklausomybę.
Kaip matome, modelis yra toks:
CO2 = 6501 + 0.02425* cc + 0.06401 * svoris - 3.234 * metai
Dabar belieka išsaugoti savo projektą, kad galėtume bet kada
prie jo sugrįžti. Spaudžiame „File“, tada „Save workspace...“, ir išsaugojame
.RData formatu, tuo pačiu pavadinimu „pavyzdys.RData“. Vėliau šią išsaugotą
bylą galėsime bet kada atsidaryti, pavyzdžiui, per meniu punktą „Load
Workspace“, ir tęsti duomenų analizę.
No comments:
Post a Comment