MENIU

PRADŽIA | APIE PUSLAPĮ | KONTAKTAI | AUTORINĖS TEISĖS

Similar page in ENGLISH is available HERE.

Search This Blog

Friday, May 27, 2016

02 tema. Tobuliname ankstesnėje temoje parodytą modelį


Ši tema apie tai, kaip sukurti tiesinį daugialypės regresijos modelį R aplinkoje naudojant mod() funkciją; kaip R lange parodyti modelio parametrus naudojant summary() funkciją.

Ankstesnėje (pirmojoje) temoje išmokome įdiegti R paketą savo kompiuteryje, perkelti į R paketą duomenis iš savo MS Excel lentelės (arba OpenOffice Calc lentelės), sukurti paprastą modelį (sudaryti tiesinę daugialypę regresiją).

Sudarėme modelį:

CO2 = 1224.41290 + 0.04667 * cc + 0.02942 * svoris - 0.58754 * metai

Šis modelis mums leidžia apskaičiuoti (prognozuoti), koks bus lengvojo automobilio išmetamas anglies dvideginio (CO2) kiekis (g / km), turint tam tikrą automobilio variklio tūrį (kubiniais cm, kitaip, cc), svorį (kg) ir pagaminimo metus (pvz., 2000).

Modelio parametrai yra tokie (žr. žemiau).


Matome, kad determinacijos koeficientas (R-squared) viršija 0.8, vadinasi, mūsų modelis paaiškina daugiau nei 80 proc. priklausomybės (likusios priklausomybės jis nesugeba paaiškinti). Tai geras rezultatas.

Tačiau ne visi anglies dvideginio kiekį (CO2) paaiškinantys kintamieji yra naudingi modelyje. Tik automobilio variklio tūrio (kubiniais cm, kitaip, cc) koeficientas yra statistiškai reikšmingas su 95 proc. patikimumu, žr. Pr(>|t|) reikšmę, kuri tik kintamojo cc atveju yra mažesnė už 0.05.

Todėl likę aiškinantieji kintamieji turėtų būti pašalinti iš modelio. Jeigu būtume naudoję pilnus duomenis. Tačiau praeitoje temoje juk naudojome tik 12 automobilių duomenis. O štai pilni duomenys:



CO2
cc
svoris
metai
1
134
999
1340
2001.5
2
166
1390
1420
2003.5
3
149
1390
1790
2005.5
4
154
1595
1810
2005.5
5
185
1600
1930
2008.5
6
185
1600
1870
2002.5
7
202
1984
1900
2002.5
8
252
2800
2470
2005
9
164
1272
1400
1987.5
10
172
1781
1400
1987.5
11
167
1391
1505
1994.5
12
176
1781
1535
1994.5
13
158
1390
1710
2000
14
259
2792
1970
2000
15
163
1390
1780
2005.5
16
149
1390
1790
2005.5
17
154
1595
1810
2005.5
18
149
1390
1750
2010
19
166
1595
1780
2010
20
113
1197
1720
2013.5
21
109
1395
1780
2013.5
22
164
1043
1130
1987.5
23
167
1272
1130
1987.5
24
142
1198
1570
2006.5
25
139
1390
1550
2011.5
26
137
1595
1620
1990.5
27
228.5
2792
1860
1990.5
28
192
1595
1750
1998
29
115
1395
1940
2014.5
30
129
1798
2030
2014.5
31
142
1984
2080
2014.5
32
140.4
1196
1320
1995
33
165
1332
1580
1998.5
34
191
1587
1615
1998.5
35
178
1598
2035
2005.5
36
184
1794
2035
2005.5
37
209
2290
2060
2007
38
193
1587
1730
1998.5
39
148
1124
1405
2000
40
152
1360
1450
2000
41
171
1587
1525
2000
42
119
1197
1610
2014
43
125
1197
1630
2014
44
134
1390
1685
2014
45
158
1598
2125
2011
46
162
1798
2125
2011
47
149
1199
1590
2001
48
173
1598
1625
2001
49
199.9
2198
1745
2001
50
92
875
1370
2011
51
119
1242
1370
2011
52
140
1368
1370
2011
53
264
2996
2130
1990
54
271
3430
2150
1990
55
284
3982
2310
1990
56
314
4988
1250
1990
57
199
2996
2505
2010
58
278
4395
2660
2010
59
303
5972
2765
2010
60
204
1781
1775
1997.5
61
200
2598
1835
1997.5
62
197
1781
1925
2002.5
63
228
2393
1980
2002.5
64
197
1781
1940
2005.5
65
192
1984
1890
2005.5
66
169
1798
1960
2011
67
144
1798
2015
2011
68
144
1798
2055
2011
69
144
1984
2000
2011
70
140
1984
2035
2011
71
159
1984
2080
2011
72
206
1781
1995
1999.5
73
238
2393
2085
1999.5
74
204
1781
2040
2002.5
75
238
2393
2085
2002.5
76
233
2976
2085
2002.5
77
194
1984
2255
2006.5
78
209
2773
2240
2006.5
79
174
1984
2220
2009.5
80
194
2773
2250
2009.5
81
223
2995
2420
2009.5
82
154
1984
2235
2012.5
83
172
2773
2290
2012.5
84
224
1998
2435
2004
85
292
3498
2545
2004
86
223
1998
2435
2010
87
227
1998
2475
2010
88
266
3724
2340
2003.5
89
263
4266
2400
2003.5
90
270
4966
2400
2003.5
91
270
4966
2420
2003.5
92
242
3498
2475
2007
93
267
4663
2545
2007
94
279
5461
2545
2007
95
340
5513
2690
2007
96
235.5
3498
2490
2011
97
252
4663
2560
2011
98
260
5461
2560
2011
99
187
1749
1795
2008
100
207
1997
1832
2008
101
187
1749
1795
2001.5
102
207
1997
1832
2001.5
103
190
1749
2000
2010
104
190
1997
2040
2010
105
129
1598
1563
2014
106
198
1798
1900
2003.5
107
203
1999
1905
2003.5
108
188
1798
1925
2006
109
191
1999
1940
2006
110
165
1798
1925
2009.5
111
171
1999
1950
2009.5
112
193
2488
1970
2009.5
113
185
1798
1865
2001.5
114
192
1999
1865
2001.5
115
238
2498
1940
2001.5
116
187
1798
1865
2004
117
192
1999
1865
2004
118
238
2498
1940
2004
119
187
1798
1865
2006
120
192
1999
1865
2006
121
238
2498
1940
2006
122
247
2967
1985
2006
123
177
1596
2050
2011
124
189
1999
2090
2011
125
162
1598
1830
2008.5
126
199
1997
1960
2008.5
127
144
1598
1830
2011.5
128
184
1997
1830
2011.5
129
215
1997
1970
2005
130
233
2378
2070
2005
131
190.4
1598
1730
1997
132
216.6
1799
1775
1997
133
204.7
1998
1805
1997
134
178
1598
1785
2000.5
135
183
1799
1800
2000.5
136
207
1998
1860
2000.5
137
236
2498
1865
2000.5
138
184
1796
1850
2003.5
139
206
2198
1910
2003.5
140
173
1598
1870
2006.5
141
173
1796
1850
2006.5
142
180
2198
1910
2006.5
143
168
1595
1790
2000.5
144
190
1781
1885
2000.5
145
192
1984
1880
2000.5
146
173
1595
1915
2006
147
176
1798
1985
2006
148
242
1984
1970
2006
149
176
1595
1895
2010
150
163
1798
1965
2010
151
130
1896
1970
2010
152
207
1984
1820
1993
153
214
2309
1860
1993
154
202
1984
1875
1992.5
155
132
1598
1645
2011
156
165
1598
1480
2003.5
157
139
1598
1515
2010
158
128
1397
1510
2010
159
139
1598
1645
2012.5
160
156
1598
1740
2005.5
161
187
1796
1785
2005.5
162
218
1998
1860
2005.5
163
305
2979
2595
2001.5
164
335
4398
2685
2001.5
165
307
2979
2595
2005
166
317
4398
2700
2005
167
244
2996
2680
2008
168
286
4799
2785
2008
169
236
2979
2750
2012
170
188
1796
1695
1994.5
171
214
2494
1770
1994.5
172
213
2171
1890
2000
173
175
1995
1820
2003.5
174
146
1995
1890
2006.5
175
148
1995
1890
2009.5
176
190
1975
2050
2005.5
177
237
2656
2170
2005.5
178
158
1591
1830
2011.5
179
185
1988
2030
2011.5
180
189
2359
2140
2011.5
181
177
1396
1665
1997.5
182
161
1493
1720
1997.5
183
200
1595
1765
1997.5
184
167
1396
1550
2001.5
185
155
1590
1570
2001.5
186
167
1688
1580
2001.5
187
209
2156
1850
1999.5
188
252
1973
1900
1998.5
189
216
1998
1930
2003
190
215
1998
1990
2005.5
191
192
1997
2050
2008
192
220
1997
1680
1998
193
226
2157
1740
1998
194
200
1598
1915
2001
195
204
1796
1940
2001
196
214
2198
2020
2001
197
243
1998
2065
2003
198
180
1598
1950
2004
199
196
1796
1970
2004
200
204
2198
2020
2004
201
170
1598
2075
2007
202
182
1796
2080
2007
203
197
2198
2135
2007
204
206
1781
1940
1999
205
238
2393
2030
1999
206
250
2671
2210
1999
207
202
1781
1980
2002.5
208
199
1984
1945
2002.5
209
238
2393
2030
2002.5
210
189
1984
2120
2006.5
211
233
2393
2135
2006.5
212
174
1984
2100
2009.5

Turime 212 benzininių automobilių duomenis, perkelkime šiuos duomenis į R sukurdami naują lentelę. Kadangi tai bus visiškai nauja lentelė, galime ją kurti tiek anksčiau išsaugotame (ir dabar atsidarytame) faile „pavyzdys.RData“, tiek šviežiai atidarytame R paketo lange.

Aukščiau pateiktą lentelę nukopijuokite į MS Excel arba MS Word (kaip minėjau, tiesioginis kopijavimas iš puslapio gali nesuveikti, todėl reikalingas tarpinis žingsnis), ir iš ten nukopijuokite šią lentelę į kompiuterio atmintį (į „clipboard“), kitaip sakant, atlikime „Copy“ operaciją (tik „Copy“, „Paste“ nereikia).

Dabar mūsų lentelė bus kompiuterio atmintyje. Grįžkime prie mūsų R paketo lango ir ten įrašykime:

lentele2<-read.table("clipboard",header=TRUE)

ir spauskime „Enter“.

Norėdami įsitikinti, kad lentelė tikrai perkelta, R paketo lange įrašykime:

show(lentele2)

ir spauskime „Enter“.

Lentelė bus parodyta R paketo lange. Jeigu dirbate anksčiau išsaugotame faile „pavyzdys.RData“,dabar jame turėsite dvi lenteles (lentele ir lentele2). Tuo galite įsitikinti įvykdę komandą „show(lentele)“, kuri R lange parodys senąją lentelę („lentele“).

Dabar sudarykime modelį iš pilnų duomenų:

mod2 <- lm(CO2 ~ cc + svoris + metai, data=lentele2)

ir spauskime „Enter“.

Kaip matote, modelį pavadinome nebe mod, o mod2 (tad faile „pavyzdys.RData“ dabar bus du modeliai: mod ir mod2). Sudarant modelį naudojame taip pat ne senosios lentelės („lentele“), o naujosios lentelės („lentele2“) duomenis.

Norėdami pamatyti apskaičiuotus modelio parametrus įveskime komandą:

summary(mod2)

ir spauskime „Enter“. Modelio parametrai atsiras R paketo lange:


Matome, kad dabar visi aiškinantieji kintamieji sudarytame modelyje yra naudingi, kadangi Pr(>|t|) reikšmė visų kintamųjų atveju yra praktiškai nulinė. Determinacijos koeficientas yra neženkliai suprastėjęs, kadangi padidėjus automobilių įvairovei tapo sunkiau paaiškinti priklausomybę.

Kaip matome, modelis yra toks:

CO2 = 6501 + 0.02425* cc + 0.06401 * svoris - 3.234 * metai

Dabar belieka išsaugoti savo projektą, kad galėtume bet kada prie jo sugrįžti. Spaudžiame „File“, tada „Save workspace...“, ir išsaugojame .RData formatu, tuo pačiu pavadinimu „pavyzdys.RData“. Vėliau šią išsaugotą bylą galėsime bet kada atsidaryti, pavyzdžiui, per meniu punktą „Load Workspace“, ir tęsti duomenų analizę.

No comments:

Post a Comment