線性回歸模型_第1頁(yè)
線性回歸模型_第2頁(yè)
線性回歸模型_第3頁(yè)
線性回歸模型_第4頁(yè)
線性回歸模型_第5頁(yè)
已閱讀5頁(yè),還剩113頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

(1)主要內(nèi)容1.1

模型結(jié)構(gòu)和假設(shè)1.2

解釋變量1.3

參數(shù)估計(jì)1.4

異方差與加權(quán)最小二乘估計(jì)1.5

假設(shè)檢驗(yàn)1.6

模型診斷和改進(jìn)1.7

模型的評(píng)價(jià)與比較1.8應(yīng)用示例

第一頁(yè),共118頁(yè)。1.1模型結(jié)構(gòu)和假設(shè)(2)第二頁(yè),共118頁(yè)。(3)1.1模型結(jié)構(gòu)和假設(shè)假設(shè)我們感興趣的變量是,希望建立它與其他個(gè)解釋變量之間的函數(shù)關(guān)系。最一般的函數(shù)形式可以表示為:式中是隨機(jī)誤差。在線性回歸模型中,設(shè)是一個(gè)線性函數(shù),可得線性回歸模型為:如果對(duì)因變量和解釋變量有n次觀測(cè),第i次觀測(cè)值記為和則相應(yīng)的線性回歸模型可以表示為:第三頁(yè),共118頁(yè)。為方便起見(jiàn),線性回歸模型可以表示為矩陣形式:式中,(4)第四頁(yè),共118頁(yè)。(5)基本假設(shè)(1)誤差項(xiàng)的均值為零,且與解釋變量相互獨(dú)立,即(2)誤差項(xiàng)獨(dú)立同分布,即每個(gè)誤差項(xiàng)之間相互獨(dú)立且每個(gè)誤差項(xiàng)的方差都相等:(3)解釋變量之間線性無(wú)關(guān)(4)正態(tài)假設(shè),即假設(shè)誤差項(xiàng)服從正態(tài)分布:在上述假設(shè)下,可得:第五頁(yè),共118頁(yè)。1.2解釋變量(6)第六頁(yè),共118頁(yè)。(7)1.2解釋變量分類解釋變量

如果解釋變量是分類變量,在建模過(guò)程中需要把分類解釋變量轉(zhuǎn)化為虛擬變量。

為避免解釋變量之間出現(xiàn)完全共線性,虛擬變量個(gè)數(shù)等于分類變量的水平數(shù)減去1。第七頁(yè),共118頁(yè)。(8)Example:

車(chē)型是一個(gè)分類解釋變量,有A,B,C,D四個(gè)水平,可以轉(zhuǎn)化為x1,x2,x3三個(gè)虛擬變量,定義如下表所示:車(chē)型x1x2x3A100B010C001D000第八頁(yè),共118頁(yè)。(9)假設(shè)車(chē)型是模型中唯一的解釋變量,則線性回歸模型的擬合值表示為:根據(jù)模型,可以求得不同車(chē)型條件下對(duì)因變量的擬合值為:

在模型中,車(chē)型D是基準(zhǔn)水平,也稱參照水平。為了預(yù)測(cè)結(jié)果的穩(wěn)定性,通常選擇觀測(cè)值較多的水平為基準(zhǔn)水平。在R中的實(shí)現(xiàn):type=factor(c("A","B","C","0D"))model.matrix(~type)車(chē)型=A車(chē)型=B車(chē)型=C車(chē)型=D第九頁(yè),共118頁(yè)。(10)交互效應(yīng)交互效應(yīng)是指一個(gè)解釋變量對(duì)因變量的影響與另一個(gè)解釋變量有關(guān)。譬如,不同性別的駕駛?cè)?其年齡對(duì)索賠頻率的影響是不同的,即年齡和性別之間存在交互效應(yīng)。第十頁(yè),共118頁(yè)。(11)變量的標(biāo)準(zhǔn)化

為了消除量綱的影響,可以考慮對(duì)變量進(jìn)行標(biāo)準(zhǔn)化處理,即:式中,第十一頁(yè),共118頁(yè)。(12)Example:

表示汽車(chē)保險(xiǎn)的索賠頻率;

表示駕駛?cè)说哪挲g,是一個(gè)連續(xù)變量;

表示性別,是一個(gè)虛擬變量,值為0表示男性,1表示女性;表示年齡和性別的交互效應(yīng);

則線性回歸模型的擬合值可以表示為:

在模型中,年齡每增加一單位,對(duì)索賠頻率擬合值的影響是一個(gè)跟性別有關(guān)的值,即:第十二頁(yè),共118頁(yè)。(13)

基于標(biāo)準(zhǔn)化以后的數(shù)據(jù)建立的回歸模型為:

回歸系數(shù)間有下述關(guān)系:

標(biāo)準(zhǔn)化回歸系數(shù)的絕對(duì)值大小度量了解釋變量的相對(duì)重要性,值越大,表明該解釋變量對(duì)因變量的影響越大。在R中,用scale(data)實(shí)現(xiàn)標(biāo)準(zhǔn)化第十三頁(yè),共118頁(yè)。(14)變量變換

解釋變量與因變量之間如果是非線性關(guān)系,可以考慮對(duì)解釋變量進(jìn)行變換或建立多項(xiàng)式回歸模型。多項(xiàng)式回歸是把一個(gè)解釋變量的冪變換作為新的解釋變量引入回歸模型。

為簡(jiǎn)化表述,不妨假設(shè)只有一個(gè)原始解釋變量,則m次多項(xiàng)式回歸模型的基本形式如下:

所以多項(xiàng)式回歸也屬于線性回歸模型。第十四頁(yè),共118頁(yè)。(15)

在普通多項(xiàng)式回歸中,多項(xiàng)式的階數(shù)不同,參數(shù)估計(jì)結(jié)果也不同。

為了克服這種缺陷,可以使用正交多項(xiàng)式回歸模型,即把原來(lái)的解釋變量轉(zhuǎn)化為新的正交解釋變量。

譬如,三階正交多項(xiàng)式回歸模型為表示為:第十五頁(yè),共118頁(yè)。(16)在R中的實(shí)現(xiàn):set.seed(10)x=1:20y=2+x+x^2+runif(20)*50mod1=lm(y~x)mod2=lm(y~poly(x,2))mod3=lm(y~poly(x,19))plot(y~x,yaxs='i',pch=19,ylim=c(0,500),xlim=c(0,21),xaxs='i',las=1)abline(mod1)points(x,fitted(mod2),col=2,type='l',lty=4,pch='')points(x,fitted(mod3),col=4,type='l',lty=5,pch='')legend(1,450,c('一元線性回歸','二次多項(xiàng)式回歸','19次多項(xiàng)式回歸'),lty=c(1,2,3),col=c(1,2,4))第十六頁(yè),共118頁(yè)。(17)第十七頁(yè),共118頁(yè)。如果解釋變量取值較大,多項(xiàng)式模型中高次項(xiàng)可能會(huì)導(dǎo)致計(jì)算溢出,從而使得對(duì)其參數(shù)的估計(jì)值出現(xiàn)下溢。解決這一問(wèn)題的常用方法是對(duì)解釋變量進(jìn)行下述變換:如果模型中包含多個(gè)自變量(譬如兩個(gè)),則模型可表示為:在多項(xiàng)式回歸模型中,如果已經(jīng)包含高次項(xiàng),則所有的低次項(xiàng)通常也要保留在模型中。(18)第十八頁(yè),共118頁(yè)。1.3參數(shù)估計(jì)(19)第十九頁(yè),共118頁(yè)。(20)1.3參數(shù)估計(jì)最小二乘估計(jì)

回歸參數(shù)的最小二乘估計(jì)可以通過(guò)最小化殘差平方和求得:

對(duì)S關(guān)于求偏導(dǎo),并令其等于零,即得

得到回歸參數(shù)最小二乘估計(jì):第二十頁(yè),共118頁(yè)。(21)極大似然估計(jì)

假設(shè)誤差項(xiàng)服從正態(tài)分布,則因變量的密度函數(shù)為:

線性回歸模型的對(duì)數(shù)似然函數(shù)可以表示為:

對(duì)數(shù)似然函數(shù)的最大化等價(jià)于殘差平方和的最小化,即在正態(tài)分布假設(shè)下,回歸參數(shù)的極大似然估計(jì)等價(jià)于最小二乘估計(jì)。第二十一頁(yè),共118頁(yè)。(22)對(duì)上式關(guān)于求導(dǎo),并用回歸參數(shù)的極大似然估計(jì)值代入上式,并令上式等于零,則可以求得方差參數(shù)的極大似然估計(jì)值為:

這個(gè)方差估計(jì)是有偏的,在實(shí)際中很少用。第二十二頁(yè),共118頁(yè)。(23)方差參數(shù)的無(wú)偏估計(jì)

在線性回歸模型中,對(duì)因變量的預(yù)測(cè)值可以表示為:

線性回歸模型的殘差可以表示為:殘差平方和表示為:在正態(tài)性假設(shè)下,有:

方差的無(wú)偏估計(jì):第二十三頁(yè),共118頁(yè)。(24)最小二乘參數(shù)估計(jì)值的性質(zhì)(1)無(wú)偏性

在的所有線性無(wú)偏估計(jì)中,最小二乘估計(jì)的方差最小。(2)協(xié)方差矩陣

式中,是對(duì)角線上元素,是解釋變量與其他解釋變量之間的復(fù)相關(guān)系數(shù)。第二十四頁(yè),共118頁(yè)。(25)(3)正態(tài)分布假設(shè)下的性質(zhì)

如果進(jìn)一步假設(shè)誤差項(xiàng)服從正態(tài)分布,則有:此外,在誤差項(xiàng)服從正態(tài)分布的假設(shè)下最小二乘估計(jì)值與其真實(shí)值之間的加權(quán)距離服從自由度為k+1的卡方分布。第二十五頁(yè),共118頁(yè)。1.4

異方差與加權(quán)最小二乘估計(jì)(26)第二十六頁(yè),共118頁(yè)。(27)1.4

異方差與加權(quán)最小二乘估計(jì)異方差的產(chǎn)生原因:誤差學(xué)習(xí)模型(error-learning

models)數(shù)據(jù)采集技術(shù)的改進(jìn),使得減小產(chǎn)生于異常觀測(cè)(outliers)對(duì)CLRM假定的破壞,即回歸模型的設(shè)定有誤模型中一個(gè)或多個(gè)回歸元的分布偏態(tài)(skewness)其他,例如:不正確的數(shù)據(jù)變形(比率、一階差分變化等),不正確的函數(shù)形式(線性與對(duì)數(shù)線性的變換)異方差性問(wèn)題在截面數(shù)據(jù)中比在時(shí)序數(shù)據(jù)中更為常見(jiàn)第二十七頁(yè),共118頁(yè)。(28)1.4

異方差與加權(quán)最小二乘估計(jì)

在線性回歸模型中,如果誤差項(xiàng)的方差互不相同,即可以表示為

則式中的最小二乘估計(jì)值雖然是無(wú)偏估計(jì),但不再是最優(yōu)線性無(wú)偏估計(jì),即在所有的線性無(wú)偏估計(jì)中,不能保證上式的方差是最小的(有效性)。

第二十八頁(yè),共118頁(yè)。(29)1.4.1

異方差條件下參數(shù)估計(jì)值的標(biāo)準(zhǔn)誤異方差不影響最小二乘估計(jì)值的無(wú)偏性在異方差條件下,假設(shè)誤差項(xiàng)的協(xié)方差矩陣可以表示:

則最小二乘估計(jì)值的方差可以表示為:

第二十九頁(yè),共118頁(yè)。(30)1.4.1

異方差條件下參數(shù)估計(jì)值的標(biāo)準(zhǔn)誤矩陣W往往是未知的,不過(guò),在大樣本條件下可以通過(guò)下式進(jìn)行估計(jì):其中是設(shè)計(jì)矩陣第i行的元素。

問(wèn)題在于上式可以以求出最小二乘估計(jì)值的標(biāo)準(zhǔn)誤,但無(wú)法解決最小二乘估計(jì)的有效性問(wèn)題。第三十頁(yè),共118頁(yè)。(31)1.4.2加權(quán)最小二乘估計(jì)矩陣W的逆矩陣可以分解為:用矩陣可以對(duì)因變量、設(shè)計(jì)變量和誤差項(xiàng)進(jìn)行變換:則可以建立下述的線性回歸模型:上式模型滿足線性回歸所有假設(shè):零均值同方差

第三十一頁(yè),共118頁(yè)。(32)1.4.2加權(quán)最小二乘估計(jì)所以其最小二乘估計(jì)模型的回歸參數(shù)為:上述估計(jì)值的協(xié)方差矩陣為:可以證明,是回歸參數(shù)的無(wú)偏估計(jì),即:所以,在異方差條件下回歸參數(shù)的估計(jì)值可以表示為:第三十二頁(yè),共118頁(yè)。(33)1.4.2加權(quán)最小二乘估計(jì)協(xié)方差矩陣W是的矩陣,難以通過(guò)n個(gè)樣本觀測(cè)值估計(jì),所以通常設(shè)其為對(duì)角矩陣,且常假設(shè)有,所以誤差項(xiàng)的方差與其樣本量n成反比,即:是對(duì)因變量的觀測(cè)次數(shù)而且假設(shè)W為對(duì)角矩陣則意味著誤差項(xiàng)之間是相互獨(dú)立的第三十三頁(yè),共118頁(yè)。(34)1.4

補(bǔ)充異方差的檢驗(yàn)方法:殘差圖ncvTest生成計(jì)分檢驗(yàn),原假設(shè)為誤差方差不變,備擇假設(shè)為誤差方差隨擬合值水平的變化而變化#library(car)Goldfeld-QuandtTestbartlett.test第三十四頁(yè),共118頁(yè)。(35)1.4

補(bǔ)充異方差的解決方法:方法一:NeweyWest()函數(shù)可以進(jìn)行異方差和自相關(guān)穩(wěn)健性Newey—West估計(jì)(sandwich)library(sandwich)NeweyWest(fit)neweywest<-coeftest(fit,vcov=NeweyWest(fit))print(neweywest)方法二:加權(quán)最小二乘估計(jì)(MASS)

第三十五頁(yè),共118頁(yè)。1.5假設(shè)檢驗(yàn)(36)第三十六頁(yè),共118頁(yè)。(37)線性回歸模型的參數(shù)可以通過(guò)最小二乘法進(jìn)行估計(jì),這種估計(jì)方法無(wú)須對(duì)誤差項(xiàng)或因變量的分布形式做任何假設(shè)。但是,在對(duì)回歸參數(shù)進(jìn)行顯著性檢驗(yàn)時(shí),就必須假設(shè)誤差項(xiàng)或因變量服從正態(tài)分布,即:等價(jià)于:在線性回歸模型中,進(jìn)行顯著性檢驗(yàn)的主要統(tǒng)計(jì)量是自由度為(r,n-k-1)的F分布:1.5

假設(shè)檢驗(yàn)第三十七頁(yè),共118頁(yè)。(38)線性回歸模型一般形式為:如果對(duì)所有參數(shù)顯著性進(jìn)行檢驗(yàn),nullhypothesis:1.5.1多個(gè)參數(shù)的顯著性檢驗(yàn)——模型的解釋能力進(jìn)行顯著性檢驗(yàn)的統(tǒng)計(jì)量為下述F分布:SSE表示當(dāng)前模型的殘差平方和;SST是沒(méi)有任何解釋變量只有截距項(xiàng)的模型的殘差平方和。當(dāng)F值很大,即p值小于置信水平α?xí)r,拒絕原假設(shè)。第三十八頁(yè),共118頁(yè)。(39)只對(duì)模型中的一個(gè)參數(shù)進(jìn)行顯著性檢驗(yàn),則nullhypothesis:1.5.2一個(gè)參數(shù)的顯著性檢驗(yàn)——自變量的解釋能力對(duì)一個(gè)參數(shù)的顯著性進(jìn)行檢驗(yàn)時(shí),一般使用下述t統(tǒng)計(jì)量進(jìn)行顯著性檢驗(yàn):表示參數(shù)的標(biāo)準(zhǔn)誤。當(dāng)t值很大,p值小于置信水平α?xí)r,拒絕原假設(shè)。第三十九頁(yè),共118頁(yè)。(40)檢驗(yàn)?zāi)P椭械哪承﹨?shù)是否相等,或檢驗(yàn)?zāi)硞€(gè)參數(shù)是否等于一個(gè)特定值,可以使用F或t統(tǒng)計(jì)量。1.5.3參數(shù)等于特定值的顯著性檢驗(yàn)比如檢驗(yàn)參數(shù)是否等于特定的某數(shù)N,null

hypothesis:表示參數(shù)的標(biāo)準(zhǔn)誤。p值小于置信水平α?xí)r,拒絕原假設(shè)。檢驗(yàn)統(tǒng)計(jì)量為:第四十頁(yè),共118頁(yè)。(41)1.5.4統(tǒng)計(jì)顯著性與實(shí)際顯著性統(tǒng)計(jì)上具有顯著性的解釋變量并不表示實(shí)際上對(duì)因變量具有較強(qiáng)的解釋能力。當(dāng)樣本量較小時(shí),參數(shù)估計(jì)值的標(biāo)準(zhǔn)誤較大,則易認(rèn)為該參數(shù)在統(tǒng)計(jì)上是不顯著的。換言之,如果沒(méi)有拒絕原假設(shè),或許僅僅是因?yàn)闃颖玖坎粔虼蟆=od1和mod2兩個(gè)模型mod1基于模擬數(shù)據(jù)集dt1,含有20個(gè)觀測(cè)值,x1和x2兩個(gè)解釋變量。mod2基于模擬數(shù)據(jù)集dt2,含有40個(gè)觀測(cè)值,x1和x2兩個(gè)解釋變量,dt2由兩個(gè)dt1數(shù)據(jù)集合成。第四十一頁(yè),共118頁(yè)。(42)1.5.4統(tǒng)計(jì)顯著性與實(shí)際顯著性第四十二頁(yè),共118頁(yè)。(43)1.5.4統(tǒng)計(jì)顯著性與實(shí)際顯著性第四十三頁(yè),共118頁(yè)。1.6模型診斷和改進(jìn)(44)第四十四頁(yè),共118頁(yè)。(45)主要內(nèi)容殘差異常值和強(qiáng)影響點(diǎn)模型基本假設(shè)的診斷共線性的診斷第四十五頁(yè),共118頁(yè)。(46)殘差第四十六頁(yè),共118頁(yè)。(47)殘差第四十七頁(yè),共118頁(yè)。(48)標(biāo)準(zhǔn)化殘差定義第四十八頁(yè),共118頁(yè)。(49)內(nèi)學(xué)生化殘差第四十九頁(yè),共118頁(yè)。(50)外學(xué)生化殘差第五十頁(yè),共118頁(yè)。(51)異常值和強(qiáng)影響點(diǎn)強(qiáng)影響點(diǎn)第五十一頁(yè),共118頁(yè)。(52)異常值和強(qiáng)影響點(diǎn)因變量中的異常值(52)第五十二頁(yè),共118頁(yè)。(53)異常值和強(qiáng)影響點(diǎn)解釋變量中的異常值第五十三頁(yè),共118頁(yè)。(54)異常值和強(qiáng)影響點(diǎn)高杠桿點(diǎn)第五十四頁(yè),共118頁(yè)。(55)異常值和強(qiáng)影響點(diǎn)高杠桿點(diǎn)第五十五頁(yè),共118頁(yè)。(56)異常值和強(qiáng)影響點(diǎn)高杠桿點(diǎn)(56)第五十六頁(yè),共118頁(yè)。(57)強(qiáng)影響點(diǎn)的度量和識(shí)別強(qiáng)影響點(diǎn)第五十七頁(yè),共118頁(yè)。(58)強(qiáng)影響點(diǎn)的度量和識(shí)別第五十八頁(yè),共118頁(yè)。(59)強(qiáng)影響點(diǎn)的度量和識(shí)別(59)第五十九頁(yè),共118頁(yè)。(60)強(qiáng)影響點(diǎn)的度量和識(shí)別第六十頁(yè),共118頁(yè)。(61)模型基本假設(shè)的診斷第六十一頁(yè),共118頁(yè)。(62)模型基本假設(shè)的診斷正態(tài)性檢驗(yàn)第六十二頁(yè),共118頁(yè)。(63)模型基本假設(shè)的診斷正態(tài)性檢驗(yàn)第六十三頁(yè),共118頁(yè)。模型基本假設(shè)的診斷正態(tài)性檢驗(yàn)第六十四頁(yè),共118頁(yè)。(65)模型基本假設(shè)的診斷正態(tài)性檢驗(yàn)第六十五頁(yè),共118頁(yè)。(66)模型基本假設(shè)的診斷(66)S-K檢驗(yàn)第六十六頁(yè),共118頁(yè)。(67)模型基本假設(shè)的診斷常數(shù)方差的檢驗(yàn)第六十七頁(yè),共118頁(yè)。(68)模型基本假設(shè)的診斷(68)第六十八頁(yè),共118頁(yè)。(69)模型基本假設(shè)的診斷(69)第六十九頁(yè),共118頁(yè)。(70)模型基本假設(shè)的診斷常數(shù)方差的檢驗(yàn):改進(jìn)第七十頁(yè),共118頁(yè)。(71)模型基本假設(shè)的診斷常數(shù)方差的檢驗(yàn):改進(jìn)第七十一頁(yè),共118頁(yè)。模型基本假設(shè)的診斷第七十二頁(yè),共118頁(yè)。(73)模型基本假設(shè)的診斷獨(dú)立性檢驗(yàn)第七十三頁(yè),共118頁(yè)。(74)模型基本假設(shè)的診斷獨(dú)立性檢驗(yàn):D-W統(tǒng)計(jì)量第七十四頁(yè),共118頁(yè)。模型基本假設(shè)的診斷(75)獨(dú)立性檢驗(yàn):D-W統(tǒng)計(jì)量第七十五頁(yè),共118頁(yè)。(76)模型基本假設(shè)的診斷(76)獨(dú)立性檢驗(yàn):D-W統(tǒng)計(jì)量第七十六頁(yè),共118頁(yè)。模型基本假設(shè)的診斷獨(dú)立性檢驗(yàn)第七十七頁(yè),共118頁(yè)。(78)模型基本假設(shè)的診斷獨(dú)立性檢驗(yàn):D-W統(tǒng)計(jì)量第七十八頁(yè),共118頁(yè)。(79)模型基本假設(shè)的診斷獨(dú)立性檢驗(yàn)第七十九頁(yè),共118頁(yè)。(80)模型基本假設(shè)的診斷獨(dú)立性檢驗(yàn)第八十頁(yè),共118頁(yè)。模型基本假設(shè)的診斷獨(dú)立性檢驗(yàn)第八十一頁(yè),共118頁(yè)。(82)模型基本假設(shè)的診斷獨(dú)立性檢驗(yàn)第八十二頁(yè),共118頁(yè)。(83)模型基本假設(shè)的診斷(83)獨(dú)立性檢驗(yàn):改進(jìn)第八十三頁(yè),共118頁(yè)。(84)模型基本假設(shè)的診斷(84)獨(dú)立性檢驗(yàn):改進(jìn)第八十四頁(yè),共118頁(yè)。(85)模型基本假設(shè)的診斷(85)獨(dú)立性檢驗(yàn):改進(jìn)第八十五頁(yè),共118頁(yè)。(86)模型基本假設(shè)的診斷共線性的診斷第八十六頁(yè),共118頁(yè)。(87)模型基本假設(shè)的診斷共線性的診斷第八十七頁(yè),共118頁(yè)。(88)模型基本假設(shè)的診斷共線性的診斷第八十八頁(yè),共118頁(yè)。(89)模型基本假設(shè)的診斷共線性的診斷:VIF第八十九頁(yè),共118頁(yè)。模型基本假設(shè)的診斷共線性的診斷:條件數(shù)第九十頁(yè),共118頁(yè)。(91)模型基本假設(shè)的診斷共線性的診斷第九十一頁(yè),共118頁(yè)。模型基本假設(shè)的診斷共線性的診斷第九十二頁(yè),共118頁(yè)。模型基本假設(shè)的診斷共線性的診斷第九十三頁(yè),共118頁(yè)。(94)模型基本假設(shè)的診斷共線性的處理方法第九十四頁(yè),共118頁(yè)。(95)模型基本假設(shè)的診斷嶺回歸第九十五頁(yè),共118頁(yè)。(96)模型基本假設(shè)的診斷LASSO第九十六頁(yè),共118頁(yè)。(97)模型基本假設(shè)的診斷例第九十七頁(yè),共118頁(yè)。(98)模型基本假設(shè)的診斷(98)第九十八頁(yè),共118頁(yè)。(99)模型基本假設(shè)的診斷(99)第九十九頁(yè),共118頁(yè)。模型基本假設(shè)的診斷第一百頁(yè),共118頁(yè)。(101)模型基本假設(shè)的診斷第一百零一頁(yè),共118頁(yè)。1.7模型的評(píng)價(jià)與比較(102)第一百零二頁(yè),共118頁(yè)。1.7模型的評(píng)定與比較判定系數(shù)信息準(zhǔn)則交叉驗(yàn)證得分(103)(103)第一百零三頁(yè),共118頁(yè)。對(duì)于估計(jì)模型:總平方和:(SumofSquaredTotal)回歸平方和:(SumofSquaredRegression)殘差平方和:(SumofSquaredError)1.7.1判定系數(shù)第一百零四頁(yè),共118頁(yè)。判定系數(shù)定義為回歸平方和在總平方和中的比例:由可知,判定系數(shù)還可寫(xiě)為:判定系數(shù)的取值在0~1之間,越接近于1,模型對(duì)數(shù)據(jù)的擬合效果更好。第一百零五頁(yè),共118頁(yè)。不難看出,判定系數(shù)其實(shí)是因變量的觀測(cè)值與擬合值之間線性相關(guān)系數(shù)的平方:

證明:第一百零六頁(yè),共118頁(yè)。證明:缺陷:隨著模型解釋變量的增加,判定系數(shù)會(huì)越大,這會(huì)誤導(dǎo)我們選擇更復(fù)雜的模型。

第一百零七頁(yè),共118頁(yè)。(108)1.7.2調(diào)整可決系數(shù)其中:是回歸參數(shù)的個(gè)數(shù),是觀測(cè)值的個(gè)數(shù)。缺陷:如果新增變量的t值大于1,則在模型中增加該變量以后調(diào)整的判定系數(shù)就會(huì)增大。在R中,可決系數(shù)與調(diào)整可決系數(shù)會(huì)在模型估計(jì)中直接給出。

(108)第一百零八頁(yè),共118頁(yè)。1.7.3信息準(zhǔn)則增加解釋變量可改善模型的擬合效果,但增加不必要的解釋變量會(huì)降低回歸參數(shù)的估計(jì)精度,增大參數(shù)估計(jì)的方差。故在選擇模型時(shí)要同時(shí)考慮對(duì)數(shù)似然函數(shù)與參數(shù)個(gè)數(shù)的影響。其中:為對(duì)數(shù)似然值,為模型中參數(shù)個(gè)數(shù),為觀測(cè)值的個(gè)數(shù)。第一百零九頁(yè),共118頁(yè)。在正態(tài)分布假設(shè)下的線性回歸模型中:其中,是誤差項(xiàng)方差的極大似然估計(jì)值。第一百一十頁(yè),共118頁(yè)。則

和又可表示為:在應(yīng)用信息準(zhǔn)則選擇模型時(shí),建模時(shí)所使用的數(shù)據(jù)應(yīng)是相同的(或相差不大)。在R中,AIC和BIC可用以下命令求出:>AIC(model,k=2)>AIC(model,k=log(n))

第一百一十一頁(yè),共118頁(yè)。1.7.4交叉驗(yàn)證得分基本原理:1、把原始數(shù)據(jù)集隨機(jī)分解成r個(gè)大小近似相等的子數(shù)據(jù)集;2、把第一個(gè)子數(shù)據(jù)及作為驗(yàn)證數(shù)據(jù)集,其余r-1個(gè)子數(shù)據(jù)集合并后進(jìn)行模型的參數(shù)估計(jì),并基于該模型對(duì)驗(yàn)證數(shù)據(jù)集的因變量進(jìn)行預(yù)測(cè),計(jì)算誤差平方和;3、將第二個(gè)……第r個(gè)子數(shù)據(jù)集分別進(jìn)行步驟二;4、計(jì)算前述r個(gè)預(yù)測(cè)誤差平方和的平均值。

第一百一十二頁(yè),共118頁(yè)。特例:每個(gè)觀察值作為一個(gè)子數(shù)據(jù)集

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論