嶺回歸分析內(nèi)容_第1頁(yè)
嶺回歸分析內(nèi)容_第2頁(yè)
嶺回歸分析內(nèi)容_第3頁(yè)
嶺回歸分析內(nèi)容_第4頁(yè)
嶺回歸分析內(nèi)容_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

嶺回歸分析一、普通最小二乘估計(jì)帶來(lái)的問(wèn)題當(dāng)設(shè)計(jì)矩陣X呈病態(tài)時(shí),X的列向量之間有較強(qiáng)的線(xiàn)性相關(guān)性,即解釋變量間出現(xiàn)嚴(yán)重的多重共線(xiàn)性,在這種情況下,用普通最小二乘法估計(jì)模型參數(shù),往往參數(shù)估計(jì)的方差太大,即很大,就很不穩(wěn)定,在具體取值上與真值有較大的偏差,有時(shí)會(huì)出現(xiàn)與實(shí)際經(jīng)濟(jì)意義不符的正負(fù)號(hào)。下面看一個(gè)例子,可以說(shuō)明這一點(diǎn)。假設(shè)已知,與y的關(guān)系服從線(xiàn)性回歸模型:,給定,的10個(gè)值,如下表1,2行所示:然后用模擬的方法產(chǎn)生10個(gè)正態(tài)隨機(jī)數(shù),作為誤差項(xiàng),見(jiàn)表第3行。然后再由回歸模型計(jì)算出10個(gè)值,見(jiàn)表第4行。現(xiàn)在假設(shè)回歸系數(shù)與誤差項(xiàng)是未知的,用普通最小二乘法求回歸系數(shù)的估計(jì)得:=11.292,=11.307,=-6.591,而原模型的參數(shù)=10,=2,=3看來(lái)相差太大。計(jì)算,的樣本相關(guān)系數(shù)得=0.986,表明與之間高度相關(guān)。通過(guò)這個(gè)例子可以看到解釋變量之間高度相關(guān)時(shí),普通最小二乘估計(jì)明顯變壞。二、嶺回歸的定義當(dāng)自變量間存在多重共線(xiàn)性,||0時(shí),設(shè)想給加上一個(gè)正常數(shù)矩陣(k>0)那么+接近奇異的程度就會(huì)比接近奇異的程度小得多。考慮到變量的量綱問(wèn)題,先要對(duì)數(shù)據(jù)標(biāo)準(zhǔn)化,標(biāo)準(zhǔn)化后的設(shè)計(jì)矩陣仍用X表示,定義稱(chēng)為的嶺回歸估計(jì),其中,k稱(chēng)為嶺參數(shù)。由于假設(shè)X已經(jīng)標(biāo)準(zhǔn)化,所以就是自變量樣本相關(guān)陣。y可以標(biāo)準(zhǔn)化也可以未標(biāo)準(zhǔn)化,如果y也經(jīng)過(guò)標(biāo)準(zhǔn)化,那么計(jì)算的實(shí)際是標(biāo)準(zhǔn)化嶺回歸估計(jì)。作為的估計(jì)應(yīng)比最小二乘估計(jì)穩(wěn)定,當(dāng)k=0時(shí)的嶺回歸估計(jì)就是普通的最小二乘估計(jì)。因?yàn)閹X參數(shù)k不是唯一確定的,所以得到的嶺回歸估計(jì)實(shí)際是回歸參數(shù)的一個(gè)估計(jì)族。三、嶺回歸估計(jì)的性質(zhì)性質(zhì)1,是回歸參數(shù)的有偏估計(jì)。證明:顯然只有當(dāng)k=0時(shí),;當(dāng)k0時(shí),是的有偏估計(jì)。性質(zhì)2,在認(rèn)為嶺參數(shù)k是與y無(wú)關(guān)的常數(shù)時(shí),=是最小二乘估計(jì)的一個(gè)線(xiàn)性變換。也是的線(xiàn)性函數(shù)。證明:性質(zhì)3,對(duì)任意k>0,,總有。這里是向量的模,等于向量各分量的平方和。這個(gè)性質(zhì)表明看看成由進(jìn)行某種向原點(diǎn)的壓縮。從的表達(dá)式可以看到,當(dāng)k時(shí),0,即化為零向量。性質(zhì)4,以MSE表示估計(jì)向量的均方誤差,則存在k>0,使得。四、嶺跡分析當(dāng)嶺參數(shù)k在(0,)內(nèi)變化時(shí),是k的函數(shù),在平面坐標(biāo)系上把函數(shù)描畫(huà)出來(lái),畫(huà)出的曲線(xiàn)稱(chēng)為嶺跡。時(shí),嶺跡大體上達(dá)到穩(wěn)定。按照嶺跡法,應(yīng)取k=0.2。若用方差擴(kuò)大因子法,當(dāng)k在0.02~0.08時(shí),方差擴(kuò)大因子小于10,故應(yīng)在此范圍選取k,由此可以看到不同的方法選取的k值是不同的。在用嶺回歸進(jìn)行變量選擇時(shí),因?yàn)閺膸X跡看到自變量x4,x7,x10,x11和x15有較穩(wěn)定且絕對(duì)值較小的嶺回歸系數(shù),根據(jù)變量選擇的第一條原則,這些自變量可以去掉。又因?yàn)?,自變量x12和x13的嶺回歸系數(shù)很不穩(wěn)定,且隨著k的增加很快趨于零,根據(jù)上面的第二條原則這些自變量也應(yīng)該去掉。還可根據(jù)第三條原則去掉變量x3,x5。這個(gè)問(wèn)題最后剩的變量是x1,x2,x6,x8,x9,x14即可用這些自變量去建立一個(gè)回歸方程。例2.本例共有10個(gè)自變量,X已經(jīng)中心化和標(biāo)準(zhǔn)化了,的特征根為:3.692,1.542,1.293,1.046,0.972,0.659,0.357,0.220,0.152,0.068最后一個(gè)特征根=0.068,較接近于零7.368,條件數(shù)k=7.368<10從條件數(shù)的角度看,似乎設(shè)計(jì)矩陣X沒(méi)有多重共線(xiàn)性。但下面的研究表明,作嶺回歸還是必要的。關(guān)于條件數(shù),這里附帶說(shuō)明它的一個(gè)缺陷,就是當(dāng)所有特征根都較小時(shí),雖然條件數(shù)不大,但多重共線(xiàn)性卻存在。下面作嶺回歸分析。對(duì)15個(gè)k值算出,畫(huà)出嶺跡,如下圖所示,從圖中可以看到,最小二乘估計(jì)的穩(wěn)定性很差,這反映在當(dāng)k與0略有偏離時(shí),與=就有較大的差距,特別是||和||下降最多。當(dāng)k從0上升到0.1時(shí),下降到的59%,而在正交設(shè)計(jì)的情形只下降17%。這些現(xiàn)象在直觀(guān)上就使人懷疑最小二乘估計(jì)是否反映了的真實(shí)情況。另外,因素x5的回歸系數(shù)的最小二乘估計(jì)為負(fù)回歸系數(shù)中絕對(duì)值最大的,但當(dāng)k增加時(shí),迅速上升且變?yōu)檎?,與此相反,對(duì)因素x6,為正的,且絕對(duì)值最大,但當(dāng)k增加時(shí),迅速下降。再考慮到x5,x6樣本相關(guān)系數(shù)達(dá)到0.84,因此這兩個(gè)因素可近似地合并為一個(gè)因素。再看x7,它的回歸系數(shù)估計(jì)絕對(duì)值偏高,當(dāng)k增加時(shí),很快接近于0,這意味著x7實(shí)際上對(duì)y無(wú)多大影響。至于x1,其回歸系數(shù)的最小二乘估計(jì)絕對(duì)值看來(lái)有點(diǎn)偏低,當(dāng)k增加時(shí),||首先迅速上升,成為對(duì)因變量有負(fù)影響的最重要的自變量。當(dāng)k較大時(shí),||穩(wěn)定地緩慢趨于零。這意味著,通常的最小二乘估計(jì)對(duì)x1的重要性估計(jì)過(guò)低了。從整體上看,當(dāng)k達(dá)到0.2~0.3的范圍時(shí),各個(gè)已大體上趨于穩(wěn)定,因此,在這區(qū)間上取一個(gè)k值作嶺回歸可能得到較好的效果。本例中和當(dāng)k從0略增加時(shí),很快趨于0,于是它們很自然是應(yīng)該剔除的。去掉它們之后,重作嶺回歸分

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論