【《基于彈性網(wǎng)的方差推斷分析案例》2600字】_第1頁
【《基于彈性網(wǎng)的方差推斷分析案例》2600字】_第2頁
【《基于彈性網(wǎng)的方差推斷分析案例》2600字】_第3頁
【《基于彈性網(wǎng)的方差推斷分析案例》2600字】_第4頁
【《基于彈性網(wǎng)的方差推斷分析案例》2600字】_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

基于彈性網(wǎng)的方差推斷分析案例目錄TOC\o"1-3"\h\u19880基于彈性網(wǎng)的方差推斷分析案例 1139251.1系數(shù)估計 1241891.1.1Lasso 198451.1.2ElasticNet 362061.2方差估計 416671.3漸近性質(zhì) 8201671.1.1相合性 8253281.1.2漸近正態(tài)性 8115291.4同時置信區(qū)間 11考慮到在進(jìn)行統(tǒng)計推斷之前,如回歸系數(shù)、方差的假設(shè)檢驗、預(yù)測的區(qū)間估計等,一個有效合理的方差估計是非常重要的,因此,本章考慮給出一個較為合理的方差估計,利用彈性網(wǎng)來進(jìn)行線性模型中誤差方差的估計。1.1系數(shù)估計由于在進(jìn)行方差估計時,我們利用的是殘差平方和均值,其中涉及回歸系數(shù)的估計。關(guān)于回歸系數(shù)的估計問題,因為彈性網(wǎng)回歸組合了Lasso回歸與嶺回歸,而關(guān)于Lasso回歸的中的L1范數(shù),屬于不可導(dǎo)的,因此,此處先來介紹一下Lasso回歸在求解相關(guān)的系數(shù)估計時所做的工作。1.1.1Lasso針對嶺回歸中沒有變量選擇的問題,有學(xué)者提出了Lasso回歸,因為與嶺回歸的二次懲罰函數(shù)相比,Lasso的一次懲罰函數(shù)能減小變量系數(shù)的收縮程度,所以Lasso不僅能把非0的預(yù)測變量系數(shù)向0收縮,而且能選擇出那些價值較大的預(yù)測變量(值大的預(yù)測變量),從而選出較為準(zhǔn)確的模型。但是Lasso回歸具有較強的稀疏性假設(shè),因此在Lasso回歸求解過程中,若設(shè)計矩陣規(guī)模為,那么此時最多只能得到個變量。尤其當(dāng)時,最多只能選出n個預(yù)測變量,所以在這種情況下,Lasso回歸方法就不能選出最真實的模型。另外,當(dāng)預(yù)測變量具有群組效應(yīng)的時候,利用Lasso回歸只能選出其中一個變量。當(dāng)且預(yù)測變量具有較強的共線性時,若此時用Lasso回歸,其結(jié)果會受到嶺回歸的影響。Lasso回歸的目標(biāo)函數(shù)是3-(1)令3-(2)由于它的損失函數(shù)并非連續(xù)可導(dǎo)的,L1范數(shù)利用的是絕對值之和,導(dǎo)致?lián)p失函數(shù)存在不可導(dǎo)的點。此時我們的最小二乘法、梯度下降法、牛頓法與擬牛頓法對它都不起作用了。這里為了求含有這個L1范數(shù)的損失函數(shù)極小值,考慮用KKT條件對其求解。KKT條件是拉格朗日乘子法的拓展,也是一種非常常用的用于解決最優(yōu)化問題的手段。它的指定作用域包含了不等式,即KKT條件是求解帶有不等式約束的最優(yōu)化問題。假設(shè)我們有如下的最優(yōu)化問題:3-(3)那么該問題的拉格朗日函數(shù)為:KKT條件包括平穩(wěn)條件、互補松弛條件、對偶可行性條件、原問題可行性條件等幾類。上述問題的KKT條件如下:3-(4)正如Jasonetal.(2016)[7]在文中介紹道,利用KKT條件求得Lasso回歸的回歸參數(shù)解。其中的KKT條件為:3-(5)最終求得的解為:3-(6)1.1.2ElasticNet2005年相關(guān)研究者基于嶺回歸與Lasso回歸提出了彈性網(wǎng)回歸,彈性網(wǎng)回歸的懲罰函數(shù)為,它是Lasso回歸懲罰函數(shù)與嶺回歸懲罰函數(shù)的凸組合,使得它既可以解決具有群組效應(yīng)的預(yù)測變量,又可以像Lasso回歸那樣進(jìn)行變量選擇,得到一個較為簡潔準(zhǔn)確的模型。彈性網(wǎng)回歸考慮優(yōu)化問題,得到其估計量為3-(7)其中為正則化參數(shù),彈性網(wǎng)不僅具有L1正則化的稀疏性,同時兼顧了選擇組相關(guān)變量的能力,使得盡可能多的數(shù)據(jù)的重要特征變量被保留,具體可以分析下面的公式。令,由此得到公式3-(7)的等價形式如下:3-(8)由3-(8)式可以看出,是Lasso回歸與嶺回歸估計方法懲罰函數(shù)的凸組合,當(dāng)時,彈性網(wǎng)回歸變?yōu)閹X回歸,而當(dāng)時,彈性網(wǎng)回歸又成為Lasso回歸,因此可以得出本文中所討論的彈性網(wǎng)回歸兼具嶺回歸與Lasso回歸的優(yōu)點,從而在很多方面都具有更加優(yōu)良的表現(xiàn),也具有更加廣泛的應(yīng)用。通過比較發(fā)現(xiàn),嶺回歸雖然給出一個擬合模型,但沒有進(jìn)行變量選擇,容易導(dǎo)致回歸結(jié)果失真;Lasso回歸雖然能得到一個較為簡潔的模型,但是容易忽略某些具有群組效應(yīng)的預(yù)測變量,導(dǎo)致模型不符合實際。結(jié)果表明,彈性網(wǎng)回歸一方面達(dá)到了嶺回歸對重要特征選擇的目的,另一方面又像Lasso回歸那樣,刪除了對因變量影響較小的特征,取得了很好的效果?;趶椥跃W(wǎng)回歸的目標(biāo)函數(shù)3-(7)所示,以及求解Lasso回歸時所用的KKT條件,得到求解彈性網(wǎng)回歸中的系數(shù)估計。彈性網(wǎng)回歸的KKT條件為:3-(9)得到系數(shù)向量估計過程如下:最終得到回歸系數(shù)的估計值為:3-(10)其中,,。1.2方差估計由于彈性網(wǎng)回歸是結(jié)合嶺回歸與Lasso回歸產(chǎn)生的,因此具備兩者的優(yōu)點,在估計誤差方面也會表現(xiàn)得較為優(yōu)秀?;?.1節(jié)中得到的系數(shù)估計3-(10)式,殘差平方和的均值可以表示為,3-(11)其中,因此,參考前面提到的關(guān)于嶺回歸估計誤差方差的方法,我們可以得到對3-(11)式的進(jìn)一步推算,3-(12)其中,,并且是維的單位矩陣。然后,我們將的具體表達(dá)形式代入3-(12)式,繼續(xù)進(jìn)行推算,從而得到,3-(13)在3-(13)式中,對于前兩項的處理方式,我們參照嶺回歸估計誤差方差中的方式,保留,由于其中的,因此上式可以省略。另外,對3-(13)式剩余部分即,對里面的第二項進(jìn)行如下的縮放處理:3-(14)上式成立的條件是3-(15)因此,我們最終將3-(13)式化簡成下面3-(16)式的樣子,3-(16)對于公式3-(16)中的滿足如下命題1:命題1:3-(17)(1)計算3-(18)3-(19)其中是的最小特征值,和分別是X上的條件均值與條件方差。若,則有3-(20)(2)計算當(dāng)時,我們有:3-(21)(3)計算令,又因為,并且3-(22)由2.1節(jié)中的引理2可知,3-(23)所以可以得到:3-(24)由上述命題中的所有公式可得:在滿足的且條件,有3-(25)最終得到的誤差方差的表達(dá)式為:3-(26)由此得到有關(guān)基于線性模型下利用彈性網(wǎng)估計得到的誤差方差值為,。3-(27)1.3漸近性質(zhì)在介紹方差估計量的有關(guān)性質(zhì)及其相關(guān)證明之前,首先給出以下假設(shè)。假設(shè)6:當(dāng)n趨近于無窮大的時候,有。1.1.1相合性通過對我們推導(dǎo)得到的方差估計表達(dá)式進(jìn)行分析發(fā)現(xiàn),估計值是具有相合性的,即估計值無限接近于真值。定理1:在滿足假設(shè)2到假設(shè)6的條件下,并且,可以得到,,估計值無限接近于真值,具有相合性。證明:對于3-(26)式中的,根據(jù)公式3-(23)可知,,3-(28)從而我們的估計值有:3-(29)即證明了估計值的相合性,有。1.1.2漸近正態(tài)性由于現(xiàn)在科技的飛速發(fā)展,數(shù)據(jù)大都呈現(xiàn)出高維度、大樣本的特征,因此在進(jìn)行統(tǒng)計推斷時會有一定的麻煩,由此就出現(xiàn)了大數(shù)定律,也叫漸近正態(tài)性,它是指當(dāng)樣本量趨于無窮大的時候,統(tǒng)計量的估計值是漸近服從于正態(tài)分布,正態(tài)分布的均值與方差分別是估計量的均值與方差。通過分析發(fā)現(xiàn),本文得到的方差估計值也是具有漸近正態(tài)性的。定理2:在滿足假設(shè)2到假設(shè)6的條件下,并且有,3-(30)則在時,有3-(31)其中3-(32)。3-(33)證明:3-(34)3-(35)其中,關(guān)于各部分的計算推導(dǎo)如下,3-(36)3-(37)3-(38)因此估計值的方差可以表示為,3-(39)另外對于其中的分母,因為由2.1節(jié)中的引理2知:,所以3-(40)最終估計值的方差為,3-(41)1.4同時置信區(qū)間基于得到的上面3-(9)式方差估計表達(dá)式,接下來討論同時置信區(qū)間估計,在2.2節(jié)中,我們已經(jīng)介紹了兩種構(gòu)造同時置信區(qū)間的方法,基于前面介紹的方法我們得到了針對本文的兩種同時置信區(qū)間估計,分別是Bonferroni方法和Scheffe方法,總的表達(dá)式是:3-(42)首先是Bonferroni方法,由此得到待預(yù)測m個因變量的同時置信區(qū)間為:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論