版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
Lasso回歸上海師范大學(xué)商學(xué)院授課大綱13.1
lasso回歸預(yù)測(cè)及模型選擇13.2平方根回歸13.3彈性網(wǎng)回歸2025/4/142標(biāo)題Lasso最初是“最小絕對(duì)收縮和選擇算子”(leastabsoluteshrinkageandselectionoperator,LASSO)的首字母縮寫。今天Lasso(套索)被認(rèn)為是一個(gè)詞,而不是首字母縮略詞。Lasso是一種選擇和擬合模型中出現(xiàn)的協(xié)變量的方法。lasso命令可以擬合線性、logit、probit和泊松模型。套索可以用于預(yù)測(cè),用于模型選擇,并作為估計(jì)法的一個(gè)組成部分來(lái)執(zhí)行推論。套索、彈性網(wǎng)和平方根套索可以用于模型選擇和預(yù)測(cè)。Stata軟件的lasso、elasticnet和sqrtlasso命令實(shí)現(xiàn)了這些方法。套索和彈力網(wǎng)擬合連續(xù)、二進(jìn)制和計(jì)數(shù)結(jié)果,而sqrtlasso擬合連續(xù)結(jié)果。2025/4/14413.1lasso回歸預(yù)測(cè)及模型選擇13.1.1lasso回歸估計(jì)13.1.2
最優(yōu)值的確定13.1.3懲罰和后選擇系數(shù)13.1.4lasso回歸預(yù)測(cè)及模型選擇的命令與實(shí)例2025/4/14513.1.1lasso回歸估計(jì)
lasso和elasticnet通過(guò)尋找懲罰目標(biāo)函數(shù)的最小值來(lái)估計(jì)參數(shù)。lasso的懲罰目標(biāo)函數(shù)為:
(13.1)其中N是觀察次數(shù);wi是觀察水平權(quán)重;是截距,是1×p維的協(xié)變量向量;是1×p維的系數(shù)向量,是大于等于0的套索懲罰參數(shù);kj是系數(shù)權(quán)重。2025/4/14613.1.1lasso回歸估計(jì)對(duì)于線性回歸、logit回歸、probit回歸或泊松模型,f(?)是似然貢獻(xiàn);當(dāng)模型為線性回歸時(shí),
(13.2)當(dāng)模型為logit回歸時(shí),(13.3)2025/4/14713.1.1lasso回歸估計(jì)當(dāng)模型為probit回歸時(shí),
(13.4)當(dāng)模型為poisson時(shí),
(13.5)如果指定了cluster(·)選項(xiàng),則對(duì)數(shù)似然度計(jì)算為集群級(jí)別的對(duì)數(shù)似然度之和。2025/4/14813.1.1lasso回歸估計(jì)帶簇套索的懲罰目標(biāo)函數(shù)為
(13.6)式中,是集群總數(shù),Ti是集群i中的觀測(cè)數(shù)量。對(duì)于集群i中的第t個(gè)觀測(cè),
是其觀測(cè)水平權(quán)重,
是因變量,
是協(xié)變量。2025/4/14913.1.2最優(yōu)值的確定要使用lasso,我們需要決定的哪個(gè)值最好。我們將選定的最優(yōu)值表示為。為lasso選擇的四種方法是交叉驗(yàn)證法(cross-validation,CV)、自適應(yīng)套索、插件估計(jì)法和BIC。套索命令有四個(gè)不同選擇的選項(xiàng)方法:selection(cv),selection(adaptive),selection(plugin),selection(bic),和selection(none)。2025/4/1410(1)selection(cv)有兩種變體:一個(gè)是默認(rèn)值,它最小化CV函數(shù)選擇作為最優(yōu)值;另一個(gè)是selection(cv,serule),它在較大方向上的最小值選擇一個(gè)作為一個(gè)標(biāo)準(zhǔn)誤差。2025/4/1411對(duì)應(yīng)每個(gè)估計(jì)系數(shù)后,計(jì)算CV函數(shù)的值。
默認(rèn)情況下,CV將數(shù)據(jù)隨機(jī)分成10個(gè)折疊。(這是隨機(jī)使用數(shù)字。)選擇一個(gè)折疊,然后對(duì)于既定的,使用模型變量對(duì)其他九個(gè)折疊進(jìn)行線性回歸擬合。然后,利用這些新的系數(shù)估計(jì)和所選折疊的數(shù)據(jù),計(jì)算出預(yù)測(cè)的均方誤差(MSE)。這個(gè)過(guò)程是重復(fù)了另外九個(gè)折疊。然后對(duì)10個(gè)折疊的MSE進(jìn)行平均,就得出CV函數(shù)的值。在輸出端,CV函數(shù)被標(biāo)記為CV平均預(yù)測(cè)誤差。2025/4/1412(2)selection(adaptive)適合多個(gè)lasso,通常只有兩個(gè),每個(gè)lasso使用CV。這個(gè)選擇是最后一個(gè)lasso選擇的。(3)selection(plugin)根據(jù)迭代公式選擇。它有兩種變體:默認(rèn)selection(plugin,heteroskedastic)和selection(plugin,homoskedastic)。它被用作實(shí)現(xiàn)推理模型的工具。它不打算用于預(yù)測(cè)。2025/4/1413(4)selection(bic)選擇使BIC最小化的。通過(guò)最小化BIC選擇的將選擇一組接近真實(shí)集的協(xié)變量。(5)selection(none)是先不選擇。之后,可以使用命令lassos-elect選擇。2025/4/141413.1.3懲罰和后選擇系數(shù)為了在套索后得到預(yù)測(cè),我們使用預(yù)測(cè),就像我們使用回歸后預(yù)測(cè)一樣。但是套索之后我們有兩個(gè)選擇。
套索之后,我們可以使用懲罰系數(shù)來(lái)計(jì)算預(yù)測(cè),或者我們可以使用后選擇系數(shù)。實(shí)際上,套索之后有三種類型的系數(shù):標(biāo)準(zhǔn)化,懲罰,以及事后選擇。2025/4/1415Lasso就是找到一個(gè)系數(shù)估計(jì)向量,以使給定取值時(shí),函數(shù):(13.11)最小化。2025/4/141613.1.4lasso回歸預(yù)測(cè)及模型選擇的命令與實(shí)例lasso回歸預(yù)測(cè)及模型選擇的命令為:
lassomodeldepvar[(alwaysvars)]othervars[if][in][weight][,options]model可以是線性、logit、probit或泊松模型之一。alwaysvars是始終包含在模型中的變量。othervars是lasso將選擇包含在模型中或從模型中排除的變量。2025/4/141713.2平方根回歸平方根套索(square-rootlasso,sqrtlasso)是套索的另一個(gè)版本。套索最小化的目標(biāo)函數(shù)為:(13.12)而平方根套索最小化的目標(biāo)函數(shù)為:(13.13)2025/4/141813.2平方根回歸也就是說(shuō),sqrtlasso通過(guò)尋找懲罰目標(biāo)函數(shù)的最小值來(lái)估計(jì)參數(shù)。懲罰目標(biāo)函數(shù)為:
(13.14)式中,默認(rèn)。其他符號(hào)含義同上。2025/4/141913.2平方根回歸如果指定了選項(xiàng)cluster(),則帶有簇的懲罰目標(biāo)函數(shù)為:
(13.15)式中,是簇的總數(shù),Ti是簇i中的觀測(cè)數(shù)。對(duì)于第一類中的第t個(gè)觀察值,wit是其觀察水平權(quán)重,yit是因變量,而則是協(xié)變量。2025/4/1420平方根套索也可以單獨(dú)用于預(yù)測(cè)或模型選擇。為了與lasso保持一致,的默認(rèn)選擇方法是CV。要使用plugin估計(jì)法,要指定選項(xiàng)選擇selection(plugin)。plugin估計(jì)法的計(jì)算式為:(13.16)式中,一般;N是樣本量,是當(dāng)變量xj的系數(shù)為0時(shí),不移除變量xj的概率,p是模型中的候選協(xié)變量的數(shù)量,設(shè)。2025/4/1421平方根套索的Stata命令為:sqrtlassodepvar[(alwaysvars)]othervars[if][in][weight][,options]其中,alwaysvars是始終包含在模型中的變量。othervars是sqrtlasso將選擇包含在模型中或從模型中排除的變量。2025/4/142213.3彈性網(wǎng)回歸彈性網(wǎng)(Elasticnet)回歸的懲罰目標(biāo)函數(shù)為:(13.17)式中,是彈性凈懲罰參數(shù),只能在[0,1]中取值,默認(rèn)取值為0.5,0.75和1。2025/4/142313.3彈性網(wǎng)回歸具有簇的彈性網(wǎng)絡(luò)的懲罰目標(biāo)函數(shù)為:
(13.18)這里我們提供了嶺回歸的方法和公式,這是彈性網(wǎng)的一種特殊情況。與套索和彈性網(wǎng)不同,嶺回歸有一個(gè)可微的目標(biāo)函數(shù),并且目標(biāo)函數(shù)最小化問(wèn)題有一個(gè)封閉形式的解。非線性模型嶺回歸的解是通過(guò)迭代加權(quán)最小二乘法得到的。2025/4/142413.3彈性網(wǎng)回歸通過(guò)極小化下面的目標(biāo)函數(shù),得到廣義線性模型嶺回歸模型的參數(shù)估計(jì)值:(13.19)elasticnet選擇協(xié)變量,并使用elasticnet擬合線性、邏輯、概率和泊松模型。elasticnet的結(jié)果可用于預(yù)測(cè)和模型選擇。elasticnet保存但不顯示估計(jì)系數(shù)。[LASSO]LASSOpostestimation中列出的pos
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年?duì)I業(yè)線施工安全培訓(xùn)試題題庫(kù)(含參考答案)
- 2025年勞務(wù)員之勞務(wù)員專業(yè)管理實(shí)務(wù)考試題庫(kù)及答案
- 鋼筋混凝土住宅施工方案
- 種植業(yè)技術(shù)考核試題及答案
- 2025年第一季度心血管內(nèi)科GCP培訓(xùn)考試題及答案
- 2025年人力資源管理師考試企業(yè)人力資源管理師(四級(jí))試題及答案
- 2025年工地三級(jí)安全教育試題及答案
- 碼頭工程糾紛專用!建設(shè)工程施工合同糾紛要素式起訴狀模板
- 建設(shè)工程施工合同糾紛要素式起訴狀模板(完整版)無(wú)遺漏條款
- 大專生求職面試技巧總結(jié)
- 安全帽使用規(guī)范制度
- 2026國(guó)家電投集團(tuán)蘇州審計(jì)中心選聘15人筆試模擬試題及答案解析
- 2026年桐城師范高等??茖W(xué)校單招職業(yè)技能考試題庫(kù)及答案1套
- 霧化吸入操作教學(xué)課件
- 2025年小學(xué)圖書館自查報(bào)告
- 【語(yǔ)文】廣東省佛山市羅行小學(xué)一年級(jí)上冊(cè)期末復(fù)習(xí)試卷
- 2025年醫(yī)療器械注冊(cè)代理協(xié)議
- 新疆三校生考試題及答案
- 2025新疆亞新煤層氣投資開(kāi)發(fā)(集團(tuán))有限責(zé)任公司第三批選聘/招聘筆試歷年參考題庫(kù)附帶答案詳解
- 圍手術(shù)期心肌梗塞的護(hù)理
- 超市門口鑰匙管理制度
評(píng)論
0/150
提交評(píng)論