版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
統(tǒng)計(jì)建模期末考試題(附答案)一、選擇題(每題4分,共20分)1.設(shè)線性模型y=Xβ+ε,其中ε~N(0,σ2I)。若設(shè)計(jì)矩陣X的列向量線性相關(guān),則下列說法正確的是A.最小二乘估計(jì)β?仍唯一B.殘差平方和RSS一定為0C.X?X不可逆D.σ2的極大似然估計(jì)一定為0答案:C解析:列向量線性相關(guān)?rank(X)<p?X?X奇異,故不可逆。A錯(cuò):β?不唯一;B錯(cuò):RSS非負(fù)但一般不為0;D錯(cuò):σ2的MLE為RSS/n,與X是否滿秩無關(guān)。2.在泊松回歸中,若對數(shù)似然函數(shù)為?(β)=∑[y?x??β?exp(x??β)?log(y?!)],則score函數(shù)U(β)為A.∑(y??exp(x??β))x?B.∑(y??x??β)x?C.∑(exp(x??β)?y?)x?D.∑(y??μ?)Σ?1x?答案:A解析:對?(β)求導(dǎo)得U(β)=??/?β=∑(y??exp(x??β))x?,即A。3.對同一數(shù)據(jù)分別建立AIC最小化模型與BIC最小化模型,通常A.AIC模型變量數(shù)≤BIC模型變量數(shù)B.AIC模型變量數(shù)≥BIC模型變量數(shù)C.兩者變量數(shù)一定相等D.無法比較答案:B解析:BIC懲罰更大,傾向于選擇更稀疏模型,故AIC保留更多變量。4.在嶺回歸中,隨著調(diào)節(jié)參數(shù)λ增大,下列說法正確的是A.估計(jì)方差減小、偏差減小B.估計(jì)方差增大、偏差減小C.估計(jì)方差減小、偏差增大D.估計(jì)方差與偏差均不變答案:C解析:λ增大?收縮加劇?方差減小,但參數(shù)被拉向0,偏差增大。5.對時(shí)間序列{y?}建立AR(1)模型y?=φy???+ε?,|φ|>1,則序列A.平穩(wěn)B.可逆C.爆炸非平穩(wěn)D.是隨機(jī)游走答案:C解析:|φ|>1時(shí)特征根在單位圓外,過程方差指數(shù)增長,爆炸非平穩(wěn)。二、填空題(每空3分,共15分)6.給定樣本(x?,y?)????,若用局部加權(quán)回歸LOESS擬合點(diǎn)x?,權(quán)重函數(shù)采用三立方權(quán)w?(u)=((1?|u|3)3)?,其中u=|x??x?|/h,則當(dāng)h→∞時(shí),LOESS估計(jì)趨近于________回歸的估計(jì)。答案:普通線性最小二乘解析:帶寬h→∞時(shí)所有權(quán)重趨同,局部加權(quán)退化為全局等權(quán),即普通最小二乘。7.在廣義加性模型GAM中,若鏈接函數(shù)為logit,響應(yīng)變量為0–1二值,則系統(tǒng)分量g(μ)=log(μ/(1?μ))對應(yīng)的隨機(jī)分量應(yīng)假設(shè)為________分布。答案:二項(xiàng)Binomial解析:logit鏈接與二項(xiàng)分布構(gòu)成典型廣義線性模型配對。8.若隨機(jī)效應(yīng)模型y??=β?+u?+ε??,u?~N(0,σ?2),ε??~N(0,σ2),則組內(nèi)相關(guān)系數(shù)ICC=________。答案:σ?2/(σ?2+σ2)解析:ICC衡量組間方差占總方差比例。9.對高維數(shù)據(jù)p?n,若采用Lasso回歸,則當(dāng)調(diào)節(jié)參數(shù)λ足夠大時(shí),非零系數(shù)個(gè)數(shù)最多為________。答案:n解析:Lasso解路徑中,活躍集大小不超過樣本量n,因設(shè)計(jì)矩陣列滿秩最多n個(gè)線性無關(guān)。10.在Bootstrap置信區(qū)間構(gòu)造中,若采用百分位法,則95%置信區(qū)間對應(yīng)的經(jīng)驗(yàn)分位數(shù)為________與________。答案:2.5%與97.5%解析:直接取Bootstrap估計(jì)量的0.025與0.975分位點(diǎn)。三、推導(dǎo)與計(jì)算題(共65分)11.(12分)考慮線性混合效應(yīng)模型y=Xβ+Zu+ε,其中u~N(0,σ?2I_q),ε~N(0,σ2I_n),且u⊥ε。記V=ZZ?σ?2+I_nσ2。(1)證明邊際分布y~N(Xβ,V)。(2)求廣義最小二乘估計(jì)β?=(X?V?1X)?1X?V?1y的協(xié)方差矩陣。(3)若σ?2=1,σ2=2,Z為n×q的全1向量矩陣,求V?1的顯式表達(dá)式。答案與解析:(1)由線性組合正態(tài)性,Ey=EXβ+ZEu=Xβ;Cov(y)=ZCov(u)Z?+Cov(ε)=σ?2ZZ?+σ2I_n=V。故y~N(Xβ,V)。(2)Cov(β?)=(X?V?1X)?1X?V?1Cov(y)V?1X(X?V?1X)?1=(X?V?1X)?1。(3)此時(shí)ZZ?=J_n(全1矩陣),V=J_n+2I_n。利用Sherman–Morrison–Woodbury:(J_n+2I_n)?1=(2I_n)?1?(2I_n)?1J_n(2I_n)?1/(1+1??(2I_n)?11?)=(1/2)I_n?(1/4)J_n/(1+n/2)=(1/2)I_n?J_n/(2n+4)。12.(13分)對計(jì)數(shù)數(shù)據(jù)建立零膨脹泊松ZIP模型:P(Y=0)=π+(1?π)e^(?λ),P(Y=k)=(1?π)e^(?λ)λ?/k!,k≥1。給定樣本y?,…,y?,其中n?個(gè)零,n?個(gè)非零,總樣本量n=n?+n?。(1)寫出對數(shù)似然函數(shù)?(π,λ)。(2)求λ的EM算法M步更新公式。(3)若n=100,n?=80,Σ_{y?≥1}y?=120,初始λ???=2,π???=0.5,執(zhí)行一次EM迭代后λ?1?=?答案與解析:(1)?(π,λ)=n?log[π+(1?π)e^(?λ)]+n?[log(1?π)?λ]+Σ_{y?≥1}y?logλ?Σ_{y?≥1}log(y?!)。(2)E步:計(jì)算潛變量z?=I(y?=0)的后驗(yàn)期望w?=P(z?=1|y?=0)=π/[π+(1?π)e^(?λ)]。M步:π???1?=(Σw?+Σ(1?z?))/n=(n?w?+0)/n,λ???1?=Σy?/(n?Σw?)。(3)w?=0.5/[0.5+0.5e^(?2)]≈0.5/(0.5+0.067)≈0.881。Σw?=n?w?=80×0.881≈70.5。λ?1?=120/(100?70.5)≈120/29.5≈4.07。13.(15分)考慮分類問題,類別0與1。設(shè)基學(xué)習(xí)器為深度2的決策樹,采用AdaBoost.M1。第t輪樣本權(quán)重為w????,分類器h?(x)∈{0,1},錯(cuò)誤率ε?=Σw????I(y?≠h?(x?))。(1)寫出權(quán)重更新公式。(2)證明當(dāng)ε?<0.5時(shí),被誤分類樣本的新權(quán)重一定增大。(3)若某輪ε?=0.1,求該輪學(xué)習(xí)器權(quán)重α?,并計(jì)算某誤分樣本權(quán)重相對放大倍數(shù)。答案與解析:(1)α?=?log((1?ε?)/ε?);w????1?∝w????exp(?α?y?h?(x?)),歸一化常數(shù)Z?=2√[ε?(1?ε?)]。(2)對誤分樣本y?h?(x?)=?1,故新權(quán)重因子exp(α?)。因ε?<0.5?α?>0?exp(α?)>1,權(quán)重放大。(3)α?=?log(0.9/0.1)=?log9≈1.099。誤分樣本權(quán)重放大倍數(shù)=exp(α?)≈3。14.(12分)對高維線性模型y=Xβ+ε,ε~N(0,σ2I?),p?n??紤]彈性網(wǎng)估計(jì)β?=argmin{‖y?Xβ‖2+λ?‖β‖2+λ?‖β‖?}。(1)給出坐標(biāo)下降更新公式,設(shè)當(dāng)前第j個(gè)參數(shù)為β?,其余固定。(2)若X列標(biāo)準(zhǔn)化,‖x?‖2=1,求λ?,λ?使得在正交設(shè)計(jì)X?X=I下,彈性網(wǎng)解退化為軟閾值公式。(3)解釋λ?>0如何改善分組效應(yīng)。答案與解析:(1)令r?=y?Σ_{k≠j}x?β?,則β?←S((x??r?)/(1+λ?),λ?/(1+λ?)),其中S(z,γ)=sign(z)(|z|?γ)?為軟閾值算子。(2)正交時(shí)x??r?=x??y?β?,代入得β??=S(x??y/(1+λ?),λ?/(1+λ?))。若令λ?=0即得Lasso軟閾值;保持λ?>0仍保持軟閾值形式,但閾值區(qū)間縮小。(3)λ?>0對高度相關(guān)變量施加相同收縮,促使系數(shù)成比例,避免Lasso任意單選,改善分組效應(yīng)。15.(13分)時(shí)空數(shù)據(jù)中,對區(qū)域i=1,…,N時(shí)刻t=1,…,T觀測計(jì)數(shù)y??。提出分層貝葉斯模型:y??~Poisson(E??exp(η??)),η??=α+u?+v?+γ?+δlog(y?,???+1),其中u?~N(0,σ?2)為空間隨機(jī)效應(yīng),v?~N(0,σ?2)為空間結(jié)構(gòu)效應(yīng)(ICAR),γ?~N(0,σ?2)為時(shí)間隨機(jī)游走。(1)寫出聯(lián)合后驗(yàn)核(忽略常數(shù))。(2)給出對σ?2的滿條件分布形式,并指出其共軛先驗(yàn)。(3)若采用R-INLA進(jìn)行推斷,解釋為何無需MCMC即可獲后驗(yàn)邊際。答案與解析:(1)p(α,u,v,γ,δ,σ2|y)∝∏??exp(?E??e^(η??))(E??e^(η??))^{y??}×exp(?∑u?2/(2σ?2))×exp(?∑(v??v??)2/(2σ?2))×exp(?∑(γ??γ???)2/(2σ?2))×p(α)p(δ)p(σ?2)p(σ?2)p(σ?2)。(2)取σ?2~IG(a,b),則滿條件σ?2|…~IG(a+N/2,b+∑u?2/2)。(3)INLA通過拉普拉斯近似對高維潛變量積分,將后驗(yàn)邊際化簡為低維數(shù)值積分,避免MCMC采樣,速度快且精度高。四、綜合應(yīng)用題(共50分)16.(25分)某電商平臺欲預(yù)測用戶次日是否下單(二值響應(yīng))。提取10萬用戶7天滑動窗口特征210維,含瀏覽次數(shù)、加購數(shù)、優(yōu)惠券領(lǐng)取等。數(shù)據(jù)高度稀疏,p=210,n=100000,但非零率僅4%。任務(wù):(1)說明為何不宜直接使用標(biāo)準(zhǔn)邏輯回歸,并提出兩種可行策略。(2)采用GroupLasso按業(yè)務(wù)含義將210維分成30組,每組7維。寫出優(yōu)化目標(biāo)并給出組坐標(biāo)下降步驟。(3)采用5折交叉驗(yàn)證選擇調(diào)節(jié)參數(shù)λ,評估指標(biāo)用AUC。描述并行化實(shí)現(xiàn)細(xì)節(jié),使單核2小時(shí)任務(wù)縮短至10分鐘。(4)若最終模型僅保留18組共126維,訓(xùn)練集AUC=0.812,測試集AUC=0.801。業(yè)務(wù)方認(rèn)為過擬合,提出兩種后處理手段提升穩(wěn)健性,并說明如何不額外采集數(shù)據(jù)實(shí)現(xiàn)。答案與解析:(1)高維稀疏導(dǎo)致X列共線、極大似然估計(jì)不穩(wěn)定,標(biāo)準(zhǔn)邏輯回歸系數(shù)方差爆炸,且計(jì)算Hessian耗時(shí)。策略:a)正則化邏輯回歸(Lasso/ElasticNet);b)先降維(PCA、autoencoder)再建模;c)使用稀疏線性SVM。(2)目標(biāo):min_{β}??(β)+λ∑_{g=1}^{30}√7‖β_g‖?。組坐標(biāo)下降:對第g組,令r=y?X_{?g}β_{?g},β_g←(1?λ√7/‖S_g‖?)?S_g,其中S_g=X_g?(r?1/2)/‖X_g‖2。(3)并行化:將5折分5任務(wù),每任務(wù)再按λ網(wǎng)格分20子任務(wù),共100核并行;使用Spark或Ray框架,內(nèi)存廣播X,y,避免重復(fù)IO;提前計(jì)算Gram矩陣X?X存內(nèi)存,減少冗余計(jì)算。(4)后處理:a)模型平均:對λ路徑top3模型做加權(quán)平均,權(quán)重按CVAUCsoftmax;b)自舉聚合:對訓(xùn)練集100次Bootstrap重采樣,重訓(xùn)100模型,預(yù)測概率平均;c)溫度縮放:用驗(yàn)證集Plattscaling校準(zhǔn)概率,使可靠性曲線更接近對角線。無需新數(shù)據(jù),利用現(xiàn)有驗(yàn)證集完成校準(zhǔn)。17.(25分)某市交通部門建立路段速度預(yù)測模型,數(shù)據(jù)為1年每5分鐘采樣,共288×365=105120條記錄,含120條路段??紤]時(shí)空相關(guān)與天氣假日效應(yīng)。任務(wù):(1)建立向量自回歸VAR(1)模型,寫出方程并說明參數(shù)個(gè)數(shù)。(2)由于p=120較大,采用結(jié)構(gòu)化低秩VAR,即系數(shù)矩陣A分解為A=UV?,U,V∈?^{120×r},r?120。重寫優(yōu)化目標(biāo),并給出交替最小二乘更新公式。(3)引入外生變量矩陣W?∈?^{120×k}(天氣、假日啞變量),擴(kuò)展為VARX(1)模型,說明如何估計(jì)并檢驗(yàn)外生變量顯著性。(4)若實(shí)際部署需在線預(yù)測未來30分鐘(6步),給出滾動預(yù)測流程,并討論如何量化預(yù)測不確定性。答案與解析:(1)y?=c+Ay???+ε?,ε?~N(0,Σ)。參數(shù):c(120)+A(1202)+Σ上三角(120×121/2),共120+14400+7260=21780。(2)目標(biāo):min∑‖y??c?UV?y???‖2_F+λ(‖U‖2_F+‖V‖2_F)。交替更新:固定V,U←(∑(y??c)y????)V(V?∑y???y????V+λI)?1;固定U,V←(∑y???y????)?1∑y???(y??c)?U(U?U+λI)?
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 大冶一中分科考試試卷及答案
- 2025年反腐倡廉知識競賽試題庫(附答案)
- 玉林市模擬考試題及答案
- 醫(yī)藥產(chǎn)品知識產(chǎn)權(quán)考試題及答案
- 2026字節(jié)跳動招聘面試題及答案
- 初三理化試題及答案
- 2026黃河實(shí)驗(yàn)室(河南)招聘5人備考題庫必考題
- 中共涼山州委辦公室2025年面向全州公開選調(diào)所屬事業(yè)單位工作人員的(5人)考試備考題庫附答案
- 中國火箭公司2026校園招聘參考題庫附答案
- 北京市公安局輔警崗位招聘300人備考題庫必考題
- 2025年醫(yī)療機(jī)構(gòu)工作人員廉潔從業(yè)9項(xiàng)準(zhǔn)則心得體會
- 新安全生產(chǎn)法2025完整版
- (已壓縮)國民體質(zhì)測定標(biāo)準(zhǔn)(2023年修訂)
- 施工機(jī)具安全檢查記錄表
- 患者發(fā)生跌倒墜床應(yīng)急預(yù)案演練記錄總結(jié)
- 農(nóng)村土地承包經(jīng)營權(quán)的合作開發(fā)協(xié)議
- 富斯遙控器FS-i6說明書
- 腸脂垂炎的超聲診斷與臨床管理
- 行業(yè)特定市場調(diào)研方法與技巧分享
- 護(hù)理翻身叩背課件
- 旅游包車合同協(xié)議書范本
評論
0/150
提交評論