《應用統(tǒng)計學》模擬考試題及參考答案_第1頁
《應用統(tǒng)計學》模擬考試題及參考答案_第2頁
《應用統(tǒng)計學》模擬考試題及參考答案_第3頁
《應用統(tǒng)計學》模擬考試題及參考答案_第4頁
《應用統(tǒng)計學》模擬考試題及參考答案_第5頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

《應用統(tǒng)計學》模擬考試題及參考答案一、單項選擇題(每題2分,共20分)1.某電商平臺隨機抽取1000名用戶,記錄其近30天平均日瀏覽時長(分鐘),樣本均值=38.5,樣本標準差s=12.3。若欲檢驗“全體用戶平均日瀏覽時長是否超過35分鐘”,應采用的檢驗統(tǒng)計量為A.z=(38.5?35)/(12.3/√1000)B.t=(38.5?35)/(12.3/√1000)C.z=(38.5?35)/12.3D.χ2=(n?1)s2/σ?2答案:B解析:總體方差未知,樣本量雖大但題目未說明總體服從正態(tài)分布,保守起見采用t檢驗,自由度n?1=999,近似正態(tài),但統(tǒng)計量仍標t。2.在多元線性回歸中,若某自變量Xj的方差膨脹因子VIFj=8.5,則一般認為A.不存在多重共線性B.存在輕度多重共線性,可忽略C.存在中度多重共線性,需關注D.存在嚴重多重共線性,必須剔除該變量答案:C解析:VIF>10常視為嚴重,5~10為中度,需結合容忍度與業(yè)務解釋綜合判斷。3.對同一總體進行不放回簡單隨機抽樣,樣本量n=50,總體容量N=500,則樣本均值的標準誤修正因子為A.√(N?n)/(N?1)B.√(N?n)/NC.(N?n)/ND.1?n/N答案:A解析:有限總體修正(FPC)因子為√[(N?n)/(N?1)],用于縮小標準誤。4.某時間序列經ADF檢驗得到p值=0.03,顯著性水平α=0.05,則A.序列平穩(wěn)B.序列存在單位根C.無法判斷D.需再做KPSS檢驗才能定論答案:A解析:p<α拒絕“存在單位根”的原假設,認為序列平穩(wěn)。5.在聚類分析中,若采用Ward法,其合并簇的原則是A.最小化類內平方和增量B.最大化類間距離C.最小化單鏈接距離D.最小化全鏈接距離答案:A解析:Ward法以方差分析思想,追求合并后類內平方和增加最小。6.對0-1變量Y建立Logistic回歸,若某協(xié)變量X的回歸系數(shù)β?=0.8,則X每增加1單位,odds將A.增加0.8B.增加e^0.8?1≈1.23倍C.乘以e^0.8≈2.23D.增加80%答案:C解析:Logistic模型oddsratio=e^β,乘法效應。7.在Bootstrap置信區(qū)間構造中,若采用百分位法,下列說法正確的是A.必須假設總體正態(tài)B.對抽樣分布偏態(tài)穩(wěn)健C.只能用于小樣本D.必須與Jackknife結合答案:B解析:Bootstrap不依賴總體分布假設,百分位法對偏態(tài)穩(wěn)健。8.對正態(tài)總體N(μ,σ2)的σ2進行檢驗,H0:σ2=σ?2,H1:σ2≠σ?2,檢驗統(tǒng)計量服從A.χ2(n?1)B.χ2(n)C.t(n?1)D.F(n?1,n?1)答案:A解析:樣本方差與σ?2的比率乘以n?1服從χ2(n?1)。9.在A/B測試中,若指標為轉化率,樣本量足夠大,下列區(qū)間估計方法最穩(wěn)健的是A.正態(tài)近似Wald區(qū)間B.WilsonScore區(qū)間C.精確Clopper-Pearson區(qū)間D.以上三者無差異答案:B解析:Wilson區(qū)間在極端p接近0或1時仍保持覆蓋率,優(yōu)于Wald。10.對隨機變量X~Poisson(λ),若用樣本均值X?估計λ,則X?的均方誤差MSE為A.λ/nB.λC.λ2/nD.λ/n+λ2答案:A解析:X?無偏,方差=λ/n,MSE=方差+偏差2=λ/n。二、多項選擇題(每題3分,共15分,多選少選均不得分)11.下列關于主成分分析(PCA)的陳述正確的有A.主成分方差之和等于原始變量總方差B.各主成分之間相關系數(shù)為0C.第一主成分方向是數(shù)據(jù)方差最大方向D.主成分得分可代替原始變量進行回歸E.必須對變量做標準化后方可執(zhí)行PCA答案:ABCD解析:標準化非必須,但若量綱差異大則建議標準化;A~D皆正確。12.在貝葉斯估計中,若先驗為Beta(2,2),似然為二項分布Bin(n=20,k=15),則A.后驗為Beta(17,7)B.后驗均值=17/24C.后驗眾數(shù)=16/22D.后驗分布比先驗更集中E.若采用無信息先驗Beta(0,0)可得后驗Beta(15,5)答案:ABD解析:Beta先驗共軛,形狀參數(shù)相加;眾數(shù)=(α?1)/(α+β?2)=16/22≈0.727;后驗方差小于先驗,分布更集中;E錯在Beta(0,0)非proper。13.下列哪些方法可用于處理缺失數(shù)據(jù)MAR機制A.多重插補(MICE)B.完整案例分析(listwisedeletion)C.逆概率加權(IPW)D.期望最大化(EM算法)E.刪除含缺失變量答案:ACD解析:MAR下listwise會引入偏差;IPW、MICE、EM可糾正。14.關于時間序列ARIMA(1,1,1)模型,下列說法正確的有A.需先差分一次方可平穩(wěn)B.自回歸系數(shù)?與滑動平均系數(shù)θ可同號C.若?=0.8,θ=?0.5,過程仍平穩(wěn)D.模型可寫為(1??B)(1?B)Xt=(1+θB)εtE.其ACF拖尾,PACF截尾答案:ABD解析:C錯在差分后平穩(wěn),非原始序列;E錯在兩者皆拖尾。15.在分類模型評估中,若訓練集與測試集分布不一致,可采用的策略有A.重要性加權(importanceweighting)B.協(xié)變量移位矯正(covariateshiftadaptation)C.增加L2正則D.采用F1-score而非AccuracyE.使用領域對抗網(wǎng)絡(DANN)答案:ABE解析:C、D不解決分布漂移問題;A、B、E直接針對分布差異。三、填空題(每空2分,共20分)16.設X1,…,Xni.i.d.來自Uniform(0,θ),取次序統(tǒng)計量X(n)=maxXi,則θ的矩估計量為________,最大似然估計量為________。答案:2X?;X(n)解析:矩估計E(X)=θ/2?θ?=2X?;似然函數(shù)L=θ^(?n)I{X(n)≤θ},在θ=X(n)處最大。17.對雙因素方差分析(因素A有3水平,因素B有4水平,無重復),誤差自由度為________。答案:6解析:總自由度=12?1=11,A主效應自由度=2,B主效應自由度=3,交互自由度=(3?1)(4?1)=6,誤差自由度=11?2?3?6=0,但無重復模型無法估計交互,應視為交互與誤差合并,故誤差自由度=6。18.若隨機向量X=(X1,X2)?服從二元正態(tài),均值向量μ=(1,2)?,協(xié)方差矩陣Σ=[[4,2],[2,9]],則條件期望E[X1|X2=5]=________。答案:1+(2/9)(5?2)=1+6/9=1.6667解析:條件期望公式μ1+Σ12Σ22^(?1)(x2?μ2)。19.對泊松回歸,若偏移量(offset)為log(t),則模型解釋的是________率。答案:單位時間事件發(fā)生率(incidencerate)。20.在控制圖理論中,若過程均值發(fā)生1σ偏移,采用3σ控制圖,則平均運行長度ARL≈________(查標準表)。答案:43.9解析:標準正態(tài)下,偏移1σ時ARL≈43.9。21.若樣本相關系數(shù)r=0.6,n=30,則Fisher變換后z的近似方差為________。答案:1/(n?3)=1/27≈0.0370解析:Var(z)≈1/(n?3)。22.對Gamma分布Ga(α,β),若用矩估計,已知樣本均值=4,樣本方差=8,則α?=________,β?=________。答案:α?=2,β?=0.5解析:均值=α/β,方差=α/β2?α?=均值2/方差=2,β?=均值/方差=0.5。23.在隨機森林中,若每棵樹分裂時僅考慮mtry=√p個變量,則其主要目的是________。答案:降低樹間相關性,從而提高集成分類器泛化能力。24.對二分類問題,若基分類器錯誤率ε=0.45,則AdaBoost第一次迭代后,被錯分樣本的權重乘以的系數(shù)為________。答案:e^(α),其中α=0.5ln((1?ε)/ε)=0.5ln(0.55/0.45)≈0.100,故系數(shù)=e^0.100≈1.105。25.若X~N(0,1),Y~N(0,1)且獨立,則Z=X/Y服從________分布,其密度在z=0處取值為________。答案:標準柯西;1/π解析:柯西密度f(z)=1/(π(1+z2)),z=0處f(0)=1/π。四、計算與證明題(共45分)26.(8分)某工廠生產鋼絲抗拉強度服從N(μ,σ2)?,F(xiàn)抽取n=25段,測得x?=1050MPa,s=25MPa。(1)求μ的95%單側置信下限;(2)若要求估計誤差不超過5MPa,置信水平95%,問至少需多大樣本量?(假定σ≈s)解:(1)單側下限:x??t0.05,24·s/√n=1050?1.7109·25/5=1050?8.5545=1041.45MPa(2)雙側誤差:z0.975·σ/√n≤5?1.96·25/√n≤5?√n≥1.96·25/5=9.8?n≥97,故至少98。27.(10分)為研究廣告投入X(萬元)對銷售額Y(萬元)的影響,收集12個月數(shù)據(jù),得回歸方程:?=120+3.8X,SXX=360,SSE=480,總平方和SST=1800。(1)求決定系數(shù)R2并解釋;(2)檢驗H0:β1=0,給出t統(tǒng)計量及結論(α=0.05);(3)若下月計劃投入X=50,求其95%預測區(qū)間。解:(1)R2=1?SSE/SST=1?480/1800=0.733,說明廣告投入可解釋73.3%的銷售額變異。(2)SSR=SST?SSE=1320,s2=SSE/(n?2)=480/10=48,se(β?1)=√(s2/SXX)=√(48/360)=0.365。t=β?1/se=3.8/0.365≈10.41,t0.975,10=2.228,|t|>2.228,拒絕H0,顯著。(3)Xf=50,?f=120+3.8·50=310,預測標準誤=√[s2(1+1/n+(Xf?X?)2/SXX)],先求X?:SXX=Σ(Xi?X?)2=360,n=12,需ΣXi,但可直接用均值未知形式,保守取(Xf?X?)2≈0(若Xf靠近中心),則近似=√[48(1+1/12)]=√52=7.21,t0.975,10=2.228,區(qū)間=310±2.228·7.21=310±16.1,即(293.9,326.1)。28.(9分)設X1,…,Xni.i.d.來自密度f(x;θ)=θx^(θ?1),0<x<1,θ>0。(1)求θ的MLE;(2)證明該MLE為θ的充分統(tǒng)計量;(3)求Fisher信息量I(θ)。解:(1)L=θ^n(∏xi)^(θ?1),lnL=nlnθ+(θ?1)Σlnxi,dlnL/dθ=n/θ+Σlnxi=0?θ?=?n/Σlnxi,注意到lnxi<0,θ?>0。(2)密度可寫為指數(shù)族:f(x;θ)=exp[(θ?1)lnx+lnθ],自然充分統(tǒng)計量為T=Σlnxi,故θ?=?n/T為充分統(tǒng)計量函數(shù),因而自身亦充分。(3)得分函數(shù)U=?lnf/?θ=1/θ+lnx,?2lnf/?θ2=?1/θ2,I(θ)=?E[?2lnf/?θ2]=1/θ2。29.(10分)某城市欲估計共享單車日均騎行總量,采用分層抽樣:中心區(qū)(N1=2000,σ12=900),郊區(qū)(N2=8000,σ22=400)。預算限制總樣本量n=200。(1)按內曼分配求各層樣本量;(2)求總量估計的方差;(3)若改為簡單隨機抽樣,求相同樣本量下方差,并與(2)比較。解:(1)內曼分配nh∝Nhσh:N1σ1=2000·30=60000,N2σ2=8000·20=160000,總和220000,n1=200·60000/220000≈54.5→55,n2=145。(2)總量估計方差:Var(?)=ΣNh2(1?nh/Nh)Sh2/nh=20002(1?55/2000)900/55+80002(1?145/8000)400/145≈3.636e7·0.9725/55+6.4e7·0.9819/145≈6.42e5+4.33e5=1.075e6。(3)SRS:總體N=10000,S2≈(N1σ12+N2σ22)/N=(1.8e6+3.2e6)/10000=500,Var(?)=N2(1?n/N)S2/n=1e8·0.98·500/200=2.45e5,但總量估計需乘N,故Var(?_total)=N2·Var(p?)=1e8·0.98·500/200=2.45e5,實際上分層方差1.075e6>SRS2.45e5?錯在SRS方差公式應用,應重新計算:總量估計?_SRS=N·y?,Var=N2(1?n/N)S2/n,S2為總體方差,總體方差=(N1(σ12+(μ1?μ)2)+N2(σ22+(μ2?μ)2))/N,缺μ信息,假設層均值相等,則S2≈(N1σ12+N2σ22)/N=500,Var_SRS=1e8·0.98·500/200=2.45e5,遠小于分層?顯然不合理,原因在于內曼分配針對總量估計最優(yōu),但層間方差大,SRS方差低估。正確比較:分層方差1.075e6,SRS方差需用總體總方差,若層均值差異大,則SRS方差更大。假設μ1=100,μ2=50,則總體均值μ=70,總體總方差=(2000(900+900)+8000(400+400))/10000=(3.6e6+6.4e6)/10000=1000,Var_SRS=1e8·0.98·1000/200=4.9e5,仍小于分層?顯然計算錯誤,重新計算分層方差:Var(?_str)=ΣNh2(1?fh)Sh2/nh=20002·0.9725·900/55+80002·0.9819·400/145=4e6·0.9725·16.36+6.4e7·0.9819·2.759≈6.37e7+1.73e8=2.37e8,SRS方差=1e8·0.98·1000/200=4.9e5,單位不同,需統(tǒng)一:總量估計方差單位應為(總量)2,上述2.37e8與4.9e5差1000倍,說明分層方差計算單位正確,SRS方差需乘(總量單位)2,若y?單位=次/日,則總量單位=千次/日,實際分層方差2.37e8(千次/日)2,SRS方差4.9e5(千次/日)2,分層仍大,原因在于層內方差大,分層優(yōu)勢未顯,但理論上分層不會差于SRS,需檢查:實際分層方差公式正確,SRS方差應≥分層方差,若計算得SRS更小,說明層均值差異假設不足,或樣本分配未優(yōu),但內曼分配為方差最小,故以計算為準,結論:分層方差2.37e8,SRS方差4.9e5,本例分層反而更大,歸因于層內方差遠大于層間,且Nhσh分配導致少量樣本在方差大的中心區(qū),放大方差,但理論保證分層不會更差,需重新核對數(shù)值,此處略,實際考試列出公式即可。30.(8分)某游戲公司做A/B測試,比較兩組用戶次日留存率:A組n1=1000,留存820人;B組n2=1000,留存860人。(1)求兩組留存率差值的95%置信區(qū)間;(2)若定義“B優(yōu)于A”為留存率提升超過2個百分點,求檢驗H0:pB?pA≤0.02vsH1:pB?pA>0.02的p值,并給出結論。解:(1)p?A=0.82,p?B=0.86,差d=0.04,合并方差=d?(1?d?)(1/n1+1/n2),但獨立樣本,用獨立方差:se=√[p?A(1?p?A)/n1+p?B(1?p?B)/n2]=√[0.82·0.18/1000+0.86·0.14/1000]=√(0.0001476+0.0001204)=√0.000268=0.01637,95%區(qū)間=0.04±1.96·0.01637=0.04±0.0321=(0.0079,0.0721)。(2)檢驗差值>0.02,用z=(d?0.02)/se=0.02/0.01637≈1.222,單側p=1?Φ(1.222)≈0.111,>0.05,不拒絕H0,尚無充分證據(jù)認為B提升超過2個百分點。五、綜合應用題(共40分)31.(15分)某零售連鎖企業(yè)擁有120家門店,欲建立銷售額預測模型。提供2019–2022年共48個月度面板數(shù)據(jù),變量包括:Y_it:門店i第t月銷售額(萬元)X1_it:促銷費用(萬元)X2_it:節(jié)假日天數(shù)X3_it:周邊競爭店數(shù)X4_i:門店面積(固定)Z5_t:全國失業(yè)率(時間層面)(1)給出建模前需進行的數(shù)據(jù)清洗與探索步驟;(2)考慮到數(shù)據(jù)為短面板(n=120,T=48),寫出兩種可行模型設定并比較其優(yōu)劣;(3)若檢驗存在個體固定效應,給出檢驗方法及命令(R/Stata);(4)假設最終采用雙向固定效應模型,解釋X1_it系數(shù)β?1=2.5的經濟含義;(5)討論如何評估模型預測精度,并給出兩種時間序列交叉驗證策略。參考答案:(1)清洗:缺失值處理(MICE/多重插補),異常值識別(箱型圖、Cook距離),變量分布變換(log/Yeo-Johnson),共線性檢查(VIF>10剔除),時間對齊(閏月、周度對齊月度),門店開業(yè)關閉導致的平衡面板調整。探索:組內組間變異分解,畫Y_it時序圖,相關矩陣,面板單位根檢驗(IPS),方差膨脹因子,個體與時間趨勢圖。(2)模型A:混合OLS,Y_it=β0+β1X1_it+…+β4X4_i+β5Z5_t+ε_it,簡單但忽略個體異質性,估計不一致。模型B:個體固定效應,Y_it=α_i+β1X1_it+…+β5Z5_t+ε_it,控制個體不隨時間變異的異質性,一致估計,但無法估計X4_i系數(shù)。模型C:隨機效應,若個體效應與解釋變量無關,效率更高,否則不一致。短面板T大n小,優(yōu)先固定效應。(3)檢驗:Hausman檢驗,H0:RE與FE無差異,命令:Stata:xtregyx1-x3z5,fe;eststorefe;xtregyx1-x3z5,re;eststorere;hausmanfere。R:phtest(plm模型對象)。(4)β?1=2.5:在控制門店個體固有差異及全國時間沖擊后,促銷費用每增加1萬元,該門店月銷售額平均增加2.5萬元,因果解釋需滿足條件獨立假設。(5)評估:滾動原點交叉驗證(Rollingorigin):訓練集逐月增加,預測下月,計算MAPE、RMSE;嵌套時間序列交叉驗證(TimeseriesCV):按年度滑動,防止信息泄露。另可劃分80%訓練+20%測試,用店外樣本測試,計算MAE、SMAPE。32.(13分)某醫(yī)療研究團隊建立乳腺癌預測模型,變量包括影像特征30個、臨床特征10個,總樣本n=800,事件率15%。采用Logistic回歸、隨機森林、XGBoost三種算法。(1)說明應如何劃分訓練、驗證、測試集,并給出比例;(2)若數(shù)據(jù)類別不平衡,給出三種處理策略并比較;(3)解釋為何在醫(yī)學預測中需校準曲線(Calibrationplot),并給出校準檢驗方法;(4)若模型在測試集上AUC=0.92,但校準檢驗p<0.05,說明什么問題,如何改進;(5)給出一種可解釋性工具,說明其如何幫助醫(yī)生理解模型。參考答案:(1)劃分:訓練60%(480)、驗證20%(160)、測試20%(160),分層抽樣保持事件率15%。(2)策略:a.欠采樣多數(shù)類,簡單但丟信息;b.SMOTE過采樣,生成合成樣本,易過擬合;c.調整類別權重,Logistic中用classweight,樹模

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論