2026年大學(xué)統(tǒng)計學(xué)期末考試題庫-抽樣調(diào)查方法與數(shù)據(jù)挖掘試題及答案_第1頁
2026年大學(xué)統(tǒng)計學(xué)期末考試題庫-抽樣調(diào)查方法與數(shù)據(jù)挖掘試題及答案_第2頁
2026年大學(xué)統(tǒng)計學(xué)期末考試題庫-抽樣調(diào)查方法與數(shù)據(jù)挖掘試題及答案_第3頁
2026年大學(xué)統(tǒng)計學(xué)期末考試題庫-抽樣調(diào)查方法與數(shù)據(jù)挖掘試題及答案_第4頁
2026年大學(xué)統(tǒng)計學(xué)期末考試題庫-抽樣調(diào)查方法與數(shù)據(jù)挖掘試題及答案_第5頁
已閱讀5頁,還剩11頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

2026年大學(xué)統(tǒng)計學(xué)期末考試題庫—抽樣調(diào)查方法與數(shù)據(jù)挖掘試題及答案一、單項選擇題(每題2分,共20分)1.在分層抽樣中,若各層樣本量按“層內(nèi)方差越大、樣本越多”的原則分配,則該分配方式稱為A.比例分配B.內(nèi)曼分配C.等額分配D.最優(yōu)分配答案:B解析:內(nèi)曼分配(Neymanallocation)公式為n_h∝N_hS_h,即層內(nèi)方差S_h越大,該層樣本量n_h越多,可使估計量方差最小。2.使用決策樹做分類時,若某節(jié)點純度已無法繼續(xù)提升,則該節(jié)點應(yīng)標(biāo)記為A.根節(jié)點B.內(nèi)部節(jié)點C.葉節(jié)點D.虛擬節(jié)點答案:C解析:純度無法繼續(xù)提升意味著無需再劃分,成為葉節(jié)點并賦予類別標(biāo)簽。3.在簡單隨機抽樣中,若總體大小N=1200,樣本量n=60,則樣本包含概率π_i為A.0.02B.0.05C.0.5D.1答案:B解析:π_i=n/N=60/1200=0.05。4.對高維稀疏文本數(shù)據(jù),下列哪種距離度量最易受“零膨脹”影響而失真A.余弦相似度B.曼哈頓距離C.歐氏距離D.杰卡德距離答案:C解析:歐氏距離在零元素極多時,差異被大量“0”稀釋,導(dǎo)致判別力下降。5.在聚類評估中,若已知真實標(biāo)簽,則可使用A.輪廓系數(shù)B.Calinski-Harabasz指數(shù)C.調(diào)整蘭德指數(shù)(ARI)D.戴維森堡丁指數(shù)答案:C解析:ARI需要外部真實標(biāo)簽,衡量聚類與真實劃分的一致性。6.使用bootstrap估計比率估計量方差時,重抽樣次數(shù)B通常建議A.20B.50C.200D.2000答案:D解析:現(xiàn)代計算條件下B≥2000可使bootstrap方差估計穩(wěn)定。7.在PPS抽樣中,單元入樣概率與輔助變量x_i成比例,若x_i出現(xiàn)極端大值,則可能導(dǎo)致A.估計量方差為零B.估計量偏倚C.設(shè)計效應(yīng)小于1D.某些單元被重復(fù)抽中答案:B解析:極端大值使少數(shù)單元權(quán)重極大,若其y值異常,會放大偏倚。8.隨機森林中,對每棵樹節(jié)點分裂所用候選變量數(shù)mtry,若分類任務(wù)變量總數(shù)p=40,則默認(rèn)mtry為A.2B.6C.20D.40答案:B解析:R語言randomForest默認(rèn)mtry=sqrt(p)=√40≈6。9.在抽樣調(diào)查中,回答率隨問卷長度增加而下降,該現(xiàn)象屬于A.測量誤差B.覆蓋不足C.無回答誤差D.抽樣框誤差答案:C解析:問卷過長導(dǎo)致拒答,屬于無回答誤差來源。10.使用K-means對數(shù)據(jù){x_1,…,x_n}聚類,若初始中心落在同一真實簇內(nèi),則算法可能A.收斂到全局最優(yōu)B.出現(xiàn)空簇C.收斂到局部最優(yōu)D.不收斂答案:C解析:K-means對初值敏感,可能陷入局部最優(yōu)。二、多項選擇題(每題3分,共15分,多選少選均不得分)11.下列哪些技術(shù)可有效降低整群抽樣設(shè)計效應(yīng)A.增大群內(nèi)樣本量B.減少群規(guī)模C.采用事后分層D.使用輔助變量回歸估計答案:BCD解析:減少群規(guī)??山档腿簝?nèi)相關(guān);事后分層與回歸估計可提高精度;增大群內(nèi)樣本量反而可能增加設(shè)計效應(yīng)。12.關(guān)于SMOTE算法,正確的是A.對少數(shù)類隨機插值生成新樣本B.會改變多數(shù)類分布C.可降低過擬合風(fēng)險D.適用于連續(xù)與離散混合變量答案:AC解析:SMOTE僅合成少數(shù)類,不改變多數(shù)類;對離散變量需改進算法如SMOTE-NC。13.在復(fù)雜抽樣設(shè)計中,下列哪些量需通過加權(quán)估計A.總體總量B.總體均值C.回歸系數(shù)D.樣本方差答案:ABC解析:復(fù)雜抽樣需用權(quán)重w_i=1/π_i估計總量、均值及模型參數(shù);樣本方差為描述性統(tǒng)計,不需推斷總體。14.使用LASSO做變量選擇時,增大懲罰參數(shù)λ可導(dǎo)致A.更多變量系數(shù)被壓縮至零B.訓(xùn)練集RSS單調(diào)不減C.測試集預(yù)測誤差一定下降D.模型方差降低答案:ABD解析:λ增大,變量被剔除,訓(xùn)練誤差上升但模型方差下降;測試誤差呈U型,不一定下降。15.在抽樣權(quán)重校準(zhǔn)(calibration)中,可用作輔助信息的變量需滿足A.總體總量已知B.與目標(biāo)變量相關(guān)C.與inclusionprobability獨立D.無測量誤差答案:AB解析:校準(zhǔn)需已知總體總量且與目標(biāo)變量相關(guān),其余非必須。三、判斷題(每題2分,共10分,正確打“√”,錯誤打“×”)16.在拒絕抽樣中,若提案分布g(x)與目標(biāo)分布f(x)形狀差異大,則接受概率低,效率下降。答案:√解析:接受概率α=f(x)/[Mg(x)],形狀差異大導(dǎo)致M需大,α降低。17.使用K-fold交叉驗證時,K越大,偏差一定越小,方差一定越大。答案:×解析:K增大,訓(xùn)練集比例增高,偏差減小,但方差未必單調(diào)增,極端K=n時方差反而高。18.在分層抽樣中,若層界按目標(biāo)變量y的分布劃分,則稱該分層為“事后分層”。答案:×解析:按y劃分屬“最優(yōu)分層”,事后分層指抽樣后利用輔助變量重新分組。19.隨機森林的OOB誤差是訓(xùn)練集的無偏估計,因此可直接代替測試集誤差。答案:×解析:OOB為內(nèi)部估計,雖無偏但仍有波動,不能完全替代獨立測試集。20.對非平衡面板數(shù)據(jù),若采用“完全案例刪除”處理缺失,則可能導(dǎo)致選擇偏倚。答案:√解析:刪除會系統(tǒng)性丟失某些特征樣本,造成參數(shù)估計偏倚。四、簡答題(每題8分,共24分)21.簡述在抽樣調(diào)查中使用“回歸估計”提高精度的原理,并給出總體均值估計量的表達式。答案:回歸估計利用輔助變量x與目標(biāo)變量y的線性關(guān)系,構(gòu)造估計量?_reg=?+β(X?–x?)其中?、x?為樣本均值,X?為總體已知均值,β為樣本回歸系數(shù)。通過消除x?與X?的隨機波動,降低?_reg的方差。若模型設(shè)定正確,方差減少量為β2Var(x?)。22.說明決策樹預(yù)剪枝與后剪枝的差異,并指出哪種在大數(shù)據(jù)環(huán)境下更常用及原因。答案:預(yù)剪枝在生長過程中通過閾值(如最小葉樣本數(shù)、最大深度)提前停止,速度快但可能欠擬合;后剪枝先長成完整樹再自底向上剪去不顯著分支,精度高但計算量大。大數(shù)據(jù)下常用預(yù)剪枝,因后剪枝需存儲整棵樹且遍歷代價高,預(yù)剪枝結(jié)合早期停止可分布式實現(xiàn),節(jié)省內(nèi)存與時間。23.給出“設(shè)計效應(yīng)”(deff)的定義,并解釋為何整群抽樣的deff通常大于1。答案:deff=復(fù)雜抽樣估計量方差/相同樣本量的簡單隨機抽樣方差。整群抽樣中,群內(nèi)單元往往正相關(guān)(ICC>0),導(dǎo)致有效樣本量降低,方差增大,故deff>1。公式deff≈1+(b-1)ρ,其中b為群規(guī)模,ρ為組內(nèi)相關(guān)系數(shù)。五、計算與推導(dǎo)題(共31分)24.(10分)某高校欲估計本科生月均生活費,采用分層抽樣,分大一、大二、大三、大四4層,各層人數(shù)N_h與標(biāo)準(zhǔn)差S_h如下:層h:1234N_h:2000180016001400S_h:260220200180若總樣本量n=400,試按內(nèi)曼分配計算各層樣本量n_h,并給出總均值估計量方差表達式。答案:內(nèi)曼分配n_h=n·(N_hS_h)/Σ(N_hS_h)計算分子:2000×260=5200001800×220=3960001600×200=3200001400×180=252000總和=1488000n_1=400×520000/1488000≈139.8→140n_2=400×396000/1488000≈106.5→107n_3=400×320000/1488000≈86.0→86n_4=400×252000/1488000≈67.7→67總均值估計量?_st=Σ(N_h/N)?_h,其中N=6800方差Var(?_st)=Σ(N_h/N)2(1n_h/N_h)S_h2/n_h代入即可得數(shù)值。25.(10分)給定二維數(shù)據(jù){(x_i,y_i)},i=1…n,證明加權(quán)最小二乘(WLS)估計量β?=(X?WX)?1X?Wy是總體超總體模型E[y]=Xβ的BLUE,并說明權(quán)重矩陣W與抽樣設(shè)計的關(guān)系。答案:模型設(shè)Var(y)=σ2V,V為已知對角陣。令W=V?1,則GLS估計量β?具有Gauss-Markov性質(zhì),方差最小。在抽樣中,若單元方差與inclusionprobability相關(guān),可取w_i=1/(π_iσ2),則W為對角陣,WLS等價于設(shè)計加權(quán)回歸,兼顧抽樣設(shè)計與異方差,故為BLUE。26.(11分)某電商擁有客戶交易數(shù)據(jù),目標(biāo)變量為“是否復(fù)購”?,F(xiàn)采用隨機森林建模,變量含連續(xù)型(近30天消費金額)與分類型(品類偏好)。訓(xùn)練集正負(fù)樣本比例1:9,共50萬條。(1)給出處理類別不平衡的兩種方案并比較優(yōu)劣;(2)若模型在測試集(10萬條)上表現(xiàn):AUC=0.87,F(xiàn)1=0.42,分析可能原因并給出改進措施;(3)解釋為何OOB曲線在樹數(shù)>800后仍波動,并給出穩(wěn)定策略。答案:(1)方案A:欠采樣多數(shù)類至與少數(shù)類平衡,優(yōu)點訓(xùn)練快、內(nèi)存小,缺點丟失大量信息,模型方差高。方案B:SMOTE+ENN,先合成少數(shù)類再清洗邊界,優(yōu)點保留信息、提升召回,缺點可能生成噪聲、計算量大。大數(shù)據(jù)下推薦B,因50萬條下計算可接受,且信息保留充分。(2)AUC高說明排序能力強,F(xiàn)1低反映閾值0.5下精確或召回低。原因:正負(fù)比例懸殊,模型傾向預(yù)測負(fù)類,導(dǎo)致真正例少。改進:調(diào)整閾值至最優(yōu)F1點(如0.2),或采用代價敏感學(xué)習(xí),將假陰性權(quán)重設(shè)為9倍。(3)OOB波動源于高維稀疏及強相關(guān)變量,樹數(shù)增加仍可能因隨機種子差異導(dǎo)致袋外預(yù)測小幅變化。穩(wěn)定策略:增大單棵樹樣本量(降低樹方差),或采用重復(fù)平均:多次運行取OOB均值,或改用cv-error。六、綜合應(yīng)用題(共40分)27.(20分)某市統(tǒng)計局欲估計老舊小區(qū)加裝電梯意愿比例??傮w=1200棟樓,采用二階整群抽樣:第一階段PPS抽取30個小區(qū)(共600棟),第二階段每小區(qū)簡單隨機抽取2棟樓,共60棟。已知:(1)小區(qū)規(guī)模M_i與樓棟意愿比例P_i強相關(guān),ρ≈0.8;(2)第一階段抽取概率π_i∝M_i;(3)調(diào)查獲得棟水平數(shù)據(jù),y_j=1表示愿意,0否則。任務(wù):a)寫出總體比例估計量及其方差估計步驟;b)若樣本比例p?=0.65,估計設(shè)計效應(yīng);c)若預(yù)算允許再增加60棟,比較兩種方案:A.再抽30小區(qū)每區(qū)2棟;B.原30小區(qū)每區(qū)再增2棟。哪種更優(yōu)?答案:a)采用二階PPS+SRS估計量:p?=(ΣΣy_j/(π_iπ_{j|i}))/(ΣΣ1/(π_iπ_{{j|i}}))其中π_i=30M_i/ΣM_i,π_{j|i}=2/M_i。方差用Sen-Yates-Grundy公式:Var?(p?)=Σ_{i<i'}(π_{ii'}-π_iπ_{i'})(t_i/π_it_{i'}/π_{i'})2/(π_{ii'}π_iπ_{i'})+Σ_i(M_ichoose2)?1(12/M_i)Σ_{j<j'}(y_jy_{j'})2/2b)設(shè)計效應(yīng)計算:先按簡單隨機抽樣方差公式Var_SRS=p?(1-p?)/n,再求deff=Var?(p?)/Var_SRS。代入得deff≈2.1,表明整群+PPS使方差翻倍。c)方案A增加新群,可降低群內(nèi)相關(guān)帶來的方差;方案B加深原群,deff幾乎不變。故A更優(yōu),預(yù)計方差減少約30%。28.(20分)某醫(yī)療研究機構(gòu)收集基因表達數(shù)據(jù),維度p=20000,樣本n=800,目標(biāo)預(yù)測癌癥亞型(3類)。采用流程:Step1方差過濾+Wilcoxon檢驗篩至500基因;Step2LASSO多分類(family=multinomial)選變量;Step3用選出的變量訓(xùn)練SVM(RBF核)。交叉驗證平均準(zhǔn)確率僅72%,遠(yuǎn)低于文獻85%。分析潛在問題并給出系統(tǒng)改進方案,要求:(1)指出至少3處技術(shù)缺陷;(2)給出每一步可替換的先進方法并說明理由;(3)給出完整驗證策略避免信息泄露。答案:(1)缺陷:①過濾+Wrapper兩階段選變量導(dǎo)致選擇偏倚,測試信息提前泄露;②高維下Wilcoxon檢驗忽略基因間相關(guān),丟失協(xié)同效應(yīng);③LASSO對多類別分組效應(yīng)處理不足,且未調(diào)α;④SVM未做內(nèi)核參數(shù)調(diào)優(yōu);⑤未考慮樣本不平衡,亞型3僅10%。(2)改進:Step1改用穩(wěn)定性選擇(StabilitySelection)或最小冗余最大相

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論