2025年統(tǒng)計與數據分析基礎期末考試題及答案_第1頁
2025年統(tǒng)計與數據分析基礎期末考試題及答案_第2頁
2025年統(tǒng)計與數據分析基礎期末考試題及答案_第3頁
2025年統(tǒng)計與數據分析基礎期末考試題及答案_第4頁
2025年統(tǒng)計與數據分析基礎期末考試題及答案_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

2025年統(tǒng)計與數據分析基礎期末考試題及答案一、單項選擇題(每題2分,共20分)1.設隨機變量X~N(A.0.90??B.0.95??C.0.975??D.0.99答案:B解析:標準正態(tài)分布雙側95%置信區(qū)間對應臨界值1.96,故P(2.在簡單隨機抽樣中,樣本均值Xˉ的抽樣分布隨著樣本量nA.方差增大??B.方差減小??C.均值增大??D.均值減小答案:B解析:由Var(3.對一組右偏數據取對數后,其偏度將A.增大??B.減小??C.不變??D.無法判斷答案:B解析:對數變換可壓縮右側長尾,降低偏度。4.若兩變量X,A.兩者獨立??B.兩者無線性關系??C.兩者無單調關系??D.兩者無協(xié)方差答案:B解析:皮爾遜相關系數僅度量線性關系,0僅說明不存在線性相關。5.在假設檢驗中,增大顯著性水平α會導致A.第一類錯誤概率減小??B.第二類錯誤概率減小??C.檢驗功效減小??D.臨界值變大答案:B解析:α增大,拒絕域擴大,β(第二類錯誤概率)減小,功效1?6.對p維數據做主成分分析,若前兩個主成分累計貢獻率達92%,則A.只需保留兩個主成分即可無損重構原始數據??B.信息損失約8%??C.第三主成分方差為0??D.原始變量間必無相關性答案:B解析:累計貢獻率92%表示信息損失8%。7.在多元線性回歸中,若某自變量的方差膨脹因子VIF=15,則A.該變量與響應變量無關??B.存在嚴重多重共線性??C.該變量系數顯著為0??D.該變量應被刪除答案:B解析:VIF>10通常視為強共線性信號。8.對計數數據擬合泊松回歸時,若殘差偏差/自由度遠大于1,則首要考慮A.增加樣本量??B.改用負二項回歸??C.刪除異常點??D.對響應變量取對數答案:B解析:過離散現象提示泊松假設不成立,負二項可引入額外離散參數。9.在時間序列中,若ACF拖尾、PACF在滯后2后截尾,則初步判定為A.AR(2)??B.MA(2)??C.ARMA(2,1)??D.ARIMA(0,2,0)答案:A解析:PACF截尾對應AR階數。10.Bootstrap置信區(qū)間的覆蓋率最接近名義水平的情況是A.樣本量極小且分布高度偏斜??B.樣本量極大且分布對稱??C.使用百分位區(qū)間??D.使用反切區(qū)間答案:B解析:大樣本下bootstrap分布逼近真實抽樣分布,對稱分布進一步提升區(qū)間精度。二、多項選擇題(每題3分,共15分,多選少選均不得分)11.下列哪些統(tǒng)計量具有穩(wěn)健性(對異常值不敏感)A.中位數??B.MAD??C.四分位距??D.算術均值??E.截尾均值答案:ABCE解析:算術均值對異常值敏感。12.關于t分布與標準正態(tài)分布,下列說法正確的是A.t分布峰度大于正態(tài)??B.自由度越大越接近正態(tài)??C.t分布尾部更厚??D.兩者均值均為0??E.兩者方差均為1答案:BCD解析:t方差為ν/(ν13.在分類問題中,下列哪些指標適用于類別不平衡數據A.Accuracy??B.F1-score??C.AUC??D.Precision??E.Recall答案:BCDE解析:Accuracy易被多數類主導。14.下列哪些方法可用于缺失值插補A.均值插補??B.熱卡插補??C.EM算法??D.多重插補??E.刪除含缺失行答案:ABCD解析:E為列表刪除,非插補。15.在貝葉斯框架下,下列哪些屬于后驗推斷內容A.后驗均值??B.可信區(qū)間??C.最大似然估計??D.貝葉斯因子??E.MAP估計答案:ABDE解析:MLE僅基于似然,非后驗。三、填空題(每空2分,共20分)16.設,…,~ii答案:1解析:總體一階矩E(17.在線性模型Y=Xβ答案:(18.若隨機變量X的偏度為0、峰度為3,則其分布必為__________分布。答案:正態(tài)19.對n=100的樣本,計算樣本比例答案:=20.在K-means聚類中,若簇內平方和(WCSS)隨聚類數k增加而__________,則肘部法則可用于選擇最優(yōu)k。答案:單調遞減21.設X~Bin(答案:泊松22.若ARIMA(1,1,1)模型經一階差分后變?yōu)槠椒€(wěn),則原序列的階數為__________。答案:123.在假設檢驗中,若p值為0.027,則在α=答案:拒絕24.對多元數據做標準化后,所有變量的均值變?yōu)開_________,標準差變?yōu)開_________。答案:0;125.在隨機森林中,對分類問題投票階段采用__________規(guī)則決定最終類別。答案:多數表決四、計算與證明題(共45分)26.(8分)設,…f(1)寫出對數似然函數l((2)求θ的最大似然估計θ^(3)計算Fisher信息量I(答案:(1)l(2)令導數為0:=(3)=27.(10分)某電商平臺欲估計用戶日均瀏覽時長(分鐘)。隨機抽取64名用戶,得樣本均值118min,樣本標準差32min。(1)構建總體均值的95%置信區(qū)間;(2)若希望估計誤差不超過5min,在95%置信水平下至少需要多大樣本量?答案:(1)118(2)n28.(9分)對二元響應變量建立邏輯回歸l其中為連續(xù)協(xié)變量。現有200個觀測,得=0.82,SE(1)檢驗:=(2)計算優(yōu)勢比OR的95%置信區(qū)間;(3)解釋x每增加1單位,優(yōu)勢如何變化。答案:(1)W(2)O(3)優(yōu)勢增加約127%。29.(8分)設,…,~ii:給出檢驗統(tǒng)計量及拒絕域(顯著性水平α)。答案:似然比Λ其中=∑(??在下,?2lnΛ≈30.(10分)某城市交通流量(萬輛/日)序列為,…,。擬合ARIMA(0,1,1)后得殘差,其ACF與Ljung-Box統(tǒng)計量Q(1)在α=(2)若否,給出下一步改進方案;(3)寫出ARIMA(0,1,1)的預測公式(一步向前)。答案:(1)(12)=(2)已滿足,無需改進;若顯著,可考慮增加AR或MA階數。(3)=五、綜合應用題(共40分)31.(15分)為研究廣告投入(萬元)對銷售額(萬元)的影響,收集30個月度數據,擬合多元線性回歸Y其中為電視廣告,為網絡廣告,為紙質媒體。輸出如下:變量估計標準誤\(t\)值\(\mathrm{VIF}\)截距12.43.14.0—電視2.150.425.11.8網絡1.760.384.62.0紙質0.920.511.87.5殘差標準誤σ^=4.3,=(1)檢驗整體顯著性(α=(2)判斷是否存在多重共線性,并說明依據;(3)若下月預算增加5萬元電視、3萬元網絡、減少1萬元紙質,預測銷售額及95%置信區(qū)間;(4)給出改進模型的一條建議并說明理由。答案:(1)整體F檢驗:F拒絕,模型整體顯著。(2)紙質媒體VIF=7.5>5,提示中度共線性;電視、網絡VIF可接受。(3)增量向量ΔxΔ原均值Yˉ12.4+標準誤S95%置信區(qū)間27.91(4)可對紙質廣告做嶺回歸或主成分回歸,以降低共線性帶來的系數不穩(wěn)定。32.(13分)某工廠質檢抽取10件產品,測得缺陷數:0,2,1,0,3,1,0,2,1,0。假設缺陷數服從泊松分布。(1)計算λ的矩估計;(2)構造λ的95%漸近置信區(qū)間;(3)用卡方擬合優(yōu)度檢驗判斷泊松假設是否成立(α=答案:(1)樣本均值xˉ=1.0(2)S(3)分組:x=0(4次),x=1(3次),=合并末組使期望≥5,將x=2與x≥3卡方統(tǒng)計量=自由度3?1?1=33.(12分)為評估兩種推薦算法A、B的點擊率(CTR),隨機分配1000名用戶,各500人。結果:算法A:點擊65次,曝光500;算法B:點擊45次,曝光500。(1)構建兩總體CTR差值的95%置信區(qū)間;(2)用卡方檢驗判斷CTR是否顯著不同(

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論