版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
2025年生物統(tǒng)計學數(shù)據(jù)分析方法考試卷及答案解析一、單項選擇題(每題2分,共20分)1.在正態(tài)總體方差未知且樣本量n=16的條件下,欲檢驗總體均值μ是否等于某給定值μ?,應(yīng)采用的檢驗統(tǒng)計量為A.Z=(x??μ?)/(σ/√n)B.t=(x??μ?)/(s/√n)C.χ2=(n?1)s2/σ?2D.F=s?2/s?2答案:B解析:總體方差未知且樣本量小,必須采用t分布,故選B。2.對同一批小鼠連續(xù)5天測量體重,若欲比較兩種飼料對體重增長曲線的影響,最合適的分析策略是A.獨立樣本t檢驗B.單因素方差分析C.重復測量方差分析D.KruskalWallis檢驗答案:C解析:同一批個體多次測量,數(shù)據(jù)間存在相關(guān)性,需用重復測量ANOVA。3.在多重線性回歸中,若某自變量Xj的方差膨脹因子VIF=8.5,則通常認為A.不存在多重共線性B.存在輕度多重共線性C.存在嚴重多重共線性D.無法判斷答案:C解析:VIF>10為嚴重共線,8.5已接近閾值,視為嚴重。4.對二分類響應(yīng)變量Y(0/1)建立邏輯回歸,若某連續(xù)自變量X的OR=1.00(95%CI:0.99–1.01),則下列說法正確的是A.X對Y無影響B(tài).X對Y有顯著正向影響C.置信帶包含1,說明無統(tǒng)計學意義D.需進一步做ROC曲線答案:C解析:OR置信區(qū)間包含1,P值>0.05,無統(tǒng)計學意義。5.在生存分析中,若KaplanMeier曲線出現(xiàn)交叉,則A.仍可用logrank檢驗B.logrank檢驗功效降低,應(yīng)考慮加權(quán)檢驗C.應(yīng)立即改用Cox回歸D.說明數(shù)據(jù)存在測量誤差答案:B解析:曲線交叉提示風險比非恒定,logrank對晚期差異不敏感,可用FlemingHarrington加權(quán)檢驗。6.對RNAseq計數(shù)資料進行差異表達分析時,普遍采用的歸一化方法是A.TPMB.FPKMC.DESeq2中的sizefactorsD.Zscore答案:C解析:DESeq2的sizefactors基于中位數(shù)比率,能有效消除庫容差異,為差異分析首選。7.若隨機區(qū)組設(shè)計實驗的區(qū)組因素與處理因素存在交互效應(yīng),但統(tǒng)計分析時誤用無交互項的模型,則A.誤差項自由度增加B.處理效應(yīng)檢驗可能產(chǎn)生I型錯誤膨脹C.區(qū)組效應(yīng)估計無偏D.只需事后多重比較即可答案:B解析:交互效應(yīng)被并入誤差,導致誤差方差高估或低估,處理效應(yīng)檢驗不可靠。8.在貝葉斯統(tǒng)計框架下,若先驗分布為Beta(1,1),似然為二項分布Bin(n=20,k=15),則后驗分布為A.Beta(15,5)B.Beta(16,6)C.Beta(14,6)D.Beta(15,6)答案:B解析:Beta先驗共軛,后驗為Beta(1+15,1+5)=Beta(16,6)。9.對高維數(shù)據(jù)(p?n)進行變量篩選,下列方法中最不容易過擬合的是A.逐步回歸B.LassoC.單變量t檢驗篩選D.主成分回歸答案:B解析:Lasso通過L1正則同時實現(xiàn)變量選擇與收縮,交叉驗證可控制過擬合。10.若兩實驗室對同一樣本分別采用方法A、B測定血糖,欲評估兩種方法的一致性,首選A.Pearson相關(guān)B.Spearman相關(guān)C.BlandAltman圖D.配對t檢驗答案:C解析:相關(guān)僅測線性關(guān)系,BlandAltman直接評估系統(tǒng)偏差與一致性界限。二、多項選擇題(每題3分,共15分,多選少選均不得分)11.下列哪些情況可能導致Cox比例風險模型失效A.協(xié)變量效應(yīng)隨時間變化B.存在競爭風險C.樣本量n=10000D.基線風險非比例E.存在依時協(xié)變量答案:A、B、D、E解析:比例風險假設(shè)要求協(xié)變量效應(yīng)恒定,競爭風險、依時協(xié)變量均違反假設(shè)。12.關(guān)于多重比較校正,下列說法正確的是A.Bonferroni方法控制族錯誤率FWERB.FDR控制比FWER更寬松C.BenjaminiHochberg方法適用于探索性分析D.固定順序檢驗屬于FDR控制E.permutation檢驗無需校正答案:A、B、C解析:permutation仍需校正,固定順序檢驗屬FWER控制。13.在線性混合效應(yīng)模型lme4::lmer()中,下列哪些語法可正確擬合交叉隨機效應(yīng)A.y~x+(1|subject)+(1|item)B.y~x+(x|subject)+(x|item)C.y~x+(1|subject:item)D.y~x+(0+x|subject)+(1|item)E.y~x+(1|subject)+x+(1|item)答案:A、B、D解析:C為交互隨機截距,E語法重復x固定效應(yīng)。14.對微生物16SrRNA數(shù)據(jù)進行α多樣性分析,下列指數(shù)中考慮物種豐度分布的有A.ShannonB.SimpsonC.Chao1D.PDwholetreeE.observedspecies答案:A、B解析:Chao1與observed僅測豐富度,PD測系統(tǒng)發(fā)育。15.若logistic回歸出現(xiàn)完全分離,則A.最大似然估計不存在B.需用Firth懲罰似然C.可用精確邏輯回歸D.系數(shù)估計趨于無窮E.預測準確率一定為100%答案:A、B、C、D解析:完全分離時預測準確率不一定100%,存在少數(shù)誤分。三、判斷題(每題1分,共10分,正確打“√”,錯誤打“×”)16.當樣本量足夠大時,t分布近似標準正態(tài)分布。答案:√17.在多重回歸中,調(diào)整R2一定隨自變量增加而增大。答案:×解析:調(diào)整R2懲罰變量數(shù),可能下降。18.若兩變量Pearson相關(guān)系數(shù)r=0,則兩變量獨立。答案:×解析:僅無線性關(guān)系,可能存在非線性關(guān)系。19.對計數(shù)資料進行廣義線性模型分析時,負二項回歸可處理過離散。答案:√20.隨機森林的OOB誤差可用于變量重要性評估。答案:√21.在meta分析中,I2>50%提示研究間異質(zhì)性較低。答案:×解析:I2>50%提示異質(zhì)性較高。22.對非正態(tài)數(shù)據(jù)取對數(shù)后,可完全消除偏態(tài)。答案:×解析:僅可能減輕,無法保證完全消除。23.若生存數(shù)據(jù)的刪失比例超過80%,仍可進行Cox回歸,但解釋需謹慎。答案:√24.在RNAseq差異分析中,使用rawcount直接進行t檢驗是合理的。答案:×解析:rawcount未歸一化且方差非齊性,需用DESeq2等專用方法。25.貝葉斯因子BF>10通常視為強證據(jù)支持備擇假設(shè)。答案:√四、填空題(每空2分,共20分)26.在單因素方差分析中,若組數(shù)為4,每組樣本量n=8,則誤差自由度為______。答案:28解析:df_error=N?k=32?4=28。27.若隨機變量X~N(μ,σ2),則P(|X?μ|<1.96σ)=______(保留兩位小數(shù))。答案:0.9528.對二項分布Bin(n=50,π=0.2),其方差為______。答案:8解析:Var=nπ(1?π)=50×0.2×0.8=8。29.若線性回歸模型Y=β?+β?X+ε,已知β?=2,X取值范圍1–10,則當X=6時,Y的預測值比X=1時高______。答案:1030.在Cox模型中,某協(xié)變量風險比HR=0.80,則該變量每增加1單位,事件風險降低______%。答案:2031.對p=2000個基因進行多重t檢驗,若采用Bonferroni校正,顯著性閾值應(yīng)設(shè)為______(保留四位小數(shù))。答案:0.000025解析:0.05/2000=2.5×10??。32.若兩獨立樣本t檢驗的Cohen’sd=0.5,則效應(yīng)量大小屬于______效應(yīng)。答案:中等33.在PCA中,第k主成分的方差等于協(xié)方差矩陣的第______大特征值。答案:k34.若負二項分布離散參數(shù)θ=0.25,則其方差與均值關(guān)系為Var=μ+______μ2。答案:4解析:Var=μ+μ2/θ=μ+4μ2。35.對時間序列數(shù)據(jù)采用ARIMA(1,1,1)模型,其中“I”表示______階差分。答案:1五、簡答題(每題8分,共24分)36.某研究者欲探究運動干預對糖尿病患者空腹血糖的影響,招募60名患者隨機分為干預組與對照組,基線測一次,干預12周后再測一次。請指出該設(shè)計潛在統(tǒng)計問題,并提出改進方案。答案:潛在問題:1.僅兩次測量,無法區(qū)分瞬時效應(yīng)與持續(xù)效應(yīng);2.未考慮個體血糖自然波動;3.采用獨立t檢驗忽略基線差異,增加II型錯誤。改進:1.采用重復測量設(shè)計,每4周測一次,共4時點;2.使用線性混合效應(yīng)模型,將基線血糖作為協(xié)變量,組別×時間交互項檢驗干預效應(yīng);3.引入隨機截距與隨機斜率,控制個體間變異;4.預注冊分析計劃,采用多重比較校正。37.簡述RNAseq差異表達分析中“過度離散”概念,并說明DESeq2如何建模并檢驗差異。答案:過度離散指計數(shù)數(shù)據(jù)的方差顯著大于泊松分布期望(方差=均值)。DESeq2采用負二項分布NB(μ_ij,α_i)建模,其中μ_ij為歸一化后期望計數(shù),α_i為基因特異離散參數(shù)。步驟:1.估計sizefactors歸一化庫容;2.通過共享信息擬合均值離散關(guān)系,采用經(jīng)驗貝葉斯收縮α_i;3.構(gòu)建廣義線性模型,使用Wald檢驗或似然比檢驗計算P值;4.采用BenjaminiHochberg控制FDR。收縮離散參數(shù)可提高小樣本估計穩(wěn)定性,降低假陽性。38.解釋生存分析中“競爭風險”問題,并比較FineGray模型與Causespecific模型的應(yīng)用場景。答案:競爭風險指研究終點外存在其他事件阻止目標事件觀察,如癌癥死亡研究中非癌死亡為競爭風險。Causespecific模型:將競爭風險事件視為刪失,估計目標事件的因果風險,需滿足獨立刪失假設(shè),適用于病因?qū)W研究。FineGray模型:將競爭風險保留在風險集中,估計累積發(fā)生率函數(shù)(CIF),直接比較實際臨床可見的發(fā)生率,適用于預測與決策。選擇依據(jù):若關(guān)注生物學機制用前者,若評估臨床實際收益用后者。六、計算與綜合題(共61分)39.(10分)某藥物試驗采用雙盲隨機對照,干預組n?=25,對照組n?=25,12周后測得LDL降低值:干預組x??=1.8mmol/L,s?=0.6;對照組x??=1.2mmol/L,s?=0.5。假定方差齊性,試計算合并方差s_p2,并檢驗干預是否顯著優(yōu)于對照(α=0.05,單側(cè))。答案:s_p2=[(n??1)s?2+(n??1)s?2]/(n?+n??2)=(24×0.36+24×0.25)/48=0.305t=(1.8?1.2)/√(s_p2(1/25+1/25))=0.6/√(0.305×0.08)=0.6/0.156=3.85df=48,單側(cè)臨界t?.??=1.677,3.85>1.677,P<0.001,拒絕H?,干預顯著優(yōu)于對照。40.(12分)下表為某基因在腫瘤與癌旁組織的表達(log?TPM):腫瘤:7.2,6.8,8.1,7.5,6.9,7.0癌旁:5.1,5.3,4.9,5.0,5.2,4.81.計算兩組均值差及95%CI;2.采用非參數(shù)檢驗判斷差異是否顯著(α=0.05)。答案:1.腫瘤x??=7.25,癌旁x??=5.05,差值=2.20合并標準誤:s?=0.49,s?=0.19,n=6,SE=√(s?2/6+s?2/6)=0.21t?.???,df≈9.9≈2.26,CI=2.20±2.26×0.21=(1.73,2.67)2.MannWhitneyU:腫瘤秩和=57,癌旁秩和=21,U=57?6×7/2=36,臨界U?.??=36,恰在邊界,P≈0.05,提示差異邊緣顯著。41.(14分)某研究欲建立預測2型糖尿病風險的邏輯回歸模型,自變量包括年齡、BMI、家族史(0/1)、HOMAIR?;?000人數(shù)據(jù)擬合結(jié)果:β?=?6.20,β_age=0.05,β_BMI=0.15,β_fh=1.10,β_ir=0.301.寫出Logit方程;2.計算一名50歲、BMI=30、有家族史、HOMAIR=4的個體預測概率;3.解釋HOMAIR的OR值;4.若將HOMAIR按三分位分組,討論如何報告結(jié)果避免過度依賴連續(xù)假設(shè)。答案:1.Logit(p)=?6.20+0.05×Age+0.15×BMI+1.10×Fh+0.30×IR2.η=?6.20+0.05×50+0.15×30+1.10×1+0.30×4=?6.20+2.5+4.5+1.1+1.2=3.1p=1/(1+e^(?3.1))=0.9573.OR=e^0.30=1.35,HOMAIR每增加1單位,患病風險增加35%。4.報告三分位分組后OR趨勢,采用限制性立方樣條或分段線性檢驗非線性,提供P_for_trend與圖形,避免線性假設(shè)誤導。42.(13分)下圖為某生存研究KaplanMeier曲線,兩條曲線分別代表高、低表達組,括號內(nèi)為風險人數(shù)。(文字描述:高表達組3年生存率=0.78,低表達組=0.90,logrankχ2=4.50,P=0.034)1.計算高表達組相對低表達組的3年風險比(HR)近似值;2.若存在競爭風險(非本病死亡占15%),討論P值可能如何變化;3.提出后續(xù)分析建議。答案:1.采用MantelHaenszel近似:HR≈(O?/E?)/(O?/E?),設(shè)O?=22,O?=10,E?=16,E?=16,HR≈(22/16)/(10/16)=2.20。2.競爭風險導致本病死亡減少,事件數(shù)降低,logrank檢驗功效下降,P值可能>0.05。3.采用FineGray模型估計本病死因的CIF,報告子分布風險比(SHR),并做敏感性分析。43.(12分)某生態(tài)學研究記錄10個湖泊的磷濃度(TP,mg/L)與葉綠素a(Chla,μg/L),擬建立線性模型,發(fā)現(xiàn)散點呈指數(shù)關(guān)系,故對Chla取自然對數(shù)。R代碼如下:model<lm(log(Chl.a)~TP,data=lake)summary(model)輸出:Coefficients:EstimateStd.ErrortvaluePr(>|t|)(Intercept)1.20000.15008.002.0e05TP0.18000.02507.205.5e05Residualstandarderror:0.28on8DFMultipleRsquared:0.8661.寫出回歸方程;2.預測TP=0.5mg/L時Chla的點估計與95%置信區(qū)間;3.計算TP每增加0.1mg/L,Chla增加的百分比;4.診斷提示殘差呈漏斗形,給出下一步處理方案。答案:1.log(Chla)=1.20+0.18×TP2.TP=0.5,log(Chla)=1.20+0.09=1.29,Chla=e^1.29=3.63μg/LSE_pred=0.28×√(1/10+(0.5?meanTP)2/Σ(TP?meanTP)2)=0.28×0.36=0.10CI_log=1.29±t?.???,8×0.10=1.29±0.23=(1.06,1.52)CI_Chla=(e^1.06,e^1.52)=(2.89,4.57)3.每增加0.1TP,log(Chla)增加0.018,百分比=(e^0.018?1)×100%=1.8%4.殘差漏斗形提示方差不齊,采用加權(quán)最小二乘或?qū)hla采用BoxCox變換,或擬合異方差模型如nlme::gls。七、軟件實操與結(jié)果解讀(共20分)44.使用R語言ggplot2及survminer包,繪制前述42題KaplanMeier曲線,要求:1.寫出完整代碼;2.在圖上標注中位生存時間;3.將風險表置于圖下方,字體大小=3.5。答案:```rlibrary(survival)library(survminer)fit<survfit(Surv(time,status)~group,data=df)ggsurvplot(fit,data=df,pval=TRUE,risk.table=TRUE,risk.table.font=3.5,legend.title="Expression",legend.labs=c("Low","High"),median.line="hv",palette=c("00AFBB","E7B800"),xlab="Time(years)",ylab="Survivalprobability",title="KaplanMeierCurvebyExpression")```45.使用DESeq2完成RNAseq差異分析,寫出從countMatrix到結(jié)果導出的完整代碼,并說明如何提
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 客運車安全生產(chǎn)管理制度
- 廠區(qū)生產(chǎn)廢水管理制度及流程
- 倉庫部安全生產(chǎn)責任制度
- 電氣試驗室安全生產(chǎn)制度
- 過程生產(chǎn)質(zhì)量預警制度
- 車間生產(chǎn)精益化管理制度
- 安全生產(chǎn)二維碼管理制度
- 安全生產(chǎn)違約處理制度
- 安全生產(chǎn)領(lǐng)導帶班檢查制度
- 駕校安全生產(chǎn)責任理制度
- 建筑防水工程技術(shù)規(guī)程DBJ-T 15-19-2020
- 矢量網(wǎng)絡(luò)分析儀校準規(guī)范
- 高考英語閱讀理解分類及方法課件
- 紹興金牡印染有限公司年產(chǎn)12500噸針織布、6800萬米梭織布高檔印染面料升級技改項目環(huán)境影響報告
- DHA乳狀液制備工藝優(yōu)化及氧化穩(wěn)定性的研究
- 2023年江蘇省五年制專轉(zhuǎn)本英語統(tǒng)考真題(試卷+答案)
- 岳麓書社版高中歷史必修三3.13《挑戰(zhàn)教皇的權(quán)威》課件(共28張PPT)
- GC/T 1201-2022國家物資儲備通用術(shù)語
- 污水管網(wǎng)監(jiān)理規(guī)劃
- GB/T 6730.65-2009鐵礦石全鐵含量的測定三氯化鈦還原重鉻酸鉀滴定法(常規(guī)方法)
- GB/T 35273-2020信息安全技術(shù)個人信息安全規(guī)范
評論
0/150
提交評論