大學(xué)《統(tǒng)計思想綜述》題庫試題「附答案」_第1頁
大學(xué)《統(tǒng)計思想綜述》題庫試題「附答案」_第2頁
大學(xué)《統(tǒng)計思想綜述》題庫試題「附答案」_第3頁
大學(xué)《統(tǒng)計思想綜述》題庫試題「附答案」_第4頁
大學(xué)《統(tǒng)計思想綜述》題庫試題「附答案」_第5頁
已閱讀5頁,還剩17頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

大學(xué)《統(tǒng)計思想綜述》題庫試題「附答案」1.(單選)“統(tǒng)計思想”一詞最早被系統(tǒng)闡述于下列哪本著作?A.Fisher《TheDesignofExperiments》B.Pearson《TheGrammarofScience》C.Laplace《APhilosophicalEssayonProbabilities》D.Hacking《TheEmergenceofProbability》答案:B解析:KarlPearson在1892年出版的《科學(xué)的語法》中首次把統(tǒng)計方法上升為“思想”層面,提出“科學(xué)的統(tǒng)一性在于統(tǒng)計描述”,而Fisher、Laplace、Hacking雖對統(tǒng)計哲學(xué)有貢獻,但并未直接使用“統(tǒng)計思想”這一術(shù)語。2.(單選)下列哪一選項最能體現(xiàn)“數(shù)據(jù)生成機制(DGP)”與“統(tǒng)計模型”之間的哲學(xué)差異?A.前者是客觀存在,后者是主觀建構(gòu)B.前者包含參數(shù),后者不含參數(shù)C.前者只能用非參數(shù)方法刻畫,后者只能用參數(shù)方法刻畫D.前者與樣本量無關(guān),后者與樣本量有關(guān)答案:A解析:DGP是自然界或社會系統(tǒng)中真實產(chǎn)生數(shù)據(jù)的過程,具有本體論地位;統(tǒng)計模型是研究者對DGP的近似描述,屬于認(rèn)識論工具,因此差異的根本在于主客觀關(guān)系。3.(單選)若隨機變量X的分布屬于指數(shù)族,且其自然參數(shù)空間包含一個開集,則下列哪條性質(zhì)必然成立?A.樣本均值是充分統(tǒng)計量B.樣本方差是完備統(tǒng)計量C.最大似然估計漸近有效D.貝葉斯估計與頻率估計等價答案:C解析:指數(shù)族+開集條件保證Cramér-Rao下界可達(dá),MLE的漸近正態(tài)性、一致性及有效性成立;A、B、D均需要額外條件。4.(單選)在Neyman-Pearson框架下,若對簡單原假設(shè)H?:θ=θ?使用似然比檢驗,顯著性水平α固定,當(dāng)備擇假設(shè)H?:θ=θ?逐漸遠(yuǎn)離θ?時,檢驗功效(power)的變化趨勢為:A.單調(diào)不增B.單調(diào)不減C.先增后減D.保持不變答案:B解析:似然比統(tǒng)計量非負(fù),且隨|θ??θ?|增大其非中心性參數(shù)增大,功效函數(shù)在固定α下單調(diào)不減。5.(單選)“貝葉斯假設(shè)檢驗使用Bayes因子而非p值”這一做法的核心哲學(xué)理由是:A.p值無法度量證據(jù)強度B.p值依賴于抽樣計劃C.Bayes因子滿足似然原理D.以上皆是答案:D解析:p值在Neyman-Pearson框架下是“重復(fù)抽樣”下的錯誤率,不直接度量數(shù)據(jù)對假設(shè)的證據(jù);同時p值對停止規(guī)則敏感,違反似然原理;Bayes因子則直接比較邊際似然,滿足似然原理且量化證據(jù)。6.(單選)DeFinetti表示定理說明:A.任意可交換序列均可表示為獨立同分布變量的混合B.任意獨立序列均可表示為可交換序列C.任意平穩(wěn)序列均可表示為鞅差序列D.任意鞅差序列均可表示為可交換序列答案:A解析:DeFinetti定理指出,若無限序列可交換,則存在隨機分布函數(shù)使變量條件獨立同分布,體現(xiàn)“主觀概率”與“客觀頻率”的橋梁。7.(單選)“Bootstrap置信區(qū)間的迭代偏倚校正(BCa)”中,加速度(acceleration)a的估計主要用來修正:A.抽樣分布的偏度B.抽樣分布的峰度C.抽樣分布的離散度D.抽樣分布的尾部指數(shù)答案:A解析:BCa通過估計偏度相關(guān)的加速度a,使置信區(qū)間的端點向偏斜相反方向移動,達(dá)到二階精度。8.(單選)若對高維回歸(p?n)使用Lasso,且真實系數(shù)向量僅有k個非零元,則下列哪種條件下Lasso的“不可表示條件(IrrepresentableCondition)”成立?A.設(shè)計矩陣的列滿足兩兩正交B.設(shè)計矩陣的Gram矩陣的逆存在C.活躍變量與非活躍變量的協(xié)方差足夠小D.誤差項服從亞高斯分布答案:C解析:不可表示條件要求活躍集與非活躍集之間的協(xié)方差不能過大,否則Lasso無法一致選擇真實模型;正交設(shè)計是充分非必要條件。9.(單選)“統(tǒng)計學(xué)習(xí)理論”中,Rademacher復(fù)雜度與VC維相比,其優(yōu)勢在于:A.可直接用于任意損失函數(shù)B.數(shù)據(jù)依賴,可給出更緊的泛化界C.計算復(fù)雜度更低D.不依賴于假設(shè)空間的基數(shù)答案:B解析:Rademacher復(fù)雜度基于給定樣本計算,能反映數(shù)據(jù)分布特性,因此泛化誤差界通常比基于VC維的分布無關(guān)界更緊。10.(單選)下列關(guān)于“因果推斷中的前門準(zhǔn)則”的描述,正確的是:A.前門變量必須位于從處理到結(jié)果的所有通路上B.前門變量必須屏蔽處理與混雜之間的直接聯(lián)系C.前門變量無需被觀測D.前門準(zhǔn)則不需要結(jié)構(gòu)方程模型答案:B解析:前門準(zhǔn)則要求:1.前門變量Z完全中介X→Y;2.Z與混雜U獨立給定X;3.Y與X獨立給定Z與U。條件2即“屏蔽”作用。11.(單選)若對泊松回歸使用對數(shù)連接函數(shù),且存在過度離散(over-dispersion),則仍使用標(biāo)準(zhǔn)最大似然估計會導(dǎo)致:A.回歸系數(shù)估計有偏B.標(biāo)準(zhǔn)誤估計偏小C.標(biāo)準(zhǔn)誤估計偏大D.回歸系數(shù)估計不一致答案:B解析:過度離散使實際方差大于名義方差,標(biāo)準(zhǔn)誤被低估,導(dǎo)致置信區(qū)間過窄、第一類錯誤率膨脹;系數(shù)本身仍一致。12.(單選)在EM算法中,若Q函數(shù)在M步可解析求導(dǎo),則該算法收斂點:A.必為對數(shù)似然的局部極大B.必為對數(shù)似然的全局極大C.必為觀測似然的駐點D.必為完全似然的鞍點答案:C解析:EM收斂到觀測似然函數(shù)的駐點(梯度為零),但不保證是局部極大,更不一定是全局極大。13.(單選)“統(tǒng)計思想”中的“數(shù)據(jù)主義(Dataism)”主張:A.一切科學(xué)問題均可還原為數(shù)據(jù)量大小B.相關(guān)性足以取代因果性C.數(shù)據(jù)即現(xiàn)實,模型只是裝飾D.數(shù)據(jù)與理論應(yīng)雙向迭代答案:D解析:現(xiàn)代數(shù)據(jù)主義強調(diào)數(shù)據(jù)驅(qū)動與理論驅(qū)動的融合,反對“無理論”的極端經(jīng)驗主義;A、B、C均為被批判的極端觀點。14.(單選)若對時間序列使用ARIMA(0,1,1)模型,其MA(1)系數(shù)為?0.8,則該過程對永久沖擊的“記憶”表現(xiàn)為:A.有限記憶,3期后消失B.無限記憶,衰減率指數(shù)?0.8C.無限記憶,衰減率指數(shù)0.2D.無限記憶,衰減率線性答案:C解析:ARIMA(0,1,1)的一階差分為MA(1),其沖擊響應(yīng)權(quán)重呈指數(shù)衰減,衰減率為1+θ=0.2,故記憶持久但衰減。15.(單選)“統(tǒng)計倫理”中,對敏感問題采用“隨機化回答技術(shù)”主要解決:A.非抽樣誤差B.測量誤差C.社會期望偏倚D.無回答誤差答案:C解析:隨機化回答通過引入已知概率的隨機機制,切斷真實回答與身份識別之間的聯(lián)系,降低受訪者因社會期望而撒謊的動機。16.(單選)若對分層抽樣使用事后分層(post-stratification),與事前分層相比,其方差減少效果取決于:A.事后層權(quán)是否與總體層權(quán)一致B.層內(nèi)方差是否遠(yuǎn)小于層間方差C.樣本量是否足夠大以使每層均有觀測D.以上皆是答案:D解析:事后分層需滿足:1.樣本對每層均有覆蓋;2.層內(nèi)同質(zhì)、層間異質(zhì);3.已知總體層權(quán)。三者共同決定方差減少幅度。17.(單選)“統(tǒng)計思想”中的“模型不確定性”與“參數(shù)不確定性”相比,下列說法正確的是:A.前者可通過模型平均降低,后者不能B.前者隨樣本量增加而消失,后者不會C.前者可用BIC量化,后者可用后驗方差量化D.兩者均隨樣本量增加而消失答案:C解析:模型不確定性指不同模型間選擇的不確定性,可用BIC、AIC、Bayes因子等近似;參數(shù)不確定性指給定模型下參數(shù)估計的波動,用后驗方差或標(biāo)準(zhǔn)誤度量;A錯在參數(shù)不確定性也可通過模型平均降低;B錯在模型不確定性不必然消失。18.(單選)若對函數(shù)型數(shù)據(jù)使用FPCA,則選擇截斷維度K的“累積方差貢獻率>85%”準(zhǔn)則的哲學(xué)基礎(chǔ)最接近:A.主成分的可解釋性B.Kullback-Leibler信息損失最小C.特征值的Shannon熵最大D.過擬合與欠擬合的權(quán)衡答案:D解析:85%準(zhǔn)則本質(zhì)是偏差-方差權(quán)衡的經(jīng)驗法則,既保留主要波動信息,又避免噪聲維度,屬于啟發(fā)式?jīng)Q策而非信息論最優(yōu)。19.(單選)“統(tǒng)計思想”中,對“可重復(fù)性危機”貢獻最小的因素是:A.選擇性報告B.HARKingC.預(yù)注冊D.p-hacking答案:C解析:預(yù)注冊通過提前公開假設(shè)與分析計劃,抑制選擇性報告與p-hacking,是解決方案而非危機成因。20.(單選)若對深度神經(jīng)網(wǎng)絡(luò)使用Dropout訓(xùn)練,則其“模型平均”解釋對應(yīng)貝葉斯視角的:A.對后驗分布的蒙特卡洛近似B.對先驗分布的變分近似C.對證據(jù)下界的優(yōu)化D.對預(yù)測分布的Laplace近似答案:A解析:Dropout可視為對網(wǎng)絡(luò)權(quán)重的Bernoulli先驗,預(yù)測時對各子網(wǎng)絡(luò)輸出求期望,即對后驗進行蒙特卡洛積分。21.(多選)下列哪些陳述符合“統(tǒng)計思想”中的“模型生成式觀點(Model-GeneratingView)”?A.模型是科學(xué)家對數(shù)據(jù)生成機制的想象B.模型選擇應(yīng)基于預(yù)測性能而非真實度C.模型可通過迭代與數(shù)據(jù)對話而演化D.模型必須可解釋才能被接受答案:A、C解析:模型生成式觀點強調(diào)模型是創(chuàng)造性構(gòu)造,通過數(shù)據(jù)反饋修正;B屬預(yù)測主義,D屬解釋主義,均非核心。22.(多選)關(guān)于“統(tǒng)計思想”中的“因果層級(Pearl’sCausalHierarchy)”,下列哪些層級需要反事實?A.關(guān)聯(lián)(Association)B.干預(yù)(Intervention)C.反事實(Counterfactual)D.分布(Distribution)答案:C解析:Pearl三層:關(guān)聯(lián)、干預(yù)、反事實;只有第三層需要反事實推理。23.(多選)若對空間自回歸模型(SAR)使用最大似然估計,下列哪些因素會導(dǎo)致參數(shù)估計的漸近方差增大?A.空間權(quán)重矩陣行標(biāo)準(zhǔn)化后特征值趨近1B.空間依賴強度趨近1C.樣本量固定而空間單元增多D.誤差項方差增大答案:B、D解析:空間依賴強度→1時,信息矩陣接近奇異;誤差方差直接放大方差;A、C不必然增大方差。24.(多選)下列哪些技術(shù)可用于“統(tǒng)計思想”中的“模型可解釋性”提升?A.SHAP值B.LIMEC.深度特征可視化D.隨機森林變量重要性答案:A、B、C、D解析:四者均提供不同層面的解釋:局部/全局、模型無關(guān)/模型特定。25.(多選)“統(tǒng)計思想”中,對“大數(shù)據(jù)”提出的“稀疏性假設(shè)”包括:A.系數(shù)稀疏B.協(xié)方差稀疏C.圖結(jié)構(gòu)稀疏D.誤差分布稀疏答案:A、B、C解析:稀疏性通常指參數(shù)、協(xié)方差或圖邊稀疏;誤差分布稀疏(如尖峰厚尾)非假設(shè)核心。26.(填空)若隨機變量X服從N(0,1),則其熵功率(entropypower)為________。答案:2πe解析:高斯變量熵h=?ln(2πeσ2),熵功率定義為e^(2h)/2π,代入σ2=1得2πe。27.(填空)在“統(tǒng)計思想”中,F(xiàn)isher信息量I(θ)可視為________幾何的度量張量。答案:統(tǒng)計流形解析:Rao將Fisher信息視為參數(shù)空間的黎曼度量,開創(chuàng)信息幾何。28.(填空)若對二項分布Bin(n,p)使用Jeffreys先驗,則其形式為________。答案:Beta(?,?)解析:Jeffreys先驗與Fisher信息平方根成比例,對二項情形得Beta(?,?)。29.(填空)“統(tǒng)計思想”中,對模型選擇使用“最小描述長度(MDL)”準(zhǔn)則,其編碼長度包含________長度與________長度之和。答案:模型;數(shù)據(jù)給定模型解析:MDL=模型編碼長度+數(shù)據(jù)在模型下的編碼長度,體現(xiàn)奧卡姆剃刀。30.(填空)若對泊松過程使用Gamma過程作為其共軛先驗,則后驗分布仍為________過程。答案:Gamma解析:Gamma是泊松likelihood的共軛先驗,后驗更新形狀與率參數(shù)。31.(判斷)“統(tǒng)計思想”中,Bootstrap方法無需任何分布假設(shè),因此其置信區(qū)間總是具有二階精度。答案:錯誤解析:Bootstrap區(qū)間需平滑條件及有限方差,BCa、ABC等校正才達(dá)二階精度;樸素百分位區(qū)間僅一階。32.(判斷)若兩個變量在因果圖中被m-分離,則它們在任何概率分布下均條件獨立。答案:錯誤解析:m-分離僅保證在“忠實性(faithfulness)”假設(shè)下對應(yīng)條件獨立;若分布非忠實,可能出現(xiàn)依賴。33.(判斷)“統(tǒng)計思想”中,使用交叉驗證選擇超參數(shù)必然導(dǎo)致模型選擇一致性。答案:錯誤解析:交叉驗證具漸近模型選擇一致性需滿足“訓(xùn)練/驗證比→0”等條件;高維下可能過擬合。34.(判斷)對任意凸損失函數(shù),梯度下降法必收斂到全局最小。答案:錯誤解析:需損失函數(shù)可微且L-光滑、步長適當(dāng);非光滑或步長不當(dāng)可能收斂到局部最小或發(fā)散。35.(判斷)“統(tǒng)計思想”中,后驗概率與p值在零假設(shè)下均服從Uniform(0,1)。答案:錯誤解析:僅當(dāng)原假設(shè)為簡單假設(shè)且檢驗統(tǒng)計量連續(xù)時,p值在原假設(shè)下服從Uniform(0,1);后驗概率無此性質(zhì)。36.(簡答)闡述“統(tǒng)計思想”中“數(shù)據(jù)科學(xué)三角”及其相互關(guān)系,并舉一例說明忽略一角可能帶來的風(fēng)險。答案:數(shù)據(jù)科學(xué)三角指“領(lǐng)域知識”“統(tǒng)計方法”“計算技術(shù)”。三者相互制約:領(lǐng)域知識指導(dǎo)變量選擇與因果假設(shè);統(tǒng)計方法提供推斷框架;計算技術(shù)實現(xiàn)可擴展算法。若忽略領(lǐng)域知識,僅依賴高維算法,可能把“冰淇淋銷量—溺水死亡”的虛假相關(guān)誤認(rèn)為因果,導(dǎo)致錯誤政策。37.(簡答)解釋“統(tǒng)計思想”中“穩(wěn)定性(Stability)”與“可重復(fù)性(Replicability)”的差異,并指出哪一概念更貼近科學(xué)哲學(xué)中的“可靠證據(jù)”。答案:穩(wěn)定性指模型輸出對數(shù)據(jù)微小擾動的敏感程度,可用擾動下預(yù)測方差度量;可重復(fù)性指獨立研究在相同條件下重現(xiàn)結(jié)果的能力??茖W(xué)哲學(xué)強調(diào)證據(jù)需跨情境穩(wěn)健,故穩(wěn)定性更貼近“可靠證據(jù)”內(nèi)核,因為高穩(wěn)定性是可重復(fù)性的必要非充分條件。38.(簡答)說明“統(tǒng)計思想”中“選擇性推斷(SelectiveInference)”與傳統(tǒng)假設(shè)檢驗的區(qū)別,并給出一種校正方法。答案:傳統(tǒng)檢驗假設(shè)模型預(yù)先固定;選擇性推斷在數(shù)據(jù)驅(qū)動選擇模型后進行檢驗,導(dǎo)致檢驗統(tǒng)計量分布扭曲。校正方法:利用條件分布,僅對選擇事件進行條件化,如Leeetal.(2016)的Lasso-conditionaltest,或利用數(shù)據(jù)分割(datasplitting)將選擇與檢驗數(shù)據(jù)分離。39.(簡答)概述“統(tǒng)計思想”中“分布無關(guān)(distribution-free)”方法的兩條哲學(xué)支柱,并比較其與“非參數(shù)”方法的異同。答案:支柱一:不假定數(shù)據(jù)來自特定參數(shù)族,僅依賴秩、置換或經(jīng)驗過程;支柱二:保證有限樣本下統(tǒng)計性質(zhì)(如覆蓋)無需漸近。分布無關(guān)是非參數(shù)的子集,但非參數(shù)可含平滑或核方法,仍需某些光滑條件;分布-free則更強,拒絕任何分布假設(shè)。40.(簡答)解釋“統(tǒng)計思想”中“預(yù)測區(qū)間”與“置信區(qū)間”在哲學(xué)目標(biāo)上的差異,并指出哪一區(qū)間在“模型誤設(shè)”下仍有效。答案:置信區(qū)間旨在覆蓋固定但未知的參數(shù),其有效性依賴模型正確;預(yù)測區(qū)間旨在覆蓋未來可觀測隨機變量,可通過殘差重抽樣或分布無關(guān)方法構(gòu)造,即便模型誤設(shè),只要殘差可交換,預(yù)測區(qū)間仍保持近似覆蓋。41.(計算)設(shè)X?,…,X?i.i.d.來自Uniform(0,θ),考慮樞軸量Q=X???/θ,求θ的精確1?α置信區(qū)間,并說明其覆蓋概率為何與θ無關(guān)。答案:Q的CDF為F_Q(q)=q?,0<q<1。令P(c≤Q≤1)=1?α,則c=α^(1/n)。由Q=X???/θ,得P(α^(1/n)≤X???/θ≤1)=1?α,反解θ得區(qū)間[X???,X???/α^(1/n)]。覆蓋概率1?α僅依賴于α與n,與θ無關(guān),因為Q分布已樞軸化。42.(計算)對線性模型Y=Xβ+ε,ε~N(0,σ2I),若使用嶺回歸估計β?=(X?X+λI)?1X?Y,證明其可表示為貝葉斯后驗均值,并寫出對應(yīng)先驗。答案:設(shè)先驗β~N(0,τ2I),則后驗β|Y~N(μ,Σ),其中Σ?1=X?X/σ2+I/τ2,μ=ΣX?Y/σ2。令λ=σ2/τ2,則μ=(X?X+λI)?1X?Y,與嶺估計一致。43.(計算)設(shè)二維正態(tài)(X,Y)均值為0,方差1,相關(guān)系數(shù)ρ。求E[Y|Y>X]。答案:令Z=Y?X,則(Z,X)聯(lián)合正態(tài),Cov(Z,X)=ρ?1。條件期望E[Y|Y>X]=E[X+Z|Z>0]=E[X|Z>0]+E[Z|Z>0]。由對稱性E[X|Z>0]=0;Z~N(0,2(1?ρ)),故E[Z|Z>0]=√[2(1?ρ)/π]。綜上,E[Y|Y>X]=√[2(1?ρ)/π]。44.(計算)對泊松-伽瑪分層模型Y?|λ?~Poisson(λ?),λ?~Gamma(α,β),求后驗期望E[λ?|Y?]并解釋其收縮性質(zhì)。答案:后驗λ?|Y?~Gamma(α+Y?,β+1),故E[λ?|Y?]=(α+Y?)/(β+1)=wα/β+(1?w)Y?,w=β/(β+1)。觀測Y?向先驗均值α/β收縮,收縮量隨β增大而增強。45.(計算)設(shè)X~Binomial(n,p),使用Jeffreys先驗,求后驗眾數(shù)(MAP)并比較與MLE差異。答案:后驗p|X~Beta(X+?,n?X+?),眾數(shù)p?=(X??)/(n?1)(若X≥1)。與MLEX/n相比,向?收縮,避免極端0或1。46.(綜合)某城市欲評估“限塑令”對塑料袋使用的因果效應(yīng),收集2018–2022年月度數(shù)據(jù),包含政策虛擬變量D、使用量Y、價格P、人口流量M、環(huán)保宣傳活動A。請:1.畫出潛在因果圖,標(biāo)明可能的混雜與中介;2.寫出使用合成控制法(SCM)的假設(shè);3.若D對Y的效應(yīng)存在空間溢出,如何修改SCM?答案:1.圖:D→Y;P←U→Y(U為經(jīng)濟景氣,混雜);A→Y且A→D(宣傳既直接影響使用,又推動政策);M→Y;空間相鄰城市D’→Y(溢出)。2.SCM假設(shè):a.無干擾(無溢出);b.線性因子模型生成Y;c.干預(yù)前期間處理單元可由控制單元加權(quán)復(fù)制;d.權(quán)重非負(fù)和為1。3.引入空間滯后項,把相鄰城市政策作為額外控制,或采用“空間合成控制”,將目標(biāo)城市與鄰市聯(lián)合建模,權(quán)重矩陣包含空間距離。47.(綜合)某在線平臺欲用upliftmodeling優(yōu)化優(yōu)惠券投放,設(shè)處理T為發(fā)券,結(jié)果Y為購買,特征X含用戶歷史消費、瀏覽深度。請:1.寫出條件平均處理效應(yīng)(CATE)定義;2.比較S-Learner、T-Learner、X-Learner在估計CATE時的偏差-方差權(quán)衡;3.若T與Y間存在未觀測混雜(如用戶心情),如何借助工具變量?答案:1.CATE(x)=E[Y(1)?Y(0)|X=x]。2.S-Learner用單一模型含T交互,偏差小但可能平滑掉異質(zhì);T-Learner分兩模型,方差大但偏差??;X-Learner用傾向得分加權(quán),對處理組/對照組不平衡更穩(wěn)健,中小樣本方差更低。3.收集外生工具Z(如系統(tǒng)隨機展示券的概率),用兩階段最小二乘或IV-forest,第一階段Z→T,第二階段擬合T?→Y,識別局部平均處理效應(yīng)(LATE)。48.(綜合)對高維回歸(p=10000,n=500),真實模型僅含20變量,誤差重尾。請設(shè)計一套分析流程,兼顧:變量選擇、參數(shù)估計、不確定性量化、可解釋性,并說明每步哲學(xué)依據(jù)。答案:1.領(lǐng)域知識初篩:基于文獻保留500候選變量,體現(xiàn)“理論驅(qū)動”。2.魯棒Lasso(Huber損失+自適應(yīng)懲罰)初選,50變量,兼顧重尾與稀疏。3.雙重機器學(xué)習(xí):將Y與X正交化,使用RDD或IV控制混雜,體現(xiàn)“因果識別”。4.穩(wěn)定性選擇:100次子抽樣,保留頻率>0.8的變量,降低“選擇偏差”。5.加權(quán)Bootstrap(wildbootstrap)求置信區(qū)間,分布無關(guān),量化不確定性。6.用SHAP總結(jié)top10變量貢獻,提供可解釋性。哲學(xué):從“數(shù)據(jù)主義”到“因果主義”再到“解釋主義”的螺旋上升。49.(綜合)某藥企欲用真實世界數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論