版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
再抽樣方法第五章第5章再抽樣方法5.1自助法參數(shù)估計5.2刀切法5.3再抽樣假設(shè)檢驗5.4交叉驗證5.5數(shù)據(jù)科學(xué)中的PCS準(zhǔn)則5.6與本章相關(guān)的R語言操作自助法參數(shù)估計PART5.15.1自助法參數(shù)估計自助法的基本假定:原始樣本中包含的關(guān)于數(shù)據(jù)的生成機制的信息也包含在再抽樣樣本中。再抽樣樣本近似于從總體中產(chǎn)生新的隨機樣本。本節(jié)的基本目標(biāo)是解釋在什么情況下為什么自助法效果更好,以及自助法如何被應(yīng)用到廣泛又多樣的真實數(shù)據(jù)情況中。5.1自助法參數(shù)估計5.1.1標(biāo)準(zhǔn)誤差的自助法估計隨機樣本X=(??1,??2,…,??n)來自未知的概率分布F,根據(jù)樣本X估計參數(shù)θ=t(F)。
定義5.1.1插件原則(plug-inprinciple)
5.1自助法參數(shù)估計5.1.1標(biāo)準(zhǔn)誤差的自助法估計定義5.1.2標(biāo)準(zhǔn)誤差是某一統(tǒng)計量抽樣分布的標(biāo)準(zhǔn)差,用來衡量統(tǒng)計量的分布的離散程度,是評價該統(tǒng)計量推斷總體的準(zhǔn)確性的重要指標(biāo)
理論探討基于計算機技術(shù)的方法5.1自助法參數(shù)估計
5.1.1標(biāo)準(zhǔn)誤差的自助法估計5.1自助法參數(shù)估計5.1.1標(biāo)準(zhǔn)誤差的自助法估計
星號標(biāo)記表明x?
并不是原樣本數(shù)據(jù)集x,而是等概率有放回的從樣本x的隨機再抽樣。
當(dāng)n趨于無窮大時,這一概率就將趨近于???1=0.368,所以留在訓(xùn)練集中的樣本大概就占原來數(shù)據(jù)集的63.2%。5.1自助法參數(shù)估計例5.1.2舉一個簡單的例子,從某分布抽取的一個樣本量為10的數(shù)據(jù)為(25,37,14,69,43,26,76,29,57,68).一次自助法抽樣的數(shù)據(jù)集為:(14,69,37,26,14,29,26,68,37,14).其中第3個樣品14被抽中三次,第2個、第6個樣品37、26被抽中兩次,第4、8、10個樣品69、29、68被抽中一次.第1、5、7、9個樣品未被抽中.再一次自助法抽樣的數(shù)據(jù)集為(25,37,57,43,37,25,14,43,76,29),與之前的實現(xiàn)值不同.根據(jù)這些信息判斷治療對于延長小鼠的生命是否有用。5.1自助法參數(shù)估計5.1.1標(biāo)準(zhǔn)誤差的自助法估計
5.1自助法參數(shù)估計5.1.1標(biāo)準(zhǔn)誤差的自助法估計
5.1自助法參數(shù)估計5.1.1標(biāo)準(zhǔn)誤差的自助法估計
5.1自助法參數(shù)估計5.1.1標(biāo)準(zhǔn)誤差的自助法估計
5.1自助法參數(shù)估計例5.1.3表5.1.1給出了對16只小鼠進行分組實驗的數(shù)據(jù)。它們被隨機分配到治療組和對照組(非治療組),記錄下它們的生存時間(單位:天)。根據(jù)這些信息判斷治療對于延長小鼠的生命是否有用。分組數(shù)據(jù)樣本規(guī)模均值標(biāo)椎誤差治療組94,197,16,38,99,141,23786.8625.24對照組52,104,146,10,51,30,40,27,46956.2214.1430.6428.945.1自助法參數(shù)估計5.1.1標(biāo)準(zhǔn)誤差的自助法估計兩組的組內(nèi)均值分別為
兩組差異值的估計為86.86?56.22=30.64,這表明治療有著相當(dāng)大的延長生存期的作用。5.1自助法參數(shù)估計5.1.1標(biāo)準(zhǔn)誤差的自助法估計
兩組試驗平均存活時間之差30.64是標(biāo)準(zhǔn)誤差的1.06倍,也就是說在治療不起任何作用的前提下也很有可能會隨機出現(xiàn)。5.1自助法參數(shù)估計5.1.1標(biāo)準(zhǔn)誤差的自助法估計
5.1自助法參數(shù)估計5.1.1標(biāo)準(zhǔn)誤差的自助法估計如果,我們想通過中位數(shù)而非均值比較兩組數(shù)的差異治療組的中位數(shù)為94對照組的中位數(shù)為46差異值的估計為48,高于均值的差異值通過自助法估計差異值的精度5.1自助法參數(shù)估計5.1.1標(biāo)準(zhǔn)誤差的自助法估計
B501002505001000均值19.7223.6322.3223.7923.02中位數(shù)32.2136.3534.4636.7236.48表5.1.2治療組均值和中位數(shù)的標(biāo)準(zhǔn)誤差的自助法估計5.1自助法參數(shù)估計例5.1.4一項關(guān)于小片阿司匹林對中年健康男子心臟病的預(yù)防是否有效的研究中,采用控制、對照、雙盲研究方法收集數(shù)據(jù)??刂?、隨機、雙盲實驗的精心設(shè)計是為了更好的避免無關(guān)影響因素的干擾,發(fā)現(xiàn)感興趣的因素的影響。實驗數(shù)據(jù)如下:5.1自助法參數(shù)估計表5.1.3阿斯匹林對心臟病預(yù)防效果的數(shù)據(jù)(致命加非致命)心臟病受試者阿司匹林組10411037安慰劑組189110345.1自助法參數(shù)估計5.1.1標(biāo)準(zhǔn)誤差的自助法估計
實驗獲得樣本看起來很大,包含了所有22071個受試者,但是實際上阿司匹林的作用的結(jié)論僅依賴于293個心臟病發(fā)作的受試者的分組。這樣無法確定實驗再進行一次結(jié)果不會有很大改變。5.1自助法參數(shù)估計5.1.1標(biāo)準(zhǔn)誤差的自助法估計
(致命加非致命)中風(fēng)受試者阿司匹林組11911037安慰劑組9811034表5.1.4中風(fēng)數(shù)據(jù)僅從這個數(shù)字看來服用阿司匹林事實上是有害的,然而中風(fēng)比率θ的95%置信區(qū)間為(0.93,1.59),這個區(qū)間包含了中立值θ=1,即明阿司匹林與安慰劑相比對中風(fēng)并沒有顯著影響。5.1自助法參數(shù)估計5.1.1標(biāo)準(zhǔn)誤差的自助法估計使用自助法估計中風(fēng)數(shù)據(jù)
一個粗糙的95%置信區(qū)間可以用1000次重復(fù)之中從大到小排列的第25位和975位表示,結(jié)果是(0.93,1.60)。5.1自助法參數(shù)估計5.1.2偏差的自助法估計
5.1自助法參數(shù)估計
5.1.2偏差的自助法估計5.1自助法參數(shù)估計
5.1.2偏差的自助法估計5.1自助法參數(shù)估計
5.1.2偏差的自助法估計5.1自助法參數(shù)估計5.1.2偏差的自助法估計
5.1自助法參數(shù)估計例5.1.5歷史上,統(tǒng)計學(xué)家很擔(dān)憂比率估計量可能產(chǎn)生的偏差。表5.1.5中的貼片數(shù)據(jù)提供了一個實用的例子。將某種天然激素注入八名使用醫(yī)療貼片的受試者的血流中。測量每個受試者使用三種不同的貼片(一種不含激素的安慰劑貼片,一種在舊工廠生產(chǎn)的“舊”貼片,以及一種在新開設(shè)的工廠生產(chǎn)的“新”貼片)后血液中的激素水平。5.1自助法參數(shù)估計例5.1.5表中的前三列顯示了每個受試者的三種情況下血液中激素水平的測量結(jié)果。對每個受試者,z=舊貼片的測量值-安慰劑的測量值,y=新貼片的測量值-舊貼片的測量值。這個測試目的是為了證明新廠生產(chǎn)的貼片與舊廠生產(chǎn)的貼片是等效的。5.1自助法參數(shù)估計受試者安慰劑舊貼片新貼片zy1924317649164498406-12002967112013146142342260131179219979172748187-27054133572181623798845919825905513850125604795-1290662909806101573516-35171241217208165704796-638818806290442632510238-2719均值
6342-452.35.1自助法參數(shù)估計5.1.2偏差的自助法估計美國食品和藥物管理局(FDA)已批準(zhǔn)在舊工廠生產(chǎn)的貼片的銷售。如果能夠證明新工廠生產(chǎn)的貼片與舊工廠的貼片生物等效,那么新工廠的貼片不需要進行新一輪的FDA調(diào)查就能被批準(zhǔn)出售。FDA的生物等效性標(biāo)準(zhǔn)是使用新貼片測量結(jié)果的期望值與使用舊貼片測量結(jié)果的期望值滿足以下條件:
5.1自助法參數(shù)估計5.1.2偏差的自助法估計換句話說,F(xiàn)DA希望新貼片與舊帖片的差別控制在舊貼片相比于安慰劑貼片所增加血液的激素水平的20%的范圍內(nèi)。θ為參數(shù):
在此我們討論θ的插件估計量偏差和標(biāo)準(zhǔn)誤差。5.1自助法參數(shù)估計5.1.2偏差的自助法估計
5.1自助法參數(shù)估計5.1.3自助法的區(qū)間估計
為了實現(xiàn)這個目標(biāo),我們在此介紹兩種基礎(chǔ)的方法。
5.1自助法參數(shù)估計5.1.3自助法的區(qū)間估計
5.1自助法參數(shù)估計5.1.3自助法的區(qū)間估計
那么,95%的中心化分位數(shù)區(qū)間為
5.1自助法參數(shù)估計5.1.3自助法的區(qū)間估計
這就驗證了變換不變性。在這種意義上,百分位數(shù)方法改進了標(biāo)準(zhǔn)置信區(qū)間。該方法要求自助法的樣本量達到B=2000。除了百分位數(shù)法,還有其他的自助法構(gòu)造置信區(qū)間的算法,更復(fù)雜和準(zhǔn)確的方法請讀者參考相關(guān)文獻。5.1自助法參數(shù)估計例5.1.6有22名同學(xué)參加了機械學(xué)和矢量學(xué)的考試,表5.1.6展示了他們的成績。表5.1.6考試成績數(shù)據(jù)
1234567891011機械學(xué)74449593446032495244矢量學(xué)5169417042404045576461
1213141516171819202122機械學(xué)364252218414831424663矢量學(xué)59603058516338426949635.1自助法參數(shù)估計5.1.3自助法的區(qū)間估計
百分位法利用自助法獲得分布的形狀來提高置信區(qū)間的精度,圖5.1.2中的直方圖的0.025和0.975的分位數(shù)分別是0.118和0.758,也是非參數(shù)中心化的95%分位數(shù)區(qū)間的端點。5.1自助法參數(shù)估計5.1.4討論上面幾個小節(jié)介紹了自助法的基本概念,以及如何使用自助法估計參數(shù)的標(biāo)準(zhǔn)誤差,偏差,置信區(qū)間等。
5.1自助法參數(shù)估計
除了上述介紹的內(nèi)容,自助法有著更廣泛的應(yīng)用,包括多總體、相關(guān)非獨立樣本、貝葉斯情形等。刀切法PART5.25.2刀切法5.2.1刀切法介紹
5.2刀切法5.2.1刀切法法介紹定義5.2.2偏差的刀切法估計定義為
其中
標(biāo)準(zhǔn)誤的Jackknife估計定義為
5.2Jackknife方法5.2.1Jackknife方法介紹
5.2刀切法方法5.2.1刀切法介紹直覺上,刀切法的這個“膨脹因子”是必要的,由于典型的刀切法樣本比自助法樣本更接近原始數(shù)據(jù)集,因此刀切法中的偏差
比自助法的偏差
要小得多。5.2刀切法5.2.1刀切法介紹證
(5.2.5)的定義使得我們很容易估計任何統(tǒng)計量的標(biāo)準(zhǔn)誤差。5.2刀切法5.2.1刀切法介紹相似地,偏差刀切法估計的定義式(5.2.3)中的乘數(shù)因子(n-1)與式(5.2.5)標(biāo)準(zhǔn)誤的Jackknife估計中的因子(n?1)/n相似,也是一個“膨脹因子”。習(xí)題1以樣本方差為例討論這個問題。5.2刀切法例5.2.1表5.2.1中給出了88個學(xué)生的測驗成績,我們感興趣的統(tǒng)計量是協(xié)方差矩陣的最大特征值與特征值之和的比率。
5.2刀切法例5.2.1
5.2刀切法例5.2.1我們可以看到,刀切法直方圖比自助法直方圖(圖5.2.1的第三幅)的寬度要小很多(使用了相同的水平刻度)。這說明平均意義上,刀切法數(shù)據(jù)集比自助法數(shù)據(jù)集更加接近原始數(shù)據(jù)。圖5.2.1的第二幅展示了“膨脹因子”調(diào)整后的刀切法值的直方圖(為了對比,進行了平移)。5.2刀切法5.2.1刀切法介紹
5.2刀切法5.2.2刀切法和自助法的聯(lián)系自助法和刀切法哪個更好呢?事實上刀切法可以看作是自助法的近似。以下是其核心思想??紤]一個線性統(tǒng)計量,可以寫成以下形式
5.2刀切法5.2.2刀切法和自助法的聯(lián)系
5.2刀切法5.2.2刀切法和自助法的聯(lián)系然而對于非線性統(tǒng)計量,則存在信息損失。刀切法估計標(biāo)準(zhǔn)誤差的準(zhǔn)確性取決于??的線性程度。刀切法對高度非線性函數(shù)是無效的,有時甚至是危險的。5.2刀切法5.2.2刀切法和自助法的聯(lián)系類似地,Jackknife方法在對偏差的估計上與自助法近似.這種近似體現(xiàn)在二次統(tǒng)計量(非線性)上,其形式如下:
二次統(tǒng)計量的一個簡單例子是樣本方差,將其展開,我們發(fā)現(xiàn)它可以表示如上式的形式.對于這類統(tǒng)計量,它們的刀切法偏差估計與自助法偏差估計僅差一個因子(n-1)/n5.2刀切法5.2.2刀切法和自助法的聯(lián)系我們可以看出刀切法在估計偏差和標(biāo)準(zhǔn)誤差時是自助法的一個簡單的較好的近似.但當(dāng)統(tǒng)計量不是一個光滑函數(shù)時,刀切法可能會導(dǎo)致較大的錯誤.
本書介紹的刀切是去一法,也就是每次忽略一個樣本點.有時我們也使用去d法,每次忽略d個樣本點.有興趣的讀者可以參閱更多的文獻.再抽樣假設(shè)檢驗PART5.35.3再抽樣假設(shè)檢驗5.3.1置換檢驗置換檢驗的主要假定是原假設(shè)下的可交換性,即在原假設(shè)成立的條件下所有樣本都是隨機的,通過所有的置換來比較觀測數(shù)據(jù)。置換檢驗主要的應(yīng)用是兩樣本問題:我們從兩個概率分布F和G中抽取兩個獨立隨機樣本:
5.3再抽樣假設(shè)檢驗例5.3.1在例5.1.3的小鼠藥物試驗的例子中,7只治療組小鼠和9只對照組小鼠的存活時間的均值差為30.63,這樣我們傾向于認為治療組的分布F的平均存活時間高于對照組的分布G的平均存活時間。但需要進行假設(shè)檢驗。
5.3再抽樣假設(shè)檢驗例5.3.1圖5.3.1給出了B=1000次置換抽樣的結(jié)果,其中132次的數(shù)值超過30.63,因此該檢驗的p值為132/1000=0.132,在0.05的顯著性水平下,不能拒絕原假設(shè)。圖5.3.1置換檢驗直方圖5.3再抽樣假設(shè)檢驗5.3.1置換檢驗需要說明的是,這里置換檢驗的結(jié)果與兩樣本t檢驗的結(jié)果很相似,盡管這里沒有正態(tài)性的假設(shè)。如果均值差的抽樣分布的確是正態(tài)的,那么t檢驗給出精確的p值,而對于均值差的抽樣分布遠不是正態(tài)時,t檢驗就非常不牢靠,但置換檢驗仍會給出精確的p值。置換檢驗給出了兩樣本均值檢驗的一個黃金標(biāo)準(zhǔn):如果置換檢驗和t檢驗的p值顯著不同,這說明t檢驗的條件不滿足,因此當(dāng)分布和正態(tài)分布很不一樣時,需要使用置換檢驗而不是t檢驗。5.3再抽樣假設(shè)檢驗例5.3.2上例中的數(shù)據(jù)顯示,兩組小鼠更明顯的差異可能不是均值,而是方差。方差的估計比是2.48,這是系統(tǒng)差異,還是樣本量較小造成的隨機差異,我們可以通過置換檢驗回答這個問題。圖5.3.2給出了1000次置換樣本的實現(xiàn)值(對數(shù)公式),146次實現(xiàn)值超過了原統(tǒng)計量的取值,所以檢驗的p值時0.146,不能拒絕原假設(shè)。(單邊檢驗和雙邊檢驗)。5.3再抽樣假設(shè)檢驗例5.3.2圖5.3.2方差比的置換檢驗總結(jié)之前的敘述,我們可以得到基于度量某個感興趣效應(yīng)的統(tǒng)計量的置換檢驗的一般操作步驟為:(a)計算原始數(shù)據(jù)的該統(tǒng)計量;(b)不放回地以符合零假設(shè)及研究的設(shè)計一致的方式從數(shù)據(jù)抽取置換樣本,從大量的再抽樣所得到的樣本統(tǒng)計量中構(gòu)造相應(yīng)的抽樣分布;(c)在抽樣分布中,找到原數(shù)據(jù)統(tǒng)計量的位置以求出p值。5.3.1置換檢驗5.3再抽樣假設(shè)檢驗下面介紹k樣本均值F檢驗的置換檢驗問題。
5.3再抽樣假設(shè)檢驗5.3.1置換檢驗
而p值則為這些F值中大于原始統(tǒng)計量實現(xiàn)值的比例。5.3再抽樣假設(shè)檢驗5.3.1置換檢驗例5.3.3圖5.3.3四種飼料與小雞體重的箱線圖比較四種飼料,數(shù)據(jù)來自R程序包datasets中的數(shù)據(jù)ChickWeight。這四個樣本的箱線圖如圖5.3.3所示:5.3再抽樣假設(shè)檢驗
用不放回抽樣的方法抽取10000個樣本進行置換檢驗,得到的p值為9.999e-05.圖5.3.4為F統(tǒng)計量置換樣本的直方圖和密度估計圖:5.3再抽樣假設(shè)檢驗5.3.1置換檢驗5.3再抽樣假設(shè)檢驗例5.3.4這是一個關(guān)于教育與態(tài)度的二維表檢驗的問題,該數(shù)據(jù)來源于市場調(diào)查。這個數(shù)據(jù)有2個分類變量,第一個是最高學(xué)歷,有3個水平:中學(xué)以下、中學(xué)或初級學(xué)院、大學(xué)以上,第二個分類變量是態(tài)度,有三個水平:支持、中立、反對。5.3再抽樣假設(shè)檢驗態(tài)度學(xué)歷支持中立反對合計大學(xué)以上138252252642中學(xué)5706484421660中學(xué)以下178138108424合計886103880227265.3再抽樣假設(shè)檢驗例5.3.4這個問題也可以應(yīng)用置換檢驗,結(jié)果為0.00001。
5.3再抽樣假設(shè)檢驗
置換檢驗和自助法假設(shè)檢驗都可以使用的情況下他們的結(jié)果是相似的,但自助法假設(shè)檢驗的應(yīng)用范圍更廣,雖然有時精度略低。5.3再抽樣假設(shè)檢驗5.3.2自助法檢驗自助法假設(shè)檢驗的步驟:
5.3再抽樣假設(shè)檢驗注意到該算法與置換算法的不同在于樣本是否通過替換獲得。置換檢驗和自助法檢驗之間還有一些重要的差異。置換檢驗利用原假設(shè)成立的條件下存在的特殊的對稱性給出了檢驗統(tǒng)計量。5.3再抽樣假設(shè)檢驗例5.3.5
5.3再抽樣假設(shè)檢驗通過使用t統(tǒng)計量可以獲得更精確的檢驗,在上面的檢驗中,我們還可以用
5.3再抽樣假設(shè)檢驗5.3.2自助法檢驗上述方法檢驗的原假設(shè)為兩總體獨立的條件下分布F=G,如果只檢驗兩總體均值是否相等應(yīng)該怎么做?
一種方法是用兩樣本t統(tǒng)計量,在原假設(shè)成立的條件下,并假設(shè)兩總體正態(tài)且方差相等,則該學(xué)生化t檢驗統(tǒng)計量的自由度為n+m-2。如果假設(shè)兩總體的方差不等,則檢驗可以依賴于統(tǒng)計量對于正態(tài)總體,上式不服從學(xué)生化t分布,針對這個問題提出了許多漸近解決方法,許多文獻將這個問題稱為Behrens-Fisher問題。5.3.2自助法檢驗5.3再抽樣假設(shè)檢驗
5.3再抽樣假設(shè)檢驗5.3.2自助法檢驗
5.3.2自助法檢驗5.3再抽樣假設(shè)檢驗例5.3.6下面只考慮例5.1.3處理組小鼠,即單樣本問題。假設(shè)其他調(diào)查員對更多小鼠進行了相似的實驗,他們發(fā)現(xiàn)經(jīng)過處理的小鼠的平均生命為129.0天。我們想要檢驗表5.1.1中處理組小鼠的生命均值是否為129.0,即
5.3再抽樣假設(shè)檢驗對于這個假設(shè)檢驗問題,應(yīng)用自助法檢驗。自助法假設(shè)檢驗基于原假設(shè)成立條件下檢驗統(tǒng)計量的分布:
5.3再抽樣假設(shè)檢驗5.3.2自助法檢驗但什么是合適的原假設(shè)成立時該統(tǒng)計量的分布?
5.3.2自助法檢驗5.3再抽樣假設(shè)檢驗
5.3再抽樣假設(shè)檢驗5.3.2自助法檢驗交叉驗證PART5.45.4交叉驗證在本章前三節(jié),我們討論的重點是標(biāo)準(zhǔn)誤差、偏差和置信區(qū)間(假設(shè)檢驗)。這些都是模型參數(shù)精度的度量,更注重模型的可解釋性。
有一些模型則是關(guān)注預(yù)測的。預(yù)測誤差是評價模型預(yù)測未來觀測值準(zhǔn)確性的指標(biāo),通常用于模型選擇,例如在一組候選模型中選擇一個預(yù)測誤差最小的模型。交叉驗證是估計預(yù)測誤差的方法,它的出現(xiàn)比自助法早,近年來隨著計算能力和速度的提高又興起。5.4.1交叉驗證簡介
統(tǒng)計推斷的問題是評價預(yù)測模型的準(zhǔn)確性。5.4交叉驗證5.4.1交叉驗證簡介定義5.4.1
最常用的兩種預(yù)測誤差的度量是:
5.4.1交叉驗證簡介5.4交叉驗證
理想情況下是從產(chǎn)生原始數(shù)據(jù)相同的總體中獲得數(shù)據(jù)。然而通常情況下不能獲得這些數(shù)據(jù),于是為了解決這個問題提出了交叉驗證的方法,即使用一部分?jǐn)?shù)據(jù)來擬合模型,
用另一部分?jǐn)?shù)據(jù)驗證。為了得到預(yù)測誤差更準(zhǔn)確地估計,我們希望獲得一個與我們的訓(xùn)練集互相獨立的樣本集,稱為測試樣本或測試數(shù)據(jù)集。對于總量較大的數(shù)據(jù),通常的做法是將數(shù)據(jù)分為兩部分,而對于較小的數(shù)據(jù)集使用K折交叉驗證可以更加充分的利用可用信息。5.4交叉驗證5.4.1交叉驗證簡介交叉驗證是估計預(yù)測誤差的方法,它的出現(xiàn)比自助法早,近年來隨著計算能力和速度的提高又興起。K折交叉驗證具體步驟如下:將數(shù)據(jù)規(guī)模分成大致相同的K組。
對于第k部分,用剩余的K-1部分的數(shù)據(jù)去擬合模型,然后用第k部分的數(shù)據(jù)計算擬合模型的預(yù)測誤差。5.4.1交叉驗證簡介5.4交叉驗證
5.4交叉驗證5.4.1交叉驗證簡介比如說,我們的樣本有100個數(shù)據(jù)點,我們使用5折交叉驗證,
五次之后,所有的樣本點都有了預(yù)測值,之后計算樣本真實值和預(yù)測值的誤差的平均,這就是模型的交叉驗證誤差。5.4.1交叉驗證簡介5.4交叉驗證例5.4.1圖5.4.1展示的是激素量隨服用時間而變化的數(shù)據(jù),對應(yīng)的具體數(shù)據(jù)如表5.4.1,因變量????為激素消炎藥在服用????小時后剩余的量,樣本量為27.下面我們考慮回歸模型
對給定服用時間后,預(yù)測藥物剩余量的效果。5.4交叉驗證5.4交叉驗證圖5.4.1激素量散點圖5.4.1交叉驗證簡介表5.4.1激素數(shù)據(jù)5.4交叉驗證5.4.1交叉驗證簡介
但是這個量很可能會低估真實的預(yù)測誤差,因為我們在擬合模型和評價模型時使用了相同的數(shù)據(jù),這個殘差稱為“回代”的殘差。因為數(shù)據(jù)量較少,在此應(yīng)用棄一法交叉驗證,得到CV結(jié)果為6.03?!盎卮ā钡玫降钠骄`差方差為5.24,低估了大約13%的預(yù)測誤差。
5.4交叉驗證5.4.1交叉驗證簡介圖5.4.2激素量殘差散點圖5.4交叉驗證5.4.1交叉驗證簡介能夠正確使用交叉驗證的方法非常重要。對于一個回歸或者分類問題,我們可能會按以下步驟進行分析:變量初步篩選:使用全部數(shù)據(jù)在p個解釋變量中(通常p比較大)挑選出m個(m較?。┡c響應(yīng)變量最相關(guān)的變量。使用挑選出來的m個變量建立預(yù)測模型。使用交叉驗證方法估計調(diào)節(jié)參數(shù)和模型的預(yù)測誤差。實際結(jié)果表明這不是一個正確的分析方法5.4交叉驗證5.4.2進一步討論正確使用交叉驗證的方法應(yīng)該是:隨機將數(shù)據(jù)分成K份。對于每一部分?jǐn)?shù)據(jù)k=1,…,K:使用除了第k份以外的數(shù)據(jù)挑選與響應(yīng)變量最相關(guān)的m個變量;使用除了第k份以外的數(shù)據(jù)以及挑選出來的m個變量建立模型;使用上一步建立的模型測試它在第k份數(shù)據(jù)上的表現(xiàn)。5.4交叉驗證5.4.2進一步討論例5.4.2隨機生成一個樣本量為50的二分類樣本點,以及5000個服從標(biāo)準(zhǔn)正態(tài)分布的連續(xù)型解釋變量,這些解釋變量與響應(yīng)變量(二分類樣本點)是獨立的。在這個問題中,任一分類器的真實測試誤差應(yīng)為50%。首先使用全部數(shù)據(jù)在這5000個解釋變量中挑選出100個與響應(yīng)變量最相關(guān)的變量,用1-近鄰分類器模擬50次,并用交叉驗證計算平均誤差。然后在50個二分類樣本點中隨機選擇10個,計算其標(biāo)簽與預(yù)先挑選的100個解釋變量的標(biāo)簽的相關(guān)系數(shù)。5.4交叉驗證例5.4.2交叉驗證得到的平均誤差僅為3.4%,遠遠小于真實誤差50%。然而這些解釋變量和響應(yīng)變量的相關(guān)系數(shù)的平均值為0.33,遠遠大于真實值0。圖5.4.3錯誤方法的相關(guān)系數(shù)圖5.4交叉驗證例5.4.2正確方法結(jié)果:平均誤差為48.68%,平均相關(guān)系數(shù)接近0,相關(guān)系數(shù)的直方圖如圖5.4.4所示。圖5.4.4正確方法的相關(guān)系數(shù)圖5.4交叉驗證交叉驗證可能存在的問題是因訓(xùn)練集數(shù)量減少而引起偏差。圖5.4.5給出了一個理論的假想情況,用于討論訓(xùn)練集樣本量與模型準(zhǔn)確性之間的關(guān)系。圖5.4.5訓(xùn)練集樣本量與模型準(zhǔn)確性關(guān)系示意圖5.4交叉驗證數(shù)據(jù)科學(xué)中的PCS準(zhǔn)則PART5.55.5數(shù)據(jù)科學(xué)中的PCS準(zhǔn)則數(shù)據(jù)科學(xué)生命周期(DSLC)以某一實際問題為開端,歷經(jīng)數(shù)據(jù)收集,管理、處理與清洗、探索、建模等過程,
并最終闡釋數(shù)據(jù)結(jié)果來指導(dǎo)新的行為(見圖5.5.1)。由于整個處理過程的跨學(xué)科多樣性,數(shù)據(jù)科學(xué)需要那些既掌握了數(shù)據(jù)領(lǐng)域又了解如何去收集處理數(shù)據(jù)的人才參與。經(jīng)過整個DSLC,參與者可以做出含蓄的或者明確的決策。數(shù)據(jù)科學(xué)要求有豐富嚴(yán)格的語言對行為決策中的實證信息進行傳播和評估。最近YuandKumbier(2020)提出了數(shù)據(jù)科學(xué)的PCS準(zhǔn)則,包括可預(yù)測性(Predictability)、可計算性(Computability)和穩(wěn)定性(Stability),以在整個數(shù)據(jù)科學(xué)生命周期中提供有利可靠、透明清晰、可復(fù)現(xiàn)的結(jié)果。5.5數(shù)據(jù)科學(xué)中的PCS準(zhǔn)則圖5.5.1數(shù)據(jù)科學(xué)生命周期(DSLC)5.5.1DSLC中的PCS原則1.穩(wěn)定性假設(shè)啟動DSLC5.5數(shù)據(jù)科學(xué)中的PCS準(zhǔn)則下面首先介紹這三個原則并闡述他們在PCS框架中的作用。DSLC的最終目的是為未來行動獲取有價值的信息,不論是生物實驗、商業(yè)決策還是政府政策。穩(wěn)定性是一個有用的概念,可以解決另一位研究者做出其他適當(dāng)?shù)臎Q策時是否會獲得類似的結(jié)論。下面我們概述了在建模之前影響DSLC的穩(wěn)定性的考慮因素。問題構(gòu)建:DSLC開始于一個特定領(lǐng)域問題,這可以是假設(shè)驅(qū)動的或基于發(fā)現(xiàn)的。例如,生物學(xué)家可能想要發(fā)現(xiàn)調(diào)節(jié)基因表達的生物分子。在DSLC中,這個問題必須轉(zhuǎn)化為關(guān)于模型輸出或可以被測量或收集的數(shù)據(jù)分析的問題。通常會有多種方式將該問題轉(zhuǎn)換為數(shù)據(jù)科學(xué)問題。5.5數(shù)據(jù)科學(xué)中的PCS準(zhǔn)則數(shù)據(jù)收集:為了回答某一領(lǐng)域問題,領(lǐng)域?qū)<液蛿?shù)據(jù)科學(xué)家根據(jù)先前的知識和可用資源收集數(shù)據(jù)。當(dāng)這些數(shù)據(jù)用于指導(dǎo)未來的決策時,研究人員隱含地假設(shè)數(shù)據(jù)與未來時間和未來條件相關(guān)。換句話說,他們假設(shè)影響數(shù)據(jù)收集的條件是穩(wěn)定的,至少相對于數(shù)據(jù)的某些方面而言是這樣的。5.5.1DSLC中的PCS原則數(shù)據(jù)清洗和預(yù)處理:統(tǒng)計和機器學(xué)習(xí)模型或算法可幫助數(shù)據(jù)科學(xué)家回答某一領(lǐng)域的問題。使用這些模型或算法需要將原始數(shù)據(jù)清理或處理成合適的格式,不管是分類人口統(tǒng)計特征還是生物標(biāo)記物濃度的連續(xù)測量。探索性數(shù)據(jù)分析(EDA):在建模階段之前和事后分析時,數(shù)據(jù)科學(xué)家經(jīng)常參與探索性數(shù)據(jù)分析,以識別數(shù)據(jù)中的關(guān)系并解釋數(shù)據(jù)結(jié)果。當(dāng)使用可視化或描述總結(jié)來傳達這些分析時,隱含假設(shè)數(shù)據(jù)之間的關(guān)系或數(shù)據(jù)結(jié)果相對于數(shù)據(jù)科學(xué)家做出的任何決策是穩(wěn)定的。5.5數(shù)據(jù)科學(xué)中的PCS準(zhǔn)則(1)構(gòu)建預(yù)測我們用數(shù)據(jù)D=(x,y)描述了預(yù)測的一般框架,其中x∈??代表輸入特征,??∈??表示預(yù)測目標(biāo)。預(yù)測準(zhǔn)確性提供了一個簡單的定量度量,用于評估模型在D中表現(xiàn)數(shù)據(jù)關(guān)系的程度。它相對于預(yù)測函數(shù)、測試數(shù)據(jù)和評估函數(shù)是意義明確的。我們將在下面詳細介紹這些元素。5.5.1DSLC中的PCS原則2.可預(yù)測性作為對現(xiàn)實的檢驗5.5數(shù)據(jù)科學(xué)中的PCS準(zhǔn)則5.5.1DSLC中的PCS原則預(yù)測函數(shù):
其中Λ表示模型/算法集合。更廣泛地說,Λ可以描述一組競爭算法,例如線性模型、隨機森林和神經(jīng)網(wǎng)絡(luò),每個算法對應(yīng)于不同的問題的轉(zhuǎn)換與理解。測試(留存)
數(shù)據(jù):我們區(qū)分用于擬合預(yù)測函數(shù)集合的訓(xùn)練數(shù)據(jù)和用于評估擬合預(yù)測函數(shù)精度的留存測試數(shù)據(jù)(在一些情況下,還使用一部分的驗證數(shù)據(jù)進行模型參數(shù)的選擇)。內(nèi)部測試數(shù)據(jù)是在與訓(xùn)練數(shù)據(jù)相同的條件下收集,至少應(yīng)該評估內(nèi)部測試數(shù)據(jù)的預(yù)測準(zhǔn)確性。5.5數(shù)據(jù)科學(xué)中的PCS準(zhǔn)則
(2)交叉驗證如前所述,當(dāng)數(shù)據(jù)大體為i.i.d時,交叉驗證(CV)已成為選擇正則化參數(shù)的強大工具。CV將數(shù)據(jù)劃分為幾個部分,在除一個部分之外的所有其他數(shù)據(jù)上訓(xùn)練模型,并評估每個留存部分上的預(yù)測誤差。也就是說,CV通過評估模型是否準(zhǔn)確地預(yù)測偽重復(fù)的響應(yīng)來體現(xiàn)可重復(fù)的科學(xué)原則。CV作為選擇正則化參數(shù)的工具比作為預(yù)測誤差的估計更有效,是因為CV誤差在匯總時與估計的預(yù)測誤差之間經(jīng)常存在正相關(guān)性,由此產(chǎn)生了更大變動。5.5數(shù)據(jù)科學(xué)中的PCS準(zhǔn)則5.5.1DSLC中的PCS原則3.可計算性從廣義上講,可計算性是數(shù)據(jù)科學(xué)的把關(guān)人。
從狹義上講,可計算性是指算法或模型構(gòu)建的計算可行性。計算技術(shù)的進步提升了我們在實踐中分析數(shù)據(jù)結(jié)果穩(wěn)定性的能力。5.5數(shù)據(jù)科學(xué)中的PCS準(zhǔn)則5.5.1DSLC中的PCS原則4.建模階段的穩(wěn)定性在建模階段,穩(wěn)定性測量了數(shù)據(jù)或模型受到擾動時數(shù)據(jù)結(jié)果的變化程度。
穩(wěn)定性擴展延伸了統(tǒng)計中抽樣數(shù)據(jù)變動的概念,這是相對于可以從同一分布產(chǎn)生的其他數(shù)據(jù)的不穩(wěn)定性的度量。統(tǒng)計不確定性的評估默認產(chǎn)生數(shù)據(jù)的分布形式是穩(wěn)定的。該假設(shè)強調(diào)了在類似條件下可以觀察到的其他數(shù)據(jù)集的重要性(例如,實驗室中的另一個人或另一個時間的另一個實驗室)。我們說我們研究問題服從概率分布,分布的概念是一種構(gòu)想。當(dāng)明確地進行隨機抽樣時,可以將真實分布視為客觀存在。5.5數(shù)據(jù)科學(xué)中的PCS準(zhǔn)則5.5.1DSLC中的PCS原則4.建模階段的穩(wěn)定性否則,它是一個心理構(gòu)想,必須通過相關(guān)領(lǐng)域知識和對數(shù)據(jù)生成過程和下游功效性的理解來證明。統(tǒng)計推斷使用分布來得出關(guān)于現(xiàn)實世界的結(jié)論。這些結(jié)論的相關(guān)性需要對假定的真實分布進行實證支持,特別是當(dāng)它是一種心理構(gòu)想時。在數(shù)據(jù)科學(xué)和統(tǒng)計問題中,研究人員通常不會嘗試對這種內(nèi)心結(jié)構(gòu)的分布進行證明。與此同時,他們非常重視不確定性結(jié)論。5.5數(shù)據(jù)科學(xué)中的PCS準(zhǔn)則雖然穩(wěn)定性原理包含了關(guān)于不確定性的度量(當(dāng)真正的分布結(jié)構(gòu)得到很好的支持時),但它旨在涵蓋更廣泛的擾動,例如問題確立、預(yù)處理、EDA、隨機算法以及模型或算法的選擇。5.5.1DSLC中的PCS原則雖然很少在實踐中進行,但評估整個DSLC的穩(wěn)定性是必要的,以確保結(jié)果是可靠的和可復(fù)現(xiàn)的。例如,研究基因調(diào)控的生物學(xué)家必須選擇如何標(biāo)準(zhǔn)化原始數(shù)據(jù)以及她將在分析中使用哪些算法。當(dāng)沒有原則性的方法來做出這些決定時,科學(xué)家從分析中提取的信息知識數(shù)據(jù)僅限于在適當(dāng)?shù)倪x擇中保持穩(wěn)定的結(jié)論。這確保了研究相同數(shù)據(jù)的另一位科學(xué)家將得出類似的結(jié)論,盡管他們各自的選擇略有不同。5.5數(shù)據(jù)科學(xué)中的PCS準(zhǔn)則5.5.1DSLC中的PCS原則(1)建模階段的穩(wěn)定性建模階段的穩(wěn)定性是指:相對于所要考慮的目標(biāo),對數(shù)據(jù)、算法或模型進行適當(dāng)?shù)臄_動,以及用于測量由擾動產(chǎn)生的目標(biāo)變化的程度.我們將在下面詳細闡釋。穩(wěn)定性目標(biāo):穩(wěn)定性目標(biāo)
對應(yīng)于感興趣的數(shù)據(jù)結(jié)果或估計值。它取決于輸入的數(shù)據(jù)D和用于分析數(shù)據(jù)的特定模型或算法??。為簡單起見,我們有時會在符號中省略對D和??的依賴。數(shù)據(jù)和模型/算法擾動:為了評估數(shù)據(jù)結(jié)果的穩(wěn)定性,我們測量目標(biāo)T的變化,該變化是由對輸入數(shù)據(jù)或?qū)W習(xí)算法的擾動引起的。更準(zhǔn)確地說,我們定義了數(shù)據(jù)擾動D和模型/算法擾動Λ的集合,并計算穩(wěn)定性目標(biāo)分布。
5.5數(shù)據(jù)科學(xué)中的PCS準(zhǔn)則穩(wěn)定性評估指標(biāo):穩(wěn)定性評估指標(biāo)s(??;??;Λ)總結(jié)了方程公式(5.5.5)中的穩(wěn)定性目標(biāo)分布。例如,如果T表示由在數(shù)據(jù)D上訓(xùn)練的模型選擇的特征,我們可以報告在數(shù)據(jù)擾動D∈??中每個特征被選中次數(shù)的比例。當(dāng)穩(wěn)定性評估指標(biāo)與在模型或算法擾動中的目標(biāo)結(jié)合時,重要的是這些不同的目標(biāo)有適當(dāng)?shù)牧烤V以確??杀刃?。5.5數(shù)據(jù)科學(xué)中的PCS準(zhǔn)則(2)數(shù)據(jù)擾動穩(wěn)定性原則下的數(shù)據(jù)擾動的目標(biāo)是模仿本可以用于產(chǎn)生最終輸入數(shù)據(jù)但并沒有的過程。這包括人為決策,例如預(yù)處理和數(shù)據(jù)清理,以及數(shù)據(jù)生成機制。利用來自于充分證明概率的模型獲得可能的數(shù)據(jù)實現(xiàn)后,我們關(guān)注于目標(biāo)的變化,并且同時我們在統(tǒng)計中得出了充分合理的抽樣變異性考慮因素。因此,穩(wěn)定性原則下的數(shù)據(jù)擾動包括抽樣變異性,但是比后者的概念更廣泛。它正式承認了DSLC中除樣本可變性之外的許多其他重要因素。此外,當(dāng)概率模型沒有被充分證明并因此抽樣的解釋不適用時,它提供了一個框架來建立對T估計的置信度。5.5數(shù)據(jù)科學(xué)中的PCS準(zhǔn)則算法或模型擾動的目標(biāo)是為了明確對相同數(shù)據(jù)的替代性分析如何影響目標(biāo)估計。一個經(jīng)典的數(shù)據(jù)模型擾動的例子來自于穩(wěn)健性統(tǒng)計,其中通過考慮具有比高斯模型更厚的尾部的替代模型來搜索位置族的均值的穩(wěn)健性估計。模型擾動的另一個例子是貝葉斯模型中的靈敏度分析。在因果推理中使用的許多模型條件實際上是穩(wěn)定性的概念,它通過斷言不同的條件分布是相同的來排除混淆因素的影響。(3)算法或模型擾動5.5數(shù)據(jù)科學(xué)中的PCS準(zhǔn)則(3)算法或模型擾動現(xiàn)代算法通常包含隨機成分,例如隨機投影或梯度下降中的隨機初始值和隨機梯度下降。這些隨機成分提供了可用于評估穩(wěn)定性T的自然模型的擾動。除使用單一算法的隨機成分之外,還可以使用多個模型或者算法來評估目標(biāo)的穩(wěn)定性。當(dāng)有許多適當(dāng)?shù)哪P突蛘咚惴ㄟx擇,并且沒有既定標(biāo)準(zhǔn)或沒有給定的領(lǐng)域知識可供選擇時,采用這個辦法是有用的。穩(wěn)定性原則要求僅解釋在這些算法或模型選擇中穩(wěn)定的感興趣的目標(biāo)。與數(shù)據(jù)擾動一樣,模型擾動可以幫助減少目標(biāo)中的變異性或不穩(wěn)定性。5.5數(shù)據(jù)科學(xué)中的PCS準(zhǔn)則5.5.1DSLC中的PCS原則5.生成模型在PCS中的雙重作用生成模型是指事先假定的數(shù)據(jù)生成機制,一般包括概率模型和具有初始或邊界條件的偏微分方程(PDE)。這些模型在PCS框架中扮演著雙重角色。一方面,他們可以簡明地總結(jié)過去的數(shù)據(jù)和先驗知識。
另一方面,它們可用于生成提供數(shù)據(jù)擾動形式的合成觀測值。當(dāng)使用生成模型來總結(jié)數(shù)據(jù)時,常見的感興趣的目標(biāo)是模型的參數(shù)。用來近似數(shù)據(jù)生成過程的生成模型,可以用作數(shù)據(jù)擾動的一種形式。在這里,使用生成模型新生成的數(shù)據(jù)加強了觀察到的數(shù)據(jù)。與觀察數(shù)據(jù)相結(jié)合的合成數(shù)據(jù)反映了我們對模型的信任程度。可以將相同的算法和計算平臺應(yīng)用于組合數(shù)據(jù)。5.5數(shù)據(jù)科學(xué)中的PCS準(zhǔn)則5.5.1DSLC中的PCS原則6.PCS原則之間的聯(lián)系雖然我們已經(jīng)單獨討論了PCS的三個原則,但它們有著重要的聯(lián)系。
計算方面的考慮可能會限制方便易行的預(yù)測模型或者算法,特別是對于大型高維數(shù)據(jù)集。這些可靠性問題通常通過可擴展的優(yōu)化方法(如梯度下降(GD)或隨機梯度下降(SGD))來解決。評估留存數(shù)據(jù)的可預(yù)測性是穩(wěn)定性分析的一種形式,其中訓(xùn)練或測試樣本拆分代表數(shù)據(jù)擾動。用于評估穩(wěn)定性的其他擾動需要多次進行類似的分析。并行計算非常適合這些擾動。5.5數(shù)據(jù)科學(xué)中的PCS準(zhǔn)則5.5.2通過擾動分析進行PCS推斷當(dāng)數(shù)據(jù)結(jié)果用來引導(dǎo)未來決策和行動時,對目標(biāo)估計的質(zhì)量非常重要。
預(yù)測的變異性傳達了關(guān)于人們的信任程度的重要信息。在傳統(tǒng)統(tǒng)計中,置信度描述了在得到充分證明的概率模型下由于抽樣數(shù)據(jù)變動導(dǎo)致的估計的不確定性。5.5數(shù)據(jù)科學(xué)中的PCS準(zhǔn)則5.5.2通過擾動分析進行PCS推斷但是,整個DSLC的決策增加了另一層不確定性,可能會讓數(shù)據(jù)結(jié)果產(chǎn)生偏差。這個問題在建模階段曾有人提出,他們推導(dǎo)出“黑客區(qū)間(hackingintervals)”來評估針對可能的數(shù)據(jù)集和算法擾動優(yōu)化的描述統(tǒng)計量的范圍。
在PCS框架中,我們提出擾動區(qū)間(perturbationinterval)來量化目標(biāo)估計相對于不同擾動的穩(wěn)定性,包括數(shù)據(jù)清理/預(yù)處理和問題轉(zhuǎn)換。擾動區(qū)間在概念上類似于置信區(qū)間。主要的不同之處在于擾動區(qū)間明確地與擾動相關(guān)聯(lián),并由獨立研究者和領(lǐng)域?qū)<疫M行評估。5.5數(shù)據(jù)科學(xué)中的PCS準(zhǔn)則5.5.2通過擾動分析進行PCS推斷舉個例子,基于自助抽樣的單個方法的擾動區(qū)間專門針對基于自助法的傳統(tǒng)置信區(qū)間。更廣泛地說,擾動區(qū)間量化了整個DSLC上目標(biāo)參數(shù)的可變性。它們的可靠性在一定程度上取決于這組擾動是否考慮了整個DSLC過程可以做出的全部適當(dāng)?shù)倪x擇,這應(yīng)由領(lǐng)域?qū)<液酮毩⒀芯咳藛T進行評估。這突出了擾動的重要性,該擾動可以合理地生成觀測數(shù)據(jù),盡可能地代表分析的不確定性范圍,并且透明公開地記錄以供其他人評估。作為一個起點,我們專注于涵蓋了傳統(tǒng)統(tǒng)計推斷的基本形式的PCS推理。
我們的推斷方法允許一系列數(shù)據(jù)和算法或模型擾動,使其在整個DSLC中表示不確定性的能力變得更加靈活。5.5數(shù)據(jù)科學(xué)中的PCS準(zhǔn)則5.5.2通過擾動分析進行PCS推斷1.PCS擾動區(qū)間(1)問題構(gòu)想將領(lǐng)域問題翻譯成數(shù)據(jù)科學(xué)問題,并指出解決問題的方法。
定義預(yù)測目標(biāo)y,適當(dāng)?shù)臄?shù)據(jù)D或模型Λ擾動,預(yù)測函數(shù)?(??):??∈Λ,訓(xùn)練/測試數(shù)據(jù)分割,預(yù)測評估的度量l,穩(wěn)定性度量s和穩(wěn)定性目標(biāo)T(D,??)。記錄為什么這些選擇適合于特定領(lǐng)域的問題。5.5數(shù)據(jù)科學(xué)中的PCS準(zhǔn)則5.5.2通過擾動分析進行PCS推斷1.PCS擾動區(qū)間(2)預(yù)測篩選對于閾值??,篩選出不能有效擬合數(shù)據(jù)的模型(通過預(yù)測精度衡量)
適當(dāng)閾值的示例包括領(lǐng)域內(nèi)可接受基準(zhǔn)、最好的k個模型或精度與最準(zhǔn)確模型類似的模型。如果分析的目標(biāo)是預(yù)測,則應(yīng)該留存測試數(shù)據(jù),直到在步驟4中報告模型的最終預(yù)測準(zhǔn)確性。當(dāng)測試數(shù)據(jù)不能用于篩選模型時,上式可以通過代理樣本分割方法(例如CV)進行評估。如果分析的目標(biāo)超出預(yù)測(例如,特征選擇),則上式可以對留存的測試數(shù)據(jù)進行評估。5.5數(shù)據(jù)科學(xué)中的PCS準(zhǔn)則5.5.2通過擾動分析進行PCS推斷1.PCS擾動區(qū)間(3)目標(biāo)值擾動分布對于來自步驟2的每個篩選下的模型Λ?,計算每個數(shù)據(jù)擾動D下的穩(wěn)定性目標(biāo)。這導(dǎo)致目標(biāo)會與數(shù)據(jù)和模型擾動上產(chǎn)生聯(lián)合分布,
如公式(5.5.5)所示。對于一系列擾動的集合,要求在所有擾動中目標(biāo)T的穩(wěn)定性在犯第一類錯誤方面比對任何單個擾動要求的穩(wěn)定性更加保守。但是,不同的領(lǐng)域問題需要控制不同類型的錯誤。因此,如何以及何時將結(jié)果與擾動結(jié)合起來算是一種人為判斷與決定,應(yīng)該清晰地證明和記錄。5.5數(shù)據(jù)科學(xué)中的PCS準(zhǔn)則5.5.2通過擾動分析進行PCS推斷1.PCS擾動區(qū)間(4)擾動結(jié)果報告使用穩(wěn)定性指標(biāo)s可以總結(jié)目標(biāo)值擾動分布。例如,如果T是一維的,我們可以使用第10和第90百分位數(shù)或數(shù)據(jù)可視化來總結(jié)其擾動分布。如果T是多維的,我們可以展現(xiàn)擾動分布的低維投影。當(dāng)擾動結(jié)果通過模型或者算法和目標(biāo)值相關(guān)聯(lián)時,可能需要重新調(diào)整它們以確??杀刃浴.?dāng)針對模型或算法擾動單獨報告擾動區(qū)間時,在步驟2中評估的預(yù)測準(zhǔn)確度可以用作對每個區(qū)間進行對比排序的可靠度量。5.5數(shù)據(jù)科學(xué)中的PCS準(zhǔn)則5.5.2通過擾動分析進行PCS推斷2.PCS假設(shè)檢驗傳統(tǒng)統(tǒng)計中的假設(shè)檢驗通常用于科學(xué)和商業(yè)決策。
盡管假設(shè)檢驗在道理上是行得通的,但它依賴的許多假設(shè)在實踐中是無法實現(xiàn)的。今天實踐中的假設(shè)檢驗通常依賴于分析近似或蒙特卡羅方法,其中出現(xiàn)了這種小概率估計的問題。實際上,有一個專門的重要抽樣領(lǐng)域來處理模擬小概率情形,但這些思想在實踐中尚未被重視。5.5數(shù)據(jù)科學(xué)中的PCS準(zhǔn)則5.5.2通過擾動分析進行PCS推斷PCS假設(shè)檢驗建立在擾動區(qū)間的基礎(chǔ)上,以解決這些實際問題和有關(guān)較小p值的認知錯覺。它使用原假設(shè)來定義代表合理數(shù)據(jù)生成過程的有限擾動,在理想情況下,它甚至可以對應(yīng)于現(xiàn)有的科學(xué)理論。這些理論包括概率模型(如果這些模型可以被充分證明的話),以及其他數(shù)據(jù)或算法擾動。通過考慮各種各樣的擾動,PCS假設(shè)檢驗允許我們將觀察到的數(shù)據(jù)與有代表性的領(lǐng)域問題的數(shù)據(jù)進行比較,后者遵循一些該領(lǐng)域內(nèi)的簡單架構(gòu)。當(dāng)然,擾動是否適當(dāng)是一種人為的判斷,要在PCS文檔中清楚地傳達并由研究人員進行討論。
就像科學(xué)家在實驗中考慮要進行適當(dāng)控制一樣,數(shù)據(jù)科學(xué)家應(yīng)該在PCS分析中討論適當(dāng)?shù)臄_動。5.5數(shù)據(jù)科學(xué)中的PCS準(zhǔn)則5.5.2通過擾動分析進行PCS推斷PCS假設(shè)檢驗的數(shù)學(xué)形式:我們考慮具有可觀測輸入特征??∈??、預(yù)測目標(biāo)??∈??、預(yù)測函?(??):??∈Λ以及定性地描述領(lǐng)域問題的某些方面的原假設(shè)的情況。PCS假設(shè)檢驗將原假設(shè)轉(zhuǎn)換為受約束的擾動并根據(jù)這種擾動生成的數(shù)據(jù):
約束擾動的特定選擇應(yīng)明確記錄并通過領(lǐng)域知識證明其合理性。我們使用受約束的擾動來構(gòu)造和比較??0和D的擾動區(qū)間,并評估觀察到的數(shù)據(jù)是否與內(nèi)在假設(shè)一致。5.5數(shù)據(jù)科學(xué)中的PCS準(zhǔn)則5.5.2通過擾動分析進行PCS推斷例5.5.1稀疏線性模型背景下的PCS推斷的模擬研究在本例中,我們通過模擬研究來考慮所提出的PCS擾動區(qū)間。
我們專注于稀疏線性模型中的特征選擇,以展示PCS推斷在ROC評價標(biāo)準(zhǔn)下可以得到很好的結(jié)果。本例最后的補充知識給出了稀疏線性模型和ROC的簡單介紹。不僅在這種簡單的假設(shè)下,PCS推斷具有良好的性能,它的主要優(yōu)勢在于它具有對當(dāng)今數(shù)據(jù)科學(xué)家所面臨的新情況的普適性。也就是說,PCS可以應(yīng)用于任何可以定義適當(dāng)擾動的算法或分析。5.5數(shù)據(jù)科學(xué)中的PCS準(zhǔn)則5.5.2通過擾動分析進行PCS推斷例5.5.1給定n=1000,p=630,????=(????1,????2,?,??????
),??=1,2,?,??。并且進行了標(biāo)準(zhǔn)化。隨機選擇了??=?√???=25個活動特征來生成響應(yīng),也就是說630個自變量中只有25個是有效的。????
=1代表特征活躍,反之則為0,??∈????代表來自于各種分布中的噪聲。一共考慮了6種不同的情況。
5.5數(shù)據(jù)科學(xué)中的PCS準(zhǔn)則5.5.2通過擾動分析進行PCS推斷
5.5數(shù)據(jù)科學(xué)中的PCS準(zhǔn)則5.5.2通過擾動分析進行PCS推斷
模型存在變量遺漏(Misspecified_miss)模型形式設(shè)定錯誤(Misspecified_rule):
5.5數(shù)據(jù)科學(xué)中的PCS準(zhǔn)則5.5.2通過擾動分析進行PCS推斷數(shù)據(jù)按照以上形式生成,其中S代表將25個活躍變量隨機兩兩結(jié)對所得的13對變量(其中1對只有單個變量)組成的集合。建模時采用線性模型,代表模型形式設(shè)定有誤的情形。對于以上各種情況,我們使用PCS擾動區(qū)間評估lasso模型進行特征選擇的效果。下面是構(gòu)造這種區(qū)間的每個步驟。(1)我們的預(yù)測目標(biāo)是模擬響應(yīng)Y,我們的穩(wěn)定性目標(biāo)是Y關(guān)于X回歸時選擇的特征的集合???{1,2,?,??}。為了評估預(yù)測準(zhǔn)確性,我們隨機抽取50%的觀察結(jié)果作為留存測試集。
(2)我們以平方預(yù)測誤差為標(biāo)準(zhǔn)通過選取對應(yīng)于~10個最準(zhǔn)確模型的??構(gòu)建了一系列篩選過的模型集合???
。對于數(shù)據(jù)的擾動,我們使用bootstrap方法,B=100次。由于我們的分析目標(biāo)是特征選擇,我們評估了留存測試數(shù)據(jù)的預(yù)測準(zhǔn)確性。我們對每一半數(shù)據(jù)重復(fù)以下步驟,并對最終結(jié)果進行平均。(3)對每一個??∈Λ?和b=1,…,100,我們用??(??
(??),??)來表示由懲罰參數(shù)??,第b個自助法樣本擬合lasso模型選擇的特征。5.5數(shù)據(jù)科學(xué)中的PCS準(zhǔn)則5.5.2通過擾動分析進行PCS推斷5.5數(shù)據(jù)科學(xué)中的PCS準(zhǔn)則5.5.2通過擾動分析進行PCS推斷(4)對于數(shù)據(jù)和模型擾動得到的一系列??可以被看成穩(wěn)定性區(qū)間。計算每一個特征????,??=1,?,??的穩(wěn)定性得分:其中,B=100,|Λ?|=10。直觀地,穩(wěn)定性分?jǐn)?shù)反映了我們對模型中給定特征是活躍的信任程度,較高分?jǐn)?shù)意味著更高程度的確定性。在實踐中,這些得分可用于對特征進行排名并識別最可靠的集合以供進一步考慮(例如,實驗驗證)。
5.5數(shù)據(jù)科學(xué)中的PCS準(zhǔn)則5.5.2通過擾動分析進行PCS推斷將上述PCS穩(wěn)定性分?jǐn)?shù)與傳統(tǒng)漸近正態(tài)性檢驗的方法進行了對比。具體做法是,使用lasso方法選出特征,使用這些特征擬合普通的最小二乘回歸,對每個系數(shù)進行檢驗,得到一系列p值????。該值越小,就越傾向拒絕原假設(shè),認為該變量的系數(shù)不應(yīng)該為零,該變量屬于活躍集合。因此在繪制ROC曲線時,采用得分1?????。5.5數(shù)據(jù)科學(xué)中的PCS準(zhǔn)則5.5.2通過擾動分析進行PCS
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 高一期末考必修上冊高頻理解性名句默寫100題(混編版+含答案)
- 幼兒園教師崗位培訓(xùn)教材及教案
- 2025-2030湘菜行業(yè)消費群體特征與需求趨勢研究
- 2025-2030消防設(shè)備經(jīng)銷商渠道數(shù)字化轉(zhuǎn)型與價值重塑研究
- 2025-2030消防安全設(shè)施檢測與建筑安全評估新方法手冊
- 2025-2030消防噴淋系統(tǒng)行業(yè)市場供需分析及投資評估規(guī)劃分析研究報告
- 2025-2030消費級無人機適航認證進展與空域管理政策適配性研究報告
- 2025-2030消費級3D打印材料性能升級與家庭場景滲透率預(yù)測
- 2025-2030消費電子行業(yè)技術(shù)革新市場分析及投資規(guī)劃書
- 2025-2030涅斯特行業(yè)市場現(xiàn)狀競爭優(yōu)勢發(fā)展評估規(guī)劃分析研究
- 南寧市人教版七年級上冊期末生物期末考試試卷及答案
- 項目安全生產(chǎn)管理辦法
- 小學(xué)美術(shù)科組匯報
- 手術(shù)室膽囊結(jié)石護理查房
- 2024年江西新能源科技職業(yè)學(xué)院公開招聘輔導(dǎo)員筆試題含答案
- 機械門鎖維修施工方案
- QGDW10384-2023輸電線路鋼管塔加工技術(shù)規(guī)程
- 江蘇省南通市2025年中考物理試卷(含答案)
- 《養(yǎng)老機構(gòu)智慧運營與管理》全套教學(xué)課件
- 非車險業(yè)務(wù)拓展創(chuàng)新工作總結(jié)及工作計劃
- 電子商務(wù)畢業(yè)論文5000
評論
0/150
提交評論