版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
統(tǒng)計學(xué),你知道P?
我們只邀請神圣的好奇心來關(guān)注!
無論怎樣的分布、樣本,變成p值后的統(tǒng)計量,如同墜入。?1之間的落魄靈魂,等待那
個神秘的0.05來裁決其命運。
P-value是?個廣為人知的統(tǒng)計學(xué)術(shù)語,卻也是被人們誤用最多誤會最深的統(tǒng)計學(xué)概念。
P-value實際上是一個條件概率,指的是{觀測值及更極端事件}在零假設(shè)成立的條件下
發(fā)生的概率。其中極端是指比觀測值發(fā)生的概率更小。
寫在前面,統(tǒng)計學(xué)的輪廓
雖然現(xiàn)代統(tǒng)計學(xué)已經(jīng)發(fā)展出浩如瀚海的內(nèi)容,但最基木、最常用的經(jīng)典統(tǒng)計學(xué)一般還是
分為描述統(tǒng)計和推斷統(tǒng)計,
所程度
元網(wǎng)閥F1/生存分析形狀
通法猊6學(xué)\
相鬢住
:力害
(H日分析
美m(xù)w
線曲曰/幅關(guān)與啪分析卜
廣義線餞然身?5ctet+
■M2
-qr
生松崎印F
不安投研穴
工耿廿
?及田統(tǒng)計Nig
壯會統(tǒng)的
rttett:點估計、區(qū)間15計
空的忤;P「準(zhǔn)價第卜
色色檢K.介數(shù)檢驗
:金信號:幺力
貝葉R推斷Z“30
由思想到方法到工具
要準(zhǔn)確地解釋和正確地理解P-value,必須回到統(tǒng)計檢驗的思想起源。
假設(shè)檢驗理論體系的建立,要歸功于E.Pearson和J.Neyman(l928)的工作。而實用層面
則以K.Pearson(E.Pearson之父)和Fisher兩位大師所主導(dǎo)。而更早前,也有人提及和研究過
若干零散、孤立的特定檢檢問題。
P值是Fisher(1922)提出來的“顯著性檢驗”理論體系中的概念。顯著性檢驗的理論在當(dāng)
時針對的是K.Pearson的大樣本理論。
K.Pearson主張獲取更多的數(shù)據(jù)來做出更好的回歸(擬合與預(yù)測),而Fisher主張用精巧
的試驗設(shè)計和顯著性檢驗來達成較小樣本即可解決問題,反對?味追求大量數(shù)據(jù)而忽視對探
索過程的優(yōu)化。
這個人沒有決意過日子,
而是決定去認(rèn)識,
這個人葬在哪里?
在這里一一這里是他的歸宿。
這里濃云密布,
電光閃閃,
星轉(zhuǎn)斗移。
讓歡樂驅(qū)除風(fēng)暴,
讓平和普降甘霖!
高超的設(shè)計必須通過相同的結(jié)局,
高尚地安息。
永別了一一難道還有比人間更崇高的生與死。
----統(tǒng)計學(xué)之父KarlPearson生前最愛的詩
E.Pearson試圖彌合父親K.Pearson與Fisher之間的學(xué)術(shù)分歧,與Neyman一拍即合,兩
人一起提出了“假設(shè)檢驗”理論。
Neyman-Pearson的假設(shè)檢驗理論兩個突出的特點是:
引入了檢驗功效的概念;
明確了構(gòu)造統(tǒng)計量的一般方法;
同時也導(dǎo)致了需要在不同的。刖值下頻繁構(gòu)造最優(yōu)檢驗的大量研究,和在復(fù)合備擇假設(shè)
下的大量復(fù)雜功效計算。
為了消除神秘的a=0.05或0.01,Bayes學(xué)派明確將先驗概率放在初始條件中,發(fā)展出
蔚為壯觀的Bayes統(tǒng)計學(xué).其中蘊含頻率派理論作為一個古怪的特例。
在FisherNeyman-PearsonBayes等人的光輝思想指引下,各種通用或適合具體應(yīng)用
情景的檢驗方法紛紛涌現(xiàn),進而不斷編寫進matlab、Rspython>perl等語言的標(biāo)準(zhǔn)函數(shù)庫或
應(yīng)用包里。
提出P值概念的漁夫[Fisher)
RonaldAFisher最遲在1920年左右已經(jīng)發(fā)明P-valuc的概念。那時英國剛走出第一次世
界大戰(zhàn)的陰霾,Pishcr似乎還沒決定到底要干嘛:
夢想做一名皇家飛行員,卻終成數(shù)學(xué)爵士!
當(dāng)中學(xué)校長受不了學(xué)生的愚鈍,卻最終門生遍天下。
劍橋出身的Fisher有著不錯的人脈美系,跟K.Pearson,LeonardDarwin(提出進化論的
那個達爾文的兒子)都有書信往來。但出人意料的是,1919年冬,F(xiàn)isher謝絕了Pearson的邀
請,而踏著泥濘的鄉(xiāng)間小路加入了倫敦郊區(qū)的Rothamsted農(nóng)業(yè)實驗站。
從1919年到1933年的14年,Fisher埋頭于此,竭其所能狙擊當(dāng)時如日中天的K.Pearson,
他將完成現(xiàn)代統(tǒng)計學(xué)的基礎(chǔ)與統(tǒng)計遺傳學(xué)的框架。
Fisher和他的計算器
在這混沌未開之時,一手生物學(xué)一手統(tǒng)計學(xué)的Fisher兩線開戰(zhàn)。面臨海量數(shù)據(jù),面臨諸
多決策,化繁為簡,F(xiàn)isher采用的數(shù)字化決策工具,也就是p值。(應(yīng)該提到的是:后期Fisher
更多采用likelihoodratio,這可能是他獨立于Neyman-Pearson引理中的最優(yōu)似然比的另一個
發(fā)明。例如,如今遺傳連鎖分析中的LOD或LRT實際上源自Fisher)o
P值的真正含義及其不堪重負(fù)
個體絢麗的紋理,在共識中漸漸褪去,最終呈現(xiàn)為沒有量綱的p值,在0~1之間搖擺不
定。
同一類型的實驗設(shè)計,會有不同樣本、不同操作、不同分析,但只要以p值的形式進行
相互比較,總是可行的。
Fisher當(dāng)時采用p值是為了內(nèi)部決策,但在科學(xué)高度分工的當(dāng)下,p值充當(dāng)著實驗之間
(或者作者與雜志之間)的橋梁,無可撼動地作為論文發(fā)表的一般等價物。
Morelikelyobservation
P值(即上圖綠色區(qū)域所示)就是零假設(shè)為真的條件下(觀測點及更極端事件}發(fā)生的概率。
對[一元情形下]極端方向的認(rèn)定,按分布函數(shù)曲線圖來說有三種情況:觀測點及其左側(cè)區(qū)域、
觀測點及其右側(cè)區(qū)域、概率函數(shù)值不超過觀測點的兩側(cè)區(qū)域之和。
那么在此提一個小問題:下圖試圖展示三種情況下的P-vHue公式,哪一個或哪幾個是
錯誤的呢(a=8為觀測點)?
P-value計算公式
EPQ)
p(i)<p(a)
i>a
£p(i)
p")4P(a)
£p⑴
p(i)<p(a)
i<a
可以看出,P值的定義非常明確、適用于所有概率分布;同時它也暗含著對“單峰”型以
外分布的排斥。
自作聰明的人總是試圖用看起來更通俗或者更多樣的方式來表述對P值的理解,然而
絕大多數(shù)都是錯誤的。
Goodman(2008)歸納了12種常見的P值誤解,并說“幾乎從不可能永遠正確地陳述它“。
一個根本的問題在于,很多人在理解中加入了本不屬于P值內(nèi)容的東西,比如對原假設(shè)
真假的論述、對拒絕或接受可靠性的期待、對假陰或假陽率的推論等等。
實際上,P值就是P值而已,它賴以存在的基礎(chǔ)是原假設(shè)成立這個條件,而不可能用P
值來肯定或否定原假設(shè)。
比如基于P-value=0.009來做出拒絕原假設(shè)的決定,意味著原假設(shè)成立的情況中該決定
有0.9%的概率是錯誤的;但常常容易說成是,該決定有0.9%的概率是錯誤的,遺漏掉了原
假設(shè)成立的關(guān)鍵前提。
雖然個別具體語境F似乎不會導(dǎo)致錯誤,然而不同研究者之間交流時,遺漏研究論斷的
前提會造成學(xué)術(shù)上的重大過失。
使用P值的Fisher依舊為難
首先是分布函數(shù)
相比財大氣粗、搞大數(shù)據(jù)的Pearson實驗室,F(xiàn)isher在Rothamsted的作坊以小樣本數(shù)據(jù)
為主。要命的是,小樣本下任何分布都不靠譜,相較而言,大樣本中引入分布要相對可靠的
多。Fisher心里明鏡似的。
為了克服樣本大小導(dǎo)入分布的風(fēng)險,F(xiàn)isher提出的另外?個策略是置換(pemiutation),
但那時無法有效實施置換——計算能力不夠。當(dāng)然現(xiàn)在置換已經(jīng)發(fā)展成為一種非常重要的隨
機化策略,Bootstrapping方法可視為其策略背后思想的另一種延伸和實現(xiàn)。
其次是閾值
統(tǒng)計算個P
5分鐘前:
p值算出來的,無非牯一個0-1之間的數(shù)字,如何選定決策區(qū)間或決策點?
Fisher選擇的閾值是“1/20”,也就是0.05。他的解釋是,就均勻分布而言,p值小于005,
意味著觀察到一個小概率事件。而單次實驗發(fā)生小概率事件,意味著本次實驗結(jié)果是一個不
平常的事件,也就有了進一步調(diào)查或者更進一步實驗的理由和依據(jù)。
舉個栗子
如果抓100枚硬幣,往天上一拋,落地后正面朝上的數(shù)目有95%的可能性在40?60之
間;而實際操作中,觀察到只有20枚正面,那么有理由猜測和進一步調(diào)查是否可能有人做
了手腳。
統(tǒng)計教學(xué)或教科書中,一般歸納為小概率原理,然而對0.05這個具體數(shù)值的選取合理
性避而不談。
P值就這樣開始進入量化決策領(lǐng)域了。Fisher還先后寫了好幾本書《StatisticalMethods
forResearchWorkers^和《TheDesignofExperiments》,其中都介紹了p值。
因為當(dāng)時計算能力有限,p值的計算采用了閾值的方法,到世紀(jì)之交,絕大多數(shù)教科書
中還是顯著性水平a,以及拒絕域、接受域,還有供查閱的各種概率分布的閾值對應(yīng)表,所
以當(dāng)時的人只能從Fishei"的書上查到p值大概是vO.l、<0.05,還是(0.01。
Fisher對于不顯著的p值的態(tài)度非常值得玩味,他不是覺得不顯著,而是覺得樣本太小,
無法檢測到顯著罷了。
在筆者看來,一個具體的檢驗相當(dāng)于一臺觀測儀器,p-value就是觀測的結(jié)果,p-value
是否顯著取決于觀測對象的真實情況的累積效應(yīng)和觀測儀器的分辨率。
瘋狂的0.05
歷史是健忘又頑固的倔老頭,偏偏記住了0.05。計算磯早就可以精確計算統(tǒng)計量的p值,
但大家還是習(xí)慣用0.01或者0.05作為閾值,于是引出無數(shù)公案,比如EricLander與Elston
關(guān)于全基因組基因定位分析的閾值的口水之爭。
P值雖不完善,但在一個封閉的流程里,前一次決策的損失稍后可以矯正。比如為了研
究遺傳連鎖,F(xiàn)isher自己設(shè)計實驗,把實驗用的老鼠養(yǎng)到家里,擁有完整流程的Fisher有能
力抵御p值決策的風(fēng)險。
但當(dāng)下的工業(yè)化科學(xué)中,各個流程完全分散,切成多段,財政獨立結(jié)算,成果獨立發(fā)表,
出現(xiàn)越來越多沖突的結(jié)果。有人批評這是因為p值不夠亞格,應(yīng)該從().()5提高到().01。實
際上主要問題在于科學(xué)生態(tài)的演化,各不負(fù)責(zé)的科學(xué)現(xiàn)狀,不是單單調(diào)整p值可以解決。
虛無還是替代
Fishei■引入p值,是為了量化決策,只是為了給出對原假設(shè)提出質(zhì)疑的理由,并沒有給
與p值太過于特殊的基礎(chǔ)。對于Fisher,很多讓別人抓破腦袋的事情,在他看來是“顯而易
見''的——盡管他視力非常不好。
相比之下,K.Pearson致力于獲取更大量的樣本和數(shù)據(jù),極大地發(fā)展了描述統(tǒng)計學(xué)并對
推斷統(tǒng)計學(xué)也有重要貢獻,奠定了其統(tǒng)計學(xué)之父的地位。
但是Fisher的試驗設(shè)計思想方法與顯著性檢驗理論一起贏得了眾多無法豪擲千金的科
學(xué)家的青睞。當(dāng)Fisher在與K.Pearson的斗爭中逐漸占據(jù)上風(fēng)、最終大獲全勝之時,卻跟
K.Pearson的兒子EgonPearson升級了戰(zhàn)火。
E.Pearson試圖彌合父親K.Pearson與Fisher之間的學(xué)術(shù)分歧,遇到從測度論進入統(tǒng)計領(lǐng)
域的Neyman后,兩人一拍即合,提出了“假設(shè)檢驗”理論,其中吸收了Fisher的顯著性檢驗
思想。相比于Fisher針對單一假設(shè)用P-value表示顯著性水平,著名的Neyman-Pearson引理
是說:最優(yōu)檢驗的統(tǒng)計量是備擇假設(shè)與原假設(shè)下的似然比,這導(dǎo)致了跟Fisher的“顯著性檢
驗”區(qū)別最大的概念功效或勢(poweroftest)o
但Fisher并不領(lǐng)情E.Pearson的做法,他似乎非常不喜歡Neyman的任何想法。如果
Neyman花力氣證明了一個Fisher曾經(jīng)所謂的“顯而易見''的結(jié)論,F(xiàn)isher必斥其理解錯誤。
如果Neyman拓展了Fisher的一個想法,F(xiàn)isher則又嘲笑其Neyman的想法多么無聊。
無論Fisher先生喜不喜歡,Neyman-Pearson理論衍生的功效計算(powercalculation),現(xiàn)
如今越來越受到重視,各種研究立項和基金申請都需要提供功效計算的證據(jù),從而保證研究
的成功率。如果Neyman-Pearson的原假設(shè)-備擇假設(shè)同時存在多個備擇假設(shè)的話,功效計算
必須錨定一個特定的備擇假設(shè)。
功效計算的框架下研究的成功率有一定保障,但也減少了研究彈性,特別對于那些以新
意取勝的小型化研究,幾乎沒有所謂的功效計算框架可以借鑒。不過,好在上有政策下有對
策,現(xiàn)在一般大家也都是拿已經(jīng)暗地里做完的項目去申請基金,然后用申請來的錢去尋找新
的alternativehypothesis。
持續(xù)升級的戰(zhàn)爭
P-value自身的局限性和使用者的誤用以及讀者的誤解,不斷成為農(nóng)學(xué)、醫(yī)學(xué)、遺傳學(xué)、
生物學(xué)、教育學(xué)、心理學(xué)、經(jīng)濟學(xué)、社會學(xué)等領(lǐng)域的方法論爭議焦點。而數(shù)學(xué)界與統(tǒng)計學(xué)家、
各專業(yè)領(lǐng)域的權(quán)威人士也一直呼吁新入門的研究者務(wù)必注意規(guī)范地使用P-value,還提出了
務(wù)必同時使用效應(yīng)量(effectsize)乃至MAGIC準(zhǔn)則。
P-value自身的局限性在隨著Bayes統(tǒng)計和序貫試驗設(shè)計范式的推進而得到一定程度的
解決,但是誤用誤解本身也反映出p-vakie的可解釋性存在問題。這一點跟深度學(xué)習(xí)所面臨
的部分爭議有異曲同工之處。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 山西省晉中市澤州2025-2026年九年級上期末語文試卷(含答案)
- 海南樂東黎族自治縣2025-2026學(xué)年八年級上學(xué)期末質(zhì)量監(jiān)測道德與法治試卷
- 2025-2026學(xué)年春統(tǒng)編版語文五級下冊第二單元綜合能力檢測情境卷(含答案)
- 2024年理縣幼兒園教師招教考試備考題庫附答案解析(必刷)
- 2025年云南外事外語職業(yè)學(xué)院單招職業(yè)技能考試模擬測試卷帶答案解析
- 2024年蕭縣幼兒園教師招教考試備考題庫帶答案解析
- 2025年浙江師范大學(xué)馬克思主義基本原理概論期末考試模擬題含答案解析(必刷)
- 2025年南京旅游職業(yè)學(xué)院單招職業(yè)傾向性測試題庫帶答案解析
- 2025年海南政法職業(yè)學(xué)院馬克思主義基本原理概論期末考試模擬題附答案解析
- 2025年廣東創(chuàng)新科技職業(yè)學(xué)院馬克思主義基本原理概論期末考試模擬題含答案解析(奪冠)
- 春節(jié)前停工停產(chǎn)安全培訓(xùn)課件
- 潔凈室安全管理培訓(xùn)內(nèi)容課件
- 真性紅細(xì)胞增多癥
- 臨床檢驗初級師歷年試題及答案2025版
- 文第19課《井岡翠竹》教學(xué)設(shè)計+2024-2025學(xué)年統(tǒng)編版語文七年級下冊
- 干部教育培訓(xùn)行業(yè)跨境出海戰(zhàn)略研究報告
- 車庫使用協(xié)議合同
- 組件設(shè)計文檔-MBOM構(gòu)型管理
- 山東省泰安市2024-2025學(xué)年高一物理下學(xué)期期末考試試題含解析
- 竹子產(chǎn)業(yè)發(fā)展策略
- 【可行性報告】2023年硫精砂項目可行性研究分析報告
評論
0/150
提交評論