統(tǒng)計(jì)學(xué)里“P”的故事_第1頁(yè)
統(tǒng)計(jì)學(xué)里“P”的故事_第2頁(yè)
統(tǒng)計(jì)學(xué)里“P”的故事_第3頁(yè)
統(tǒng)計(jì)學(xué)里“P”的故事_第4頁(yè)
統(tǒng)計(jì)學(xué)里“P”的故事_第5頁(yè)
已閱讀5頁(yè),還剩2頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

統(tǒng)計(jì)學(xué)里“P”的故事:蚊子、皇帝的新衣和不育的風(fēng)流才子來(lái)源:《自然》ReginaNuzzo時(shí)間:2023-05-2716:59:11【摘要】衡量統(tǒng)計(jì)真實(shí)性的“黃金標(biāo)準(zhǔn)”——P值,并非眾多科學(xué)家想象的那樣可靠。

衡量統(tǒng)計(jì)真實(shí)性的“黃金標(biāo)準(zhǔn)”——P值,并非眾多科學(xué)家想象的那樣可靠。

2023年某個(gè)瞬間,馬特·莫德?tīng)枺∕attMotyl)離享受科學(xué)榮譽(yù)僅有一步之遙。那時(shí),他發(fā)現(xiàn)政治極端主義者看到的世界是確實(shí)是非黑即白的。

實(shí)驗(yàn)結(jié)果“非常清楚”。莫德?tīng)栠@樣回憶道。他是夏洛茨維爾市弗吉尼亞大學(xué)的心理學(xué)博士生。他所做的一項(xiàng)涉及近2000人的研究中的數(shù)據(jù)似乎表明,與左翼或右翼人士相比,政治中立派能更準(zhǔn)確地辨別不同色度的灰色。他說(shuō):“實(shí)驗(yàn)的假設(shè)很有趣,而且數(shù)據(jù)也能夠有力支持實(shí)驗(yàn)假設(shè)。”用來(lái)衡量統(tǒng)計(jì)顯著性的常用指標(biāo)是P值。該實(shí)驗(yàn)中的P值為0.01,通常人們會(huì)認(rèn)為這說(shuō)明實(shí)驗(yàn)結(jié)果“非常顯著”。莫德?tīng)柺钟邪盐漳馨炎约旱恼撐陌l(fā)表在高影響因子的刊物上。

但是,現(xiàn)實(shí)無(wú)情地粉碎了幻想。由于擔(dān)心實(shí)驗(yàn)結(jié)果陷入再現(xiàn)性爭(zhēng)論,莫德?tīng)柡退膶?dǎo)師布萊恩?諾塞克(BrianNosek)決定重復(fù)實(shí)驗(yàn)。添加了新的數(shù)據(jù)之后,P值變成了0.59,這個(gè)數(shù)字遠(yuǎn)未達(dá)到學(xué)界一般能接受的顯著性水平0.05。莫德?tīng)栍^察到的心理學(xué)效應(yīng)沒(méi)有了,他年少成名的夢(mèng)也被打碎了。

其實(shí),不是莫德?tīng)柕臄?shù)據(jù)或分析出了什么問(wèn)題,而是P值這個(gè)指標(biāo)出了問(wèn)題。從本質(zhì)上講,這個(gè)指標(biāo)出人意料的不穩(wěn)定,它并不是大多數(shù)科學(xué)家想象的那樣可靠和客觀?!癙值沒(méi)有起到人們期望的作用,因?yàn)樗鼔焊筒豢赡芷鸬竭@個(gè)作用?!币晾Z伊州芝加哥市羅斯福大學(xué)的經(jīng)濟(jì)學(xué)家斯蒂芬?茲利亞克(StephenZiliak)這樣說(shuō),他經(jīng)常批評(píng)統(tǒng)計(jì)學(xué)的應(yīng)用方式。

出于對(duì)實(shí)驗(yàn)可重復(fù)性的擔(dān)憂,P值的問(wèn)題讓很多科學(xué)家特別發(fā)愁。2005年,加州斯坦福大學(xué)的流行病學(xué)家約翰?埃迪尼斯(JohnIoanniadis)指出,大多數(shù)公開(kāi)發(fā)表的科學(xué)發(fā)現(xiàn)都是有問(wèn)題的。此后,一連串備受矚目的、有可重復(fù)性問(wèn)題的研究迫使科學(xué)家重新思考該如何評(píng)估研究結(jié)果。

與此同時(shí),統(tǒng)計(jì)學(xué)家也在尋找更好的分析數(shù)據(jù)的方法,以避免科學(xué)家錯(cuò)失重要信息,或在假陽(yáng)性結(jié)果上浪費(fèi)精力。“當(dāng)你的統(tǒng)計(jì)思想發(fā)生改變之后,突然,重要的東西也完全變了?!彼固垢4髮W(xué)物理學(xué)家、統(tǒng)計(jì)學(xué)家史蒂文·古德曼(StevenGoodman)說(shuō):“規(guī)則并不是天注定的,它是由我們所采用的統(tǒng)計(jì)方法決定的。”對(duì)P值的誤用

人們一直都對(duì)P值批評(píng)不斷。90年前P值誕生以來(lái),被比作過(guò)蚊子(因?yàn)檫@東西煩人又揮之不去)、皇帝的新衣(因?yàn)镻值的方法中到處都是顯而易見(jiàn)卻被所有人無(wú)視的問(wèn)題)以及“不育的風(fēng)流才子”手中的工具——這位“才子”強(qiáng)搶了科學(xué)佳人,卻讓科學(xué)佳人后繼無(wú)人。一位研究人員表示,應(yīng)該把“統(tǒng)計(jì)推論和假設(shè)檢驗(yàn)”這個(gè)方法改個(gè)名字,叫做“統(tǒng)計(jì)假設(shè)和推論檢驗(yàn)”(statisticalhypothesisinferencetesting),大概因?yàn)檫@個(gè)名字的首字母縮寫(xiě)更符合它的氣質(zhì)。

諷刺之處在于,20世紀(jì)20年代,英國(guó)統(tǒng)計(jì)學(xué)家羅納德·費(fèi)希爾(RonaldFisher)首次采用P值方法時(shí),并沒(méi)有打算把它作為決定性的檢驗(yàn)方法。他本來(lái)只是用P值作為一種判斷數(shù)據(jù)在傳統(tǒng)意義上是否顯著的非正式方法,也就是說(shuō),用來(lái)判斷數(shù)據(jù)證據(jù)是否值得進(jìn)行深入研究。P值方法的思路是先進(jìn)行一項(xiàng)實(shí)驗(yàn),然后觀察實(shí)驗(yàn)結(jié)果是否符合隨機(jī)結(jié)果的特征。研究人員首先提出一個(gè)他們想要推翻的“零假設(shè)”(nullhypothesis),比如,兩組數(shù)據(jù)沒(méi)有相關(guān)性或兩組數(shù)據(jù)沒(méi)有顯著差別。接下來(lái),他們會(huì)故意唱反調(diào),假設(shè)零假設(shè)是成立的,然后計(jì)算實(shí)際觀察結(jié)果與零假設(shè)相吻合的概率。這個(gè)概率就是P值。費(fèi)希爾說(shuō),P值越小,研究人員成功證明這個(gè)零假設(shè)不成立的可能性就越大。

將數(shù)據(jù)和背景知識(shí)相結(jié)合得出科學(xué)結(jié)論的過(guò)程是流動(dòng)的、非數(shù)值化的。盡管P值的精確性顯而易見(jiàn),費(fèi)希爾還是希望它只是這個(gè)過(guò)程的一部分。但是,科學(xué)家很快就開(kāi)始利用P值來(lái)保證循證決策的嚴(yán)謹(jǐn)與客觀。這一運(yùn)動(dòng)是20世紀(jì)20年代末,由費(fèi)希爾的死對(duì)頭、波蘭數(shù)學(xué)家耶日·內(nèi)曼(JerzyNeyman)和英國(guó)統(tǒng)計(jì)學(xué)家埃貢·皮爾森(EgonPearson)一手推動(dòng)的。他們采用了一種新的數(shù)據(jù)分析框架,該框架中包括統(tǒng)計(jì)效力、假陽(yáng)性、假陰性和很多其他如今在統(tǒng)計(jì)學(xué)概論課上耳熟能詳?shù)母拍睢K麄z直接無(wú)視了P值這個(gè)指標(biāo)。

雙方爭(zhēng)執(zhí)不斷,內(nèi)曼批評(píng)費(fèi)希爾的某些工作從數(shù)學(xué)上講比“毫無(wú)用處”還糟糕,而費(fèi)希爾對(duì)內(nèi)曼的方法給出的評(píng)價(jià)是“無(wú)比幼稚”、“在西方學(xué)界中簡(jiǎn)直駭人聽(tīng)聞”。但是,就在雙方爭(zhēng)執(zhí)不下時(shí),其他研究人員的耐心漸漸耗盡了。他們開(kāi)始給進(jìn)行研究的科學(xué)家們編寫(xiě)統(tǒng)計(jì)學(xué)指南。但是其中很多作者并非統(tǒng)計(jì)學(xué)家,他們對(duì)兩種方法都缺乏透徹的理解。結(jié)果就是他們把費(fèi)希爾粗略的P值計(jì)算法硬塞進(jìn)了內(nèi)曼和皮爾森二人建立的規(guī)則嚴(yán)密的統(tǒng)計(jì)系統(tǒng)中,創(chuàng)造出了一種混合的方法,然后就出現(xiàn)了像“P值為0.05,即可將統(tǒng)計(jì)結(jié)果視為顯著”這樣的規(guī)則。古德曼說(shuō):“統(tǒng)計(jì)學(xué)家從沒(méi)打算以現(xiàn)在的方式使用P值。”“P值至上”帶來(lái)的惡果

這樣做的后果之一就是人們對(duì)P值的意義充滿困惑。我們回過(guò)頭來(lái)看一下莫德?tīng)栮P(guān)于政治激進(jìn)者的研究。大多數(shù)科學(xué)家看到實(shí)驗(yàn)最初統(tǒng)計(jì)結(jié)果的P值為0.01,就會(huì)認(rèn)為莫德?tīng)柕慕Y(jié)論不成立的概率只有1%。但他們錯(cuò)了。P值無(wú)法告訴研究人員這樣的信息。P值能做的,就是在特定的零假設(shè)條件下對(duì)數(shù)據(jù)特征進(jìn)行總結(jié)分析。研究人員不能利用P值通過(guò)反向推導(dǎo)對(duì)事實(shí)作出判斷。要對(duì)事實(shí)作出判斷,還需要更多信息,也就是現(xiàn)實(shí)世界中該效應(yīng)客觀存在的概率。忽視了這一點(diǎn),就好像一個(gè)人清晨醒來(lái)覺(jué)得有點(diǎn)頭痛,然后就斷定自己得了某種罕見(jiàn)的腦瘤。這當(dāng)然不是不可能,只是這事兒攤到你頭上的概率太小,所以你得先拿出更多證據(jù)推翻例如過(guò)敏反應(yīng)這樣更為常見(jiàn)的原因。結(jié)論越是令人難以置信(比如心靈感應(yīng)、外星人、順勢(shì)療法),這種驚人的發(fā)現(xiàn)是假陽(yáng)性的可能性就越大,不管你的P值有多小。

這些都是比較難懂的概念,但是一些統(tǒng)計(jì)學(xué)家試圖用它們來(lái)解釋經(jīng)驗(yàn)法則的失靈(見(jiàn)下圖)。根據(jù)應(yīng)用最廣泛的一種計(jì)算方法,如果假設(shè)為該現(xiàn)象存在,那么當(dāng)P值為0.01時(shí),該現(xiàn)象實(shí)際并不存在的概率至少為11%;而當(dāng)P值為0.05時(shí),這一概率則會(huì)上升到29%。因此,莫德?tīng)柕陌l(fā)現(xiàn)是假陽(yáng)性的概率超過(guò)10%。同樣,結(jié)果可重復(fù)的概率也不是大多數(shù)人所想的99%,而是73%左右。而再得到一個(gè)極為顯著的結(jié)果的概率只有50%。換言之,莫德?tīng)柕膶?shí)驗(yàn)結(jié)果不可重復(fù)的概率高得驚人,就跟拋硬幣猜正面向上,而落下來(lái)是反面朝上的概率差不多。

圖中的三個(gè)例子證明,即使計(jì)算得出的P值非常?。ň哂薪y(tǒng)計(jì)顯著性),實(shí)驗(yàn)結(jié)果也可能具有極高的不可重復(fù)率。

批評(píng)者也感慨P值會(huì)讓研究人員思維混亂。最重要的一個(gè)例子是,P值容易使研究者錯(cuò)誤的估計(jì)現(xiàn)象的真實(shí)影響。比如去年,一項(xiàng)覆蓋超過(guò)19000人的研究顯示,在網(wǎng)上結(jié)識(shí)的夫妻比在現(xiàn)實(shí)生活中結(jié)識(shí)的夫妻離婚的可能性更低(P<0.002),而獲得婚姻滿足感的可能性則更高(P<0.001)。(點(diǎn)擊這里看詳情)。這一現(xiàn)象也許挺讓人印象深刻,但這種現(xiàn)象其實(shí)非常不明顯。網(wǎng)上結(jié)識(shí)的夫婦離婚率為5.96%,而現(xiàn)實(shí)生活中結(jié)識(shí)的夫妻離婚率為7.67%,根據(jù)7分幸福感評(píng)分表測(cè)試中,網(wǎng)上結(jié)識(shí)的夫妻幸福感為5.64分,而現(xiàn)實(shí)生活中結(jié)石的夫妻幸福感為5.48分。澳大利亞墨爾本市拉籌伯大學(xué)的榮譽(yù)心理學(xué)家杰夫·卡明(GeoffCumming)認(rèn)為:“為了追求很小的P值而忽略背后更大的問(wèn)題這一現(xiàn)象是“誘人的顯著性”的犧牲品?!钡牵@著性并不意味著實(shí)際中確實(shí)存在相關(guān)性。他說(shuō):“我們應(yīng)該問(wèn)的是,‘某種現(xiàn)象出現(xiàn)的概率有多大?’而不是‘有沒(méi)有某種現(xiàn)象?’”

大概,最糟糕的錯(cuò)誤是某種自欺欺人的行為,賓夕法尼亞大學(xué)的心理學(xué)家尤里·西蒙遜(UriSimonsohn)及其同事給這種行為起名為“P值操縱”(P-hacking)。這種行為也被稱為數(shù)據(jù)挖掘、數(shù)據(jù)窺探、數(shù)據(jù)釣魚(yú)、追逐顯著性或者雙重計(jì)算。西蒙遜解釋道:“P值操縱就是不斷地把數(shù)據(jù)量加倍,直到獲得自己想要的結(jié)果?!边@種行為甚至是下意識(shí)的。這可能是在線城市詞典中收錄的第一個(gè)統(tǒng)計(jì)學(xué)詞條,該詞條的例句是:“這一發(fā)現(xiàn)似乎是通過(guò)P值操縱做出來(lái)的。作者去掉了其中一種條件下的數(shù)據(jù),使總體的P值小于0.05?!被蛘摺八莻€(gè)P值操縱者,總是一邊收集數(shù)據(jù)一邊看數(shù)據(jù)好不好。”

這種行為的結(jié)果是,把本應(yīng)帶著質(zhì)疑眼光審視的探索性研究的結(jié)果變得看似確定無(wú)疑實(shí)際上卻難以重復(fù)。西蒙遜的計(jì)算機(jī)模擬實(shí)驗(yàn)表明,只需改變研究中的若干數(shù)據(jù)分析方法,就能使假陽(yáng)性的概率提高到60%。如今的研究都希望能從雜亂的數(shù)據(jù)中發(fā)現(xiàn)并不十分明顯的現(xiàn)象。在這種背景下,尤其容易出現(xiàn)P值操縱。盡管難以估計(jì)這種做法有多普遍,但西蒙遜認(rèn)為這一問(wèn)題應(yīng)該已經(jīng)很嚴(yán)重了。在一項(xiàng)分析研究中,他發(fā)現(xiàn)有跡象表明,很多公開(kāi)發(fā)表的心理學(xué)論文中,P值都出人意料地分布在0.05左右——就像研究人員通過(guò)P值操縱不斷嘗試,直到得到理想的P值解決之道

盡管對(duì)P值提出批評(píng)的大有人在,但統(tǒng)計(jì)方法的變革仍然進(jìn)展緩慢?!百M(fèi)希爾、內(nèi)曼和皮爾森提出他們的理論后,統(tǒng)計(jì)學(xué)的基本框架實(shí)質(zhì)上沒(méi)有發(fā)生任何改變?!惫诺侣f(shuō)。1982年,明尼阿波利斯市明尼蘇達(dá)大學(xué)心理學(xué)家約翰·坎貝爾(JohnCampell)曾經(jīng)抱怨過(guò)這個(gè)問(wèn)題,當(dāng)時(shí)他還是《應(yīng)用心理學(xué)雜志》的編輯。他說(shuō):“要把作者的注意力從P值上轉(zhuǎn)移走幾乎是不可能的,P值小數(shù)點(diǎn)后面的零越多,人們就越抓著P值不愿放手?!?989年,馬薩諸塞州波士頓大學(xué)的肯尼斯·羅斯曼(KennethRothman)創(chuàng)辦了《流行病學(xué)》這本雜志,當(dāng)時(shí)他盡力勸阻作者不要使用P值。但是在2001年他離開(kāi)了雜志社后,這本雜志中又經(jīng)常出現(xiàn)P值了。

埃尼迪斯最近正在PubMed數(shù)據(jù)庫(kù)中搜尋數(shù)據(jù),用來(lái)研究不同領(lǐng)域的學(xué)者是如何使用P值和其他統(tǒng)計(jì)學(xué)證據(jù)的。“只需要粗略瀏覽幾篇最近發(fā)表的論文,你就會(huì)發(fā)現(xiàn)P值仍然是非常非常流行的方法?!?/p>

古德曼認(rèn)為,這種根深蒂固的研究文化需要徹底的改革——人們必須改變統(tǒng)計(jì)學(xué)的教授方式、數(shù)據(jù)分析方式以及結(jié)果呈現(xiàn)和解釋的方式;而好在研究人員已經(jīng)開(kāi)始意識(shí)到自己的問(wèn)題了。“已公開(kāi)發(fā)表的眾多科學(xué)發(fā)現(xiàn)都不成立,這給人們敲了個(gè)警鐘?!卑D岬纤沟妊芯空叩难芯拷沂玖死碚摻y(tǒng)計(jì)學(xué)的批評(píng)觀點(diǎn)與統(tǒng)計(jì)學(xué)應(yīng)用上的難題之間的聯(lián)系。古德曼說(shuō):“統(tǒng)計(jì)學(xué)家預(yù)言會(huì)出現(xiàn)的問(wèn)題正是我們當(dāng)前遇到的問(wèn)題,只是我們還沒(méi)有找到全部的解決辦法?!?/p>

統(tǒng)計(jì)學(xué)家提出了幾個(gè)或許可行的方法。比如卡明認(rèn)為,為了避免掉進(jìn)思考結(jié)果是否顯著這個(gè)陷阱,研究人員應(yīng)該在文章中提供效應(yīng)量和置信區(qū)間的相關(guān)數(shù)據(jù)。這些數(shù)據(jù)可以反映P值無(wú)法反映的信息,也就是效應(yīng)的規(guī)模及其相對(duì)重要性。

很多統(tǒng)計(jì)學(xué)家還呼吁用基于貝葉斯法則的方法替代P值。這一法則誕生于18世紀(jì),其思想是把概率視為某種結(jié)果的似然性而非出現(xiàn)的頻率。這其中蘊(yùn)含了某種主觀因素,而這也是統(tǒng)計(jì)學(xué)前沿學(xué)者想極力避免的。但是,貝葉斯分析框架能夠使觀察者相對(duì)容易地將自己所知道的內(nèi)容融入結(jié)論,以及計(jì)算出現(xiàn)新數(shù)據(jù)后概率如何變化。

其他人則贊成一種更普遍的方法,即鼓勵(lì)研究人員對(duì)同一套數(shù)據(jù)用多種方法進(jìn)行分析。盧森堡市公共衛(wèi)生研究中心的統(tǒng)計(jì)學(xué)家史蒂芬·森(StephenSenn)把這個(gè)方法比作沒(méi)法從墻角里繞出來(lái)的掃地機(jī)器人。任何數(shù)據(jù)分析方法最終都會(huì)有行不通的時(shí)候,這時(shí)就需要用常識(shí)將分析拖回正軌。他認(rèn)為倘若用不同的方法得到了不同的結(jié)論,“就表明研究者應(yīng)該繼續(xù)開(kāi)動(dòng)腦筋,努力找到原因”,而這能讓我們更好地理解背后的真相。

西蒙遜認(rèn)為科學(xué)家為自己辯解最有利的武器就是承認(rèn)一切。他鼓勵(lì)作者在論文中寫(xiě)上這樣一段話:“論文中列出了研究中我們確定樣本大小的方法、所有舍棄的數(shù)據(jù)(如果有的話)以及研究中用到的所有操作和測(cè)量方法?!蓖ㄟ^(guò)這種方式表明文章沒(méi)有進(jìn)行“P值操縱”。他希望通過(guò)披露這些信息,能夠阻止P值操縱行為,或者至少能提醒讀者注意論文中的疑點(diǎn),并自行做出判斷。

紐約市哥倫比亞大學(xué)政治學(xué)家、統(tǒng)計(jì)學(xué)家安德魯·格爾曼(AndrewGelman)表示,目前另一個(gè)受到關(guān)注的類似方法是兩階段分析法,也叫做“先預(yù)定后重復(fù)法”(preregisteredreplication)。這種方法中,探索與驗(yàn)證分析通過(guò)不同的方式進(jìn)行,而且要在論文中清楚地標(biāo)示出來(lái)。例如,研究人員首先做兩個(gè)探索性的小研究,用來(lái)發(fā)現(xiàn)可能比較有趣的現(xiàn)象,而又不需要太擔(dān)心假陽(yáng)性結(jié)論;而不是一下做4個(gè)單獨(dú)的小研究,然后在同一篇論文中寫(xiě)出所有的結(jié)果。然后,在上述研究結(jié)果的基礎(chǔ)上,作者再?zèng)Q定用什么方法來(lái)驗(yàn)證他的發(fā)現(xiàn),并在OpenScienceFramework這樣的數(shù)據(jù)庫(kù)中向公眾提前披露自己的研究意向。然后,他們?cè)龠M(jìn)行重復(fù)實(shí)驗(yàn),并將結(jié)果之前與探索性研究的結(jié)果一同發(fā)表。格爾曼表示這種方法使研究分析更加自由和靈活,同時(shí)也能使研究者保持嚴(yán)謹(jǐn),并降低公開(kāi)發(fā)表的假陽(yáng)性

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論