計量經(jīng)濟學(xué)知識點講解

上傳人：非*** IP屬地：河北上傳時間：2025-04-22 格式：PDF 頁數(shù)：8 大?。?.74MB 積分：12 舉報 版權(quán)申訴

已閱讀5頁，還剩3頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認(rèn)領(lǐng)

文檔簡介

統(tǒng)計學(xué)，你知道P?

我們只邀請神圣的好奇心來關(guān)注！

無論怎樣的分布、樣本，變成p值后的統(tǒng)計量，如同墜入。?1之間的落魄靈魂，等待那

個神秘的0.05來裁決其命運。

P-value是?個廣為人知的統(tǒng)計學(xué)術(shù)語，卻也是被人們誤用最多誤會最深的統(tǒng)計學(xué)概念。

P-value實際上是一個條件概率，指的是｛觀測值及更極端事件｝在零假設(shè)成立的條件下

發(fā)生的概率。其中極端是指比觀測值發(fā)生的概率更小。

寫在前面，統(tǒng)計學(xué)的輪廓

雖然現(xiàn)代統(tǒng)計學(xué)已經(jīng)發(fā)展出浩如瀚海的內(nèi)容，但最基木、最常用的經(jīng)典統(tǒng)計學(xué)一般還是

分為描述統(tǒng)計和推斷統(tǒng)計,

所程度

元網(wǎng)閥F1/生存分析形狀

通法猊6學(xué)\

相鬢住

:力害

(H日分析

美m(xù)w

線曲曰/幅關(guān)與啪分析卜

廣義線餞然身?5ctet+

■M2

-qr

生松崎印F

不安投研穴

工耿廿

?及田統(tǒng)計Nig

壯會統(tǒng)的

rttett：點估計、區(qū)間15計

空的忤；P「準(zhǔn)價第卜

色色檢K.介數(shù)檢驗

：金信號:幺力

貝葉R推斷Z“30

由思想到方法到工具

要準(zhǔn)確地解釋和正確地理解P-value,必須回到統(tǒng)計檢驗的思想起源。

假設(shè)檢驗理論體系的建立，要歸功于E.Pearson和J.Neyman(l928)的工作。而實用層面

則以K.Pearson(E.Pearson之父)和Fisher兩位大師所主導(dǎo)。而更早前，也有人提及和研究過

若干零散、孤立的特定檢檢問題。

P值是Fisher(1922)提出來的“顯著性檢驗”理論體系中的概念。顯著性檢驗的理論在當(dāng)

時針對的是K.Pearson的大樣本理論。

K.Pearson主張獲取更多的數(shù)據(jù)來做出更好的回歸(擬合與預(yù)測)，而Fisher主張用精巧

的試驗設(shè)計和顯著性檢驗來達成較小樣本即可解決問題，反對?味追求大量數(shù)據(jù)而忽視對探

索過程的優(yōu)化。

這個人沒有決意過日子，

而是決定去認(rèn)識，

這個人葬在哪里？

在這里一一這里是他的歸宿。

這里濃云密布，

電光閃閃，

星轉(zhuǎn)斗移。

讓歡樂驅(qū)除風(fēng)暴，

讓平和普降甘霖！

高超的設(shè)計必須通過相同的結(jié)局，

高尚地安息。

永別了一一難道還有比人間更崇高的生與死。

----統(tǒng)計學(xué)之父KarlPearson生前最愛的詩

E.Pearson試圖彌合父親K.Pearson與Fisher之間的學(xué)術(shù)分歧，與Neyman一拍即合，兩

人一起提出了“假設(shè)檢驗”理論。

Neyman-Pearson的假設(shè)檢驗理論兩個突出的特點是：

引入了檢驗功效的概念；

明確了構(gòu)造統(tǒng)計量的一般方法；

同時也導(dǎo)致了需要在不同的。刖值下頻繁構(gòu)造最優(yōu)檢驗的大量研究，和在復(fù)合備擇假設(shè)

下的大量復(fù)雜功效計算。

為了消除神秘的a=0.05或0.01,Bayes學(xué)派明確將先驗概率放在初始條件中，發(fā)展出

蔚為壯觀的Bayes統(tǒng)計學(xué).其中蘊含頻率派理論作為一個古怪的特例。

在FisherNeyman-PearsonBayes等人的光輝思想指引下，各種通用或適合具體應(yīng)用

情景的檢驗方法紛紛涌現(xiàn)，進而不斷編寫進matlab、Rspython>perl等語言的標(biāo)準(zhǔn)函數(shù)庫或

應(yīng)用包里。

提出P值概念的漁夫［Fisher)

RonaldAFisher最遲在1920年左右已經(jīng)發(fā)明P-valuc的概念。那時英國剛走出第一次世

界大戰(zhàn)的陰霾，Pishcr似乎還沒決定到底要干嘛：

夢想做一名皇家飛行員，卻終成數(shù)學(xué)爵士！

當(dāng)中學(xué)校長受不了學(xué)生的愚鈍，卻最終門生遍天下。

劍橋出身的Fisher有著不錯的人脈美系，跟K.Pearson,LeonardDarwin（提出進化論的

那個達爾文的兒子）都有書信往來。但出人意料的是，1919年冬，F(xiàn)isher謝絕了Pearson的邀

請，而踏著泥濘的鄉(xiāng)間小路加入了倫敦郊區(qū)的Rothamsted農(nóng)業(yè)實驗站。

從1919年到1933年的14年,Fisher埋頭于此,竭其所能狙擊當(dāng)時如日中天的K.Pearson,

他將完成現(xiàn)代統(tǒng)計學(xué)的基礎(chǔ)與統(tǒng)計遺傳學(xué)的框架。

Fisher和他的計算器

在這混沌未開之時，一手生物學(xué)一手統(tǒng)計學(xué)的Fisher兩線開戰(zhàn)。面臨海量數(shù)據(jù)，面臨諸

多決策，化繁為簡，F(xiàn)isher采用的數(shù)字化決策工具，也就是p值。（應(yīng)該提到的是：后期Fisher

更多采用likelihoodratio,這可能是他獨立于Neyman-Pearson引理中的最優(yōu)似然比的另一個

發(fā)明。例如，如今遺傳連鎖分析中的LOD或LRT實際上源自Fisher）o

P值的真正含義及其不堪重負(fù)

個體絢麗的紋理，在共識中漸漸褪去，最終呈現(xiàn)為沒有量綱的p值，在0~1之間搖擺不

定。

同一類型的實驗設(shè)計，會有不同樣本、不同操作、不同分析，但只要以p值的形式進行

相互比較，總是可行的。

Fisher當(dāng)時采用p值是為了內(nèi)部決策，但在科學(xué)高度分工的當(dāng)下，p值充當(dāng)著實驗之間

（或者作者與雜志之間）的橋梁，無可撼動地作為論文發(fā)表的一般等價物。

Morelikelyobservation

P值（即上圖綠色區(qū)域所示）就是零假設(shè)為真的條件下（觀測點及更極端事件｝發(fā)生的概率。

對［一元情形下］極端方向的認(rèn)定，按分布函數(shù)曲線圖來說有三種情況：觀測點及其左側(cè)區(qū)域、

觀測點及其右側(cè)區(qū)域、概率函數(shù)值不超過觀測點的兩側(cè)區(qū)域之和。

那么在此提一個小問題：下圖試圖展示三種情況下的P-vHue公式，哪一個或哪幾個是

錯誤的呢（a=8為觀測點）？

P-value計算公式

EPQ)

p(i)<p(a)

i>a

￡p(i)

p")4P(a)

￡p⑴

p(i)<p(a)

i<a

可以看出，P值的定義非常明確、適用于所有概率分布；同時它也暗含著對“單峰”型以

外分布的排斥。

自作聰明的人總是試圖用看起來更通俗或者更多樣的方式來表述對P值的理解，然而

絕大多數(shù)都是錯誤的。

Goodman(2008)歸納了12種常見的P值誤解，并說“幾乎從不可能永遠正確地陳述它“。

一個根本的問題在于，很多人在理解中加入了本不屬于P值內(nèi)容的東西，比如對原假設(shè)

真假的論述、對拒絕或接受可靠性的期待、對假陰或假陽率的推論等等。

實際上，P值就是P值而已，它賴以存在的基礎(chǔ)是原假設(shè)成立這個條件，而不可能用P

值來肯定或否定原假設(shè)。

比如基于P-value=0.009來做出拒絕原假設(shè)的決定，意味著原假設(shè)成立的情況中該決定

有0.9%的概率是錯誤的；但常常容易說成是，該決定有0.9%的概率是錯誤的，遺漏掉了原

假設(shè)成立的關(guān)鍵前提。

雖然個別具體語境F似乎不會導(dǎo)致錯誤，然而不同研究者之間交流時，遺漏研究論斷的

前提會造成學(xué)術(shù)上的重大過失。

使用P值的Fisher依舊為難

首先是分布函數(shù)

相比財大氣粗、搞大數(shù)據(jù)的Pearson實驗室，F(xiàn)isher在Rothamsted的作坊以小樣本數(shù)據(jù)

為主。要命的是，小樣本下任何分布都不靠譜，相較而言，大樣本中引入分布要相對可靠的

多。Fisher心里明鏡似的。

為了克服樣本大小導(dǎo)入分布的風(fēng)險，F(xiàn)isher提出的另外?個策略是置換(pemiutation),

但那時無法有效實施置換——計算能力不夠。當(dāng)然現(xiàn)在置換已經(jīng)發(fā)展成為一種非常重要的隨

機化策略，Bootstrapping方法可視為其策略背后思想的另一種延伸和實現(xiàn)。

其次是閾值

統(tǒng)計算個P

5分鐘前：

p值算出來的，無非牯一個0-1之間的數(shù)字，如何選定決策區(qū)間或決策點？

Fisher選擇的閾值是“1/20”，也就是0.05。他的解釋是，就均勻分布而言，p值小于005,

意味著觀察到一個小概率事件。而單次實驗發(fā)生小概率事件，意味著本次實驗結(jié)果是一個不

平常的事件，也就有了進一步調(diào)查或者更進一步實驗的理由和依據(jù)。

舉個栗子

如果抓100枚硬幣，往天上一拋，落地后正面朝上的數(shù)目有95%的可能性在40?60之

間；而實際操作中，觀察到只有20枚正面，那么有理由猜測和進一步調(diào)查是否可能有人做

了手腳。

統(tǒng)計教學(xué)或教科書中，一般歸納為小概率原理，然而對0.05這個具體數(shù)值的選取合理

性避而不談。

P值就這樣開始進入量化決策領(lǐng)域了。Fisher還先后寫了好幾本書《StatisticalMethods

forResearchWorkers^和《TheDesignofExperiments》，其中都介紹了p值。

因為當(dāng)時計算能力有限，p值的計算采用了閾值的方法，到世紀(jì)之交，絕大多數(shù)教科書

中還是顯著性水平a,以及拒絕域、接受域，還有供查閱的各種概率分布的閾值對應(yīng)表，所

以當(dāng)時的人只能從Fishei"的書上查到p值大概是vO.l、＜0.05,還是（0.01。

Fisher對于不顯著的p值的態(tài)度非常值得玩味，他不是覺得不顯著，而是覺得樣本太小，

無法檢測到顯著罷了。

在筆者看來，一個具體的檢驗相當(dāng)于一臺觀測儀器，p-value就是觀測的結(jié)果，p-value

是否顯著取決于觀測對象的真實情況的累積效應(yīng)和觀測儀器的分辨率。

瘋狂的0.05

歷史是健忘又頑固的倔老頭，偏偏記住了0.05。計算磯早就可以精確計算統(tǒng)計量的p值，

但大家還是習(xí)慣用0.01或者0.05作為閾值，于是引出無數(shù)公案，比如EricLander與Elston

關(guān)于全基因組基因定位分析的閾值的口水之爭。

P值雖不完善，但在一個封閉的流程里，前一次決策的損失稍后可以矯正。比如為了研

究遺傳連鎖，F(xiàn)isher自己設(shè)計實驗，把實驗用的老鼠養(yǎng)到家里，擁有完整流程的Fisher有能

力抵御p值決策的風(fēng)險。

但當(dāng)下的工業(yè)化科學(xué)中，各個流程完全分散，切成多段，財政獨立結(jié)算，成果獨立發(fā)表，

出現(xiàn)越來越多沖突的結(jié)果。有人批評這是因為p值不夠亞格，應(yīng)該從（）.（）5提高到（）.01。實

際上主要問題在于科學(xué)生態(tài)的演化，各不負(fù)責(zé)的科學(xué)現(xiàn)狀，不是單單調(diào)整p值可以解決。

虛無還是替代

Fishei■引入p值，是為了量化決策，只是為了給出對原假設(shè)提出質(zhì)疑的理由，并沒有給

與p值太過于特殊的基礎(chǔ)。對于Fisher,很多讓別人抓破腦袋的事情，在他看來是“顯而易

見''的——盡管他視力非常不好。

相比之下，K.Pearson致力于獲取更大量的樣本和數(shù)據(jù)，極大地發(fā)展了描述統(tǒng)計學(xué)并對

推斷統(tǒng)計學(xué)也有重要貢獻，奠定了其統(tǒng)計學(xué)之父的地位。

但是Fisher的試驗設(shè)計思想方法與顯著性檢驗理論一起贏得了眾多無法豪擲千金的科

學(xué)家的青睞。當(dāng)Fisher在與K.Pearson的斗爭中逐漸占據(jù)上風(fēng)、最終大獲全勝之時，卻跟

K.Pearson的兒子EgonPearson升級了戰(zhàn)火。

E.Pearson試圖彌合父親K.Pearson與Fisher之間的學(xué)術(shù)分歧，遇到從測度論進入統(tǒng)計領(lǐng)

域的Neyman后，兩人一拍即合，提出了“假設(shè)檢驗”理論，其中吸收了Fisher的顯著性檢驗

思想。相比于Fisher針對單一假設(shè)用P-value表示顯著性水平，著名的Neyman-Pearson引理

是說：最優(yōu)檢驗的統(tǒng)計量是備擇假設(shè)與原假設(shè)下的似然比，這導(dǎo)致了跟Fisher的“顯著性檢

驗”區(qū)別最大的概念功效或勢（poweroftest）o

但Fisher并不領(lǐng)情E.Pearson的做法，他似乎非常不喜歡Neyman的任何想法。如果

Neyman花力氣證明了一個Fisher曾經(jīng)所謂的“顯而易見''的結(jié)論，F(xiàn)isher必斥其理解錯誤。

如果Neyman拓展了Fisher的一個想法，F(xiàn)isher則又嘲笑其Neyman的想法多么無聊。

無論Fisher先生喜不喜歡，Neyman-Pearson理論衍生的功效計算(powercalculation),現(xiàn)

如今越來越受到重視，各種研究立項和基金申請都需要提供功效計算的證據(jù)，從而保證研究

的成功率。如果Neyman-Pearson的原假設(shè)-備擇假設(shè)同時存在多個備擇假設(shè)的話，功效計算

必須錨定一個特定的備擇假設(shè)。

功效計算的框架下研究的成功率有一定保障，但也減少了研究彈性，特別對于那些以新

意取勝的小型化研究，幾乎沒有所謂的功效計算框架可以借鑒。不過，好在上有政策下有對

策，現(xiàn)在一般大家也都是拿已經(jīng)暗地里做完的項目去申請基金，然后用申請來的錢去尋找新

的alternativehypothesis。

持續(xù)升級的戰(zhàn)爭

P-value自身的局限性和使用者的誤用以及讀者的誤解，不斷成為農(nóng)學(xué)、醫(yī)學(xué)、遺傳學(xué)、

生物學(xué)、教育學(xué)、心理學(xué)、經(jīng)濟學(xué)、社會學(xué)等領(lǐng)域的方法論爭議焦點。而數(shù)學(xué)界與統(tǒng)計學(xué)家、

各專業(yè)領(lǐng)域的權(quán)威人士也一直呼吁新入門的研究者務(wù)必注意規(guī)范地使用P-value,還提出了

務(wù)必同時使用效應(yīng)量(effectsize)乃至MAGIC準(zhǔn)則。

P-value自身的局限性在隨著Bayes統(tǒng)計和序貫試驗設(shè)計范式的推進而得到一定程度的

解決，但是誤用誤解本身也反映出p-vakie的可解釋性存在問題。這一點跟深度學(xué)習(xí)所面臨

的部分爭議有異曲同工之處。

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

計量經(jīng)濟學(xué)知識點講解

文檔簡介

溫馨提示

最新文檔

評論

計量經(jīng)濟學(xué)知識點講解

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔