計量經(jīng)濟學(xué)知識點講解_第1頁
計量經(jīng)濟學(xué)知識點講解_第2頁
計量經(jīng)濟學(xué)知識點講解_第3頁
計量經(jīng)濟學(xué)知識點講解_第4頁
計量經(jīng)濟學(xué)知識點講解_第5頁
已閱讀5頁,還剩3頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

統(tǒng)計學(xué),你知道P?

我們只邀請神圣的好奇心來關(guān)注!

無論怎樣的分布、樣本,變成p值后的統(tǒng)計量,如同墜入。?1之間的落魄靈魂,等待那

個神秘的0.05來裁決其命運。

P-value是?個廣為人知的統(tǒng)計學(xué)術(shù)語,卻也是被人們誤用最多誤會最深的統(tǒng)計學(xué)概念。

P-value實際上是一個條件概率,指的是{觀測值及更極端事件}在零假設(shè)成立的條件下

發(fā)生的概率。其中極端是指比觀測值發(fā)生的概率更小。

寫在前面,統(tǒng)計學(xué)的輪廓

雖然現(xiàn)代統(tǒng)計學(xué)已經(jīng)發(fā)展出浩如瀚海的內(nèi)容,但最基木、最常用的經(jīng)典統(tǒng)計學(xué)一般還是

分為描述統(tǒng)計和推斷統(tǒng)計,

所程度

元網(wǎng)閥F1/生存分析形狀

通法猊6學(xué)\

相鬢住

:力害

(H日分析

美m(xù)w

線曲曰/幅關(guān)與啪分析卜

廣義線餞然身?5ctet+

■M2

-qr

生松崎印F

不安投研穴

工耿廿

?及田統(tǒng)計Nig

壯會統(tǒng)的

rttett:點估計、區(qū)間15計

空的忤;P「準(zhǔn)價第卜

色色檢K.介數(shù)檢驗

:金信號:幺力

貝葉R推斷Z“30

由思想到方法到工具

要準(zhǔn)確地解釋和正確地理解P-value,必須回到統(tǒng)計檢驗的思想起源。

假設(shè)檢驗理論體系的建立,要歸功于E.Pearson和J.Neyman(l928)的工作。而實用層面

則以K.Pearson(E.Pearson之父)和Fisher兩位大師所主導(dǎo)。而更早前,也有人提及和研究過

若干零散、孤立的特定檢檢問題。

P值是Fisher(1922)提出來的“顯著性檢驗”理論體系中的概念。顯著性檢驗的理論在當(dāng)

時針對的是K.Pearson的大樣本理論。

K.Pearson主張獲取更多的數(shù)據(jù)來做出更好的回歸(擬合與預(yù)測),而Fisher主張用精巧

的試驗設(shè)計和顯著性檢驗來達成較小樣本即可解決問題,反對?味追求大量數(shù)據(jù)而忽視對探

索過程的優(yōu)化。

這個人沒有決意過日子,

而是決定去認(rèn)識,

這個人葬在哪里?

在這里一一這里是他的歸宿。

這里濃云密布,

電光閃閃,

星轉(zhuǎn)斗移。

讓歡樂驅(qū)除風(fēng)暴,

讓平和普降甘霖!

高超的設(shè)計必須通過相同的結(jié)局,

高尚地安息。

永別了一一難道還有比人間更崇高的生與死。

----統(tǒng)計學(xué)之父KarlPearson生前最愛的詩

E.Pearson試圖彌合父親K.Pearson與Fisher之間的學(xué)術(shù)分歧,與Neyman一拍即合,兩

人一起提出了“假設(shè)檢驗”理論。

Neyman-Pearson的假設(shè)檢驗理論兩個突出的特點是:

引入了檢驗功效的概念;

明確了構(gòu)造統(tǒng)計量的一般方法;

同時也導(dǎo)致了需要在不同的。刖值下頻繁構(gòu)造最優(yōu)檢驗的大量研究,和在復(fù)合備擇假設(shè)

下的大量復(fù)雜功效計算。

為了消除神秘的a=0.05或0.01,Bayes學(xué)派明確將先驗概率放在初始條件中,發(fā)展出

蔚為壯觀的Bayes統(tǒng)計學(xué).其中蘊含頻率派理論作為一個古怪的特例。

在FisherNeyman-PearsonBayes等人的光輝思想指引下,各種通用或適合具體應(yīng)用

情景的檢驗方法紛紛涌現(xiàn),進而不斷編寫進matlab、Rspython>perl等語言的標(biāo)準(zhǔn)函數(shù)庫或

應(yīng)用包里。

提出P值概念的漁夫[Fisher)

RonaldAFisher最遲在1920年左右已經(jīng)發(fā)明P-valuc的概念。那時英國剛走出第一次世

界大戰(zhàn)的陰霾,Pishcr似乎還沒決定到底要干嘛:

夢想做一名皇家飛行員,卻終成數(shù)學(xué)爵士!

當(dāng)中學(xué)校長受不了學(xué)生的愚鈍,卻最終門生遍天下。

劍橋出身的Fisher有著不錯的人脈美系,跟K.Pearson,LeonardDarwin(提出進化論的

那個達爾文的兒子)都有書信往來。但出人意料的是,1919年冬,F(xiàn)isher謝絕了Pearson的邀

請,而踏著泥濘的鄉(xiāng)間小路加入了倫敦郊區(qū)的Rothamsted農(nóng)業(yè)實驗站。

從1919年到1933年的14年,Fisher埋頭于此,竭其所能狙擊當(dāng)時如日中天的K.Pearson,

他將完成現(xiàn)代統(tǒng)計學(xué)的基礎(chǔ)與統(tǒng)計遺傳學(xué)的框架。

Fisher和他的計算器

在這混沌未開之時,一手生物學(xué)一手統(tǒng)計學(xué)的Fisher兩線開戰(zhàn)。面臨海量數(shù)據(jù),面臨諸

多決策,化繁為簡,F(xiàn)isher采用的數(shù)字化決策工具,也就是p值。(應(yīng)該提到的是:后期Fisher

更多采用likelihoodratio,這可能是他獨立于Neyman-Pearson引理中的最優(yōu)似然比的另一個

發(fā)明。例如,如今遺傳連鎖分析中的LOD或LRT實際上源自Fisher)o

P值的真正含義及其不堪重負(fù)

個體絢麗的紋理,在共識中漸漸褪去,最終呈現(xiàn)為沒有量綱的p值,在0~1之間搖擺不

定。

同一類型的實驗設(shè)計,會有不同樣本、不同操作、不同分析,但只要以p值的形式進行

相互比較,總是可行的。

Fisher當(dāng)時采用p值是為了內(nèi)部決策,但在科學(xué)高度分工的當(dāng)下,p值充當(dāng)著實驗之間

(或者作者與雜志之間)的橋梁,無可撼動地作為論文發(fā)表的一般等價物。

Morelikelyobservation

P值(即上圖綠色區(qū)域所示)就是零假設(shè)為真的條件下(觀測點及更極端事件}發(fā)生的概率。

對[一元情形下]極端方向的認(rèn)定,按分布函數(shù)曲線圖來說有三種情況:觀測點及其左側(cè)區(qū)域、

觀測點及其右側(cè)區(qū)域、概率函數(shù)值不超過觀測點的兩側(cè)區(qū)域之和。

那么在此提一個小問題:下圖試圖展示三種情況下的P-vHue公式,哪一個或哪幾個是

錯誤的呢(a=8為觀測點)?

P-value計算公式

EPQ)

p(i)<p(a)

i>a

£p(i)

p")4P(a)

£p⑴

p(i)<p(a)

i<a

可以看出,P值的定義非常明確、適用于所有概率分布;同時它也暗含著對“單峰”型以

外分布的排斥。

自作聰明的人總是試圖用看起來更通俗或者更多樣的方式來表述對P值的理解,然而

絕大多數(shù)都是錯誤的。

Goodman(2008)歸納了12種常見的P值誤解,并說“幾乎從不可能永遠正確地陳述它“。

一個根本的問題在于,很多人在理解中加入了本不屬于P值內(nèi)容的東西,比如對原假設(shè)

真假的論述、對拒絕或接受可靠性的期待、對假陰或假陽率的推論等等。

實際上,P值就是P值而已,它賴以存在的基礎(chǔ)是原假設(shè)成立這個條件,而不可能用P

值來肯定或否定原假設(shè)。

比如基于P-value=0.009來做出拒絕原假設(shè)的決定,意味著原假設(shè)成立的情況中該決定

有0.9%的概率是錯誤的;但常常容易說成是,該決定有0.9%的概率是錯誤的,遺漏掉了原

假設(shè)成立的關(guān)鍵前提。

雖然個別具體語境F似乎不會導(dǎo)致錯誤,然而不同研究者之間交流時,遺漏研究論斷的

前提會造成學(xué)術(shù)上的重大過失。

使用P值的Fisher依舊為難

首先是分布函數(shù)

相比財大氣粗、搞大數(shù)據(jù)的Pearson實驗室,F(xiàn)isher在Rothamsted的作坊以小樣本數(shù)據(jù)

為主。要命的是,小樣本下任何分布都不靠譜,相較而言,大樣本中引入分布要相對可靠的

多。Fisher心里明鏡似的。

為了克服樣本大小導(dǎo)入分布的風(fēng)險,F(xiàn)isher提出的另外?個策略是置換(pemiutation),

但那時無法有效實施置換——計算能力不夠。當(dāng)然現(xiàn)在置換已經(jīng)發(fā)展成為一種非常重要的隨

機化策略,Bootstrapping方法可視為其策略背后思想的另一種延伸和實現(xiàn)。

其次是閾值

統(tǒng)計算個P

5分鐘前:

p值算出來的,無非牯一個0-1之間的數(shù)字,如何選定決策區(qū)間或決策點?

Fisher選擇的閾值是“1/20”,也就是0.05。他的解釋是,就均勻分布而言,p值小于005,

意味著觀察到一個小概率事件。而單次實驗發(fā)生小概率事件,意味著本次實驗結(jié)果是一個不

平常的事件,也就有了進一步調(diào)查或者更進一步實驗的理由和依據(jù)。

舉個栗子

如果抓100枚硬幣,往天上一拋,落地后正面朝上的數(shù)目有95%的可能性在40?60之

間;而實際操作中,觀察到只有20枚正面,那么有理由猜測和進一步調(diào)查是否可能有人做

了手腳。

統(tǒng)計教學(xué)或教科書中,一般歸納為小概率原理,然而對0.05這個具體數(shù)值的選取合理

性避而不談。

P值就這樣開始進入量化決策領(lǐng)域了。Fisher還先后寫了好幾本書《StatisticalMethods

forResearchWorkers^和《TheDesignofExperiments》,其中都介紹了p值。

因為當(dāng)時計算能力有限,p值的計算采用了閾值的方法,到世紀(jì)之交,絕大多數(shù)教科書

中還是顯著性水平a,以及拒絕域、接受域,還有供查閱的各種概率分布的閾值對應(yīng)表,所

以當(dāng)時的人只能從Fishei"的書上查到p值大概是vO.l、<0.05,還是(0.01。

Fisher對于不顯著的p值的態(tài)度非常值得玩味,他不是覺得不顯著,而是覺得樣本太小,

無法檢測到顯著罷了。

在筆者看來,一個具體的檢驗相當(dāng)于一臺觀測儀器,p-value就是觀測的結(jié)果,p-value

是否顯著取決于觀測對象的真實情況的累積效應(yīng)和觀測儀器的分辨率。

瘋狂的0.05

歷史是健忘又頑固的倔老頭,偏偏記住了0.05。計算磯早就可以精確計算統(tǒng)計量的p值,

但大家還是習(xí)慣用0.01或者0.05作為閾值,于是引出無數(shù)公案,比如EricLander與Elston

關(guān)于全基因組基因定位分析的閾值的口水之爭。

P值雖不完善,但在一個封閉的流程里,前一次決策的損失稍后可以矯正。比如為了研

究遺傳連鎖,F(xiàn)isher自己設(shè)計實驗,把實驗用的老鼠養(yǎng)到家里,擁有完整流程的Fisher有能

力抵御p值決策的風(fēng)險。

但當(dāng)下的工業(yè)化科學(xué)中,各個流程完全分散,切成多段,財政獨立結(jié)算,成果獨立發(fā)表,

出現(xiàn)越來越多沖突的結(jié)果。有人批評這是因為p值不夠亞格,應(yīng)該從().()5提高到().01。實

際上主要問題在于科學(xué)生態(tài)的演化,各不負(fù)責(zé)的科學(xué)現(xiàn)狀,不是單單調(diào)整p值可以解決。

虛無還是替代

Fishei■引入p值,是為了量化決策,只是為了給出對原假設(shè)提出質(zhì)疑的理由,并沒有給

與p值太過于特殊的基礎(chǔ)。對于Fisher,很多讓別人抓破腦袋的事情,在他看來是“顯而易

見''的——盡管他視力非常不好。

相比之下,K.Pearson致力于獲取更大量的樣本和數(shù)據(jù),極大地發(fā)展了描述統(tǒng)計學(xué)并對

推斷統(tǒng)計學(xué)也有重要貢獻,奠定了其統(tǒng)計學(xué)之父的地位。

但是Fisher的試驗設(shè)計思想方法與顯著性檢驗理論一起贏得了眾多無法豪擲千金的科

學(xué)家的青睞。當(dāng)Fisher在與K.Pearson的斗爭中逐漸占據(jù)上風(fēng)、最終大獲全勝之時,卻跟

K.Pearson的兒子EgonPearson升級了戰(zhàn)火。

E.Pearson試圖彌合父親K.Pearson與Fisher之間的學(xué)術(shù)分歧,遇到從測度論進入統(tǒng)計領(lǐng)

域的Neyman后,兩人一拍即合,提出了“假設(shè)檢驗”理論,其中吸收了Fisher的顯著性檢驗

思想。相比于Fisher針對單一假設(shè)用P-value表示顯著性水平,著名的Neyman-Pearson引理

是說:最優(yōu)檢驗的統(tǒng)計量是備擇假設(shè)與原假設(shè)下的似然比,這導(dǎo)致了跟Fisher的“顯著性檢

驗”區(qū)別最大的概念功效或勢(poweroftest)o

但Fisher并不領(lǐng)情E.Pearson的做法,他似乎非常不喜歡Neyman的任何想法。如果

Neyman花力氣證明了一個Fisher曾經(jīng)所謂的“顯而易見''的結(jié)論,F(xiàn)isher必斥其理解錯誤。

如果Neyman拓展了Fisher的一個想法,F(xiàn)isher則又嘲笑其Neyman的想法多么無聊。

無論Fisher先生喜不喜歡,Neyman-Pearson理論衍生的功效計算(powercalculation),現(xiàn)

如今越來越受到重視,各種研究立項和基金申請都需要提供功效計算的證據(jù),從而保證研究

的成功率。如果Neyman-Pearson的原假設(shè)-備擇假設(shè)同時存在多個備擇假設(shè)的話,功效計算

必須錨定一個特定的備擇假設(shè)。

功效計算的框架下研究的成功率有一定保障,但也減少了研究彈性,特別對于那些以新

意取勝的小型化研究,幾乎沒有所謂的功效計算框架可以借鑒。不過,好在上有政策下有對

策,現(xiàn)在一般大家也都是拿已經(jīng)暗地里做完的項目去申請基金,然后用申請來的錢去尋找新

的alternativehypothesis。

持續(xù)升級的戰(zhàn)爭

P-value自身的局限性和使用者的誤用以及讀者的誤解,不斷成為農(nóng)學(xué)、醫(yī)學(xué)、遺傳學(xué)、

生物學(xué)、教育學(xué)、心理學(xué)、經(jīng)濟學(xué)、社會學(xué)等領(lǐng)域的方法論爭議焦點。而數(shù)學(xué)界與統(tǒng)計學(xué)家、

各專業(yè)領(lǐng)域的權(quán)威人士也一直呼吁新入門的研究者務(wù)必注意規(guī)范地使用P-value,還提出了

務(wù)必同時使用效應(yīng)量(effectsize)乃至MAGIC準(zhǔn)則。

P-value自身的局限性在隨著Bayes統(tǒng)計和序貫試驗設(shè)計范式的推進而得到一定程度的

解決,但是誤用誤解本身也反映出p-vakie的可解釋性存在問題。這一點跟深度學(xué)習(xí)所面臨

的部分爭議有異曲同工之處。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論