概率論與數(shù)理統(tǒng)計:第8章 第八章__假設(shè)檢驗(分布擬合檢驗)_第1頁
概率論與數(shù)理統(tǒng)計:第8章 第八章__假設(shè)檢驗(分布擬合檢驗)_第2頁
概率論與數(shù)理統(tǒng)計:第8章 第八章__假設(shè)檢驗(分布擬合檢驗)_第3頁
概率論與數(shù)理統(tǒng)計:第8章 第八章__假設(shè)檢驗(分布擬合檢驗)_第4頁
概率論與數(shù)理統(tǒng)計:第8章 第八章__假設(shè)檢驗(分布擬合檢驗)_第5頁
已閱讀5頁,還剩32頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第八章第八章 假設(shè)檢驗假設(shè)檢驗( (續(xù)續(xù)) ) 在前面的課程中,我們已經(jīng)了解了假在前面的課程中,我們已經(jīng)了解了假設(shè)檢驗的基本思想,并討論了當(dāng)總體分布設(shè)檢驗的基本思想,并討論了當(dāng)總體分布為正態(tài)時,關(guān)于其中未知參數(shù)的假設(shè)檢驗為正態(tài)時,關(guān)于其中未知參數(shù)的假設(shè)檢驗問題問題 . 然而可能遇到這樣的情形,總體服從何然而可能遇到這樣的情形,總體服從何種理論分布并不知道,要求我們直接對總體種理論分布并不知道,要求我們直接對總體分布提出一個假設(shè)分布提出一個假設(shè) .4. 分布擬合檢驗分布擬合檢驗 例例1. 從從1500到到1931年的年的432年間,每年爆年間,每年爆發(fā)戰(zhàn)爭的次數(shù)可以看作一個隨機(jī)變量,椐統(tǒng)計發(fā)戰(zhàn)爭

2、的次數(shù)可以看作一個隨機(jī)變量,椐統(tǒng)計,這這432年間共爆發(fā)了年間共爆發(fā)了299次戰(zhàn)爭次戰(zhàn)爭, 數(shù)據(jù)如下數(shù)據(jù)如下:戰(zhàn)爭次數(shù)戰(zhàn)爭次數(shù)X01234 22314248154 發(fā)生發(fā)生 X次戰(zhàn)爭的年數(shù)次戰(zhàn)爭的年數(shù) 在概率論中,大家對泊松分布產(chǎn)生的一在概率論中,大家對泊松分布產(chǎn)生的一般條件已有所了解,容易想到,每年爆發(fā)戰(zhàn)般條件已有所了解,容易想到,每年爆發(fā)戰(zhàn)爭的次數(shù),可以用一個泊松隨機(jī)變量來近似爭的次數(shù),可以用一個泊松隨機(jī)變量來近似描述描述 . 也就是說,我們可以假設(shè)每年爆發(fā)戰(zhàn)也就是說,我們可以假設(shè)每年爆發(fā)戰(zhàn)爭次數(shù)分布爭次數(shù)分布X近似泊松分布近似泊松分布.上面的數(shù)據(jù)能否證實上面的數(shù)據(jù)能否證實X 具有具有泊松

3、分布的假設(shè)是正確的?泊松分布的假設(shè)是正確的?現(xiàn)在的問題是:現(xiàn)在的問題是:又如,某鐘表廠對生產(chǎn)的鐘進(jìn)行精確性檢又如,某鐘表廠對生產(chǎn)的鐘進(jìn)行精確性檢查,抽取查,抽取100個鐘作試驗,撥準(zhǔn)后隔個鐘作試驗,撥準(zhǔn)后隔24小時小時以后進(jìn)行檢查,將每個鐘的誤差(快或慢)以后進(jìn)行檢查,將每個鐘的誤差(快或慢)按秒記錄下來按秒記錄下來.問該廠生產(chǎn)的鐘的誤差是否服從正態(tài)問該廠生產(chǎn)的鐘的誤差是否服從正態(tài)分布?分布?K.皮爾遜皮爾遜這是一項很重要的工作,不少人這是一項很重要的工作,不少人把它視為近代統(tǒng)計學(xué)的開端把它視為近代統(tǒng)計學(xué)的開端. 解決這類問題的工具是英國統(tǒng)計學(xué)家解決這類問題的工具是英國統(tǒng)計學(xué)家K.皮爾遜在皮爾

4、遜在1900年發(fā)表的一篇文章中引進(jìn)年發(fā)表的一篇文章中引進(jìn)的所謂的所謂 檢驗法檢驗法.2 檢驗法檢驗法是在總體是在總體X 的分布未知時,的分布未知時,根據(jù)來自總體的樣本,檢驗關(guān)于總體分根據(jù)來自總體的樣本,檢驗關(guān)于總體分布的假設(shè)的一種檢驗方法布的假設(shè)的一種檢驗方法. 2 H0:總體:總體X的分布函數(shù)為的分布函數(shù)為F(x) 然后根據(jù)樣本的經(jīng)驗分布和所假設(shè)的理論分然后根據(jù)樣本的經(jīng)驗分布和所假設(shè)的理論分布之間的吻合程度來決定是否接受原假設(shè)布之間的吻合程度來決定是否接受原假設(shè). 這種檢驗通常稱作這種檢驗通常稱作擬合優(yōu)度檢驗擬合優(yōu)度檢驗,它是一,它是一種非參數(shù)檢驗種非參數(shù)檢驗. 使用使用 檢驗法檢驗法對總體

5、分布進(jìn)行檢驗時,對總體分布進(jìn)行檢驗時,我們先提出原假設(shè)我們先提出原假設(shè):2 在用在用 檢驗假設(shè)檢驗假設(shè)H0時,若在時,若在H0下下分布類型已知,但其參數(shù)未知,這時需要先分布類型已知,但其參數(shù)未知,這時需要先用極大似然估計法估計參數(shù),然后作檢驗用極大似然估計法估計參數(shù),然后作檢驗. 2檢驗法檢驗法分布擬合的分布擬合的 的基本原理和步的基本原理和步驟如下驟如下:2檢驗法檢驗法3.根據(jù)所假設(shè)的理論分布根據(jù)所假設(shè)的理論分布,可以算出總體可以算出總體X的的值落入每個值落入每個Ai的概率的概率pi,于是于是npi就是落入就是落入Ai的的樣本值的樣本值的理論頻數(shù)理論頻數(shù).1. 將總體將總體X的取值范圍分成的

6、取值范圍分成k個互不重迭的小個互不重迭的小區(qū)間區(qū)間,記作記作A1, A2, , Ak .2.把落入第把落入第i個小區(qū)間個小區(qū)間Ai的樣本值的個數(shù)記的樣本值的個數(shù)記作作fi , 稱為稱為實測頻數(shù)實測頻數(shù). 所有實測頻數(shù)之和所有實測頻數(shù)之和f1+ f2+ + fk等于樣本容量等于樣本容量n.kiiiinpnpf122)( iinpf 標(biāo)志著經(jīng)驗分布與理論分布之間的差異的大小標(biāo)志著經(jīng)驗分布與理論分布之間的差異的大小.皮爾遜引進(jìn)如下統(tǒng)計量表示經(jīng)驗分布皮爾遜引進(jìn)如下統(tǒng)計量表示經(jīng)驗分布與理論分布之間的差異與理論分布之間的差異:統(tǒng)計量統(tǒng)計量 的分布是什么的分布是什么?2 在理論分布在理論分布已知的條件下已知

7、的條件下,npi是常量是常量實測頻數(shù)實測頻數(shù)理論頻數(shù)理論頻數(shù)nnpfpnfpnkiiiiikii 12212 或或 如果理論分布如果理論分布F(x)中有中有r個未知參數(shù)需用個未知參數(shù)需用相應(yīng)的估計量來代替,那么當(dāng)相應(yīng)的估計量來代替,那么當(dāng) 時,統(tǒng)時,統(tǒng)計量計量 的分布漸近的分布漸近 (k-r-1)個自由度的個自由度的 分分布布.皮爾遜證明了如下定理皮爾遜證明了如下定理:2 n2 如果理論分布如果理論分布F(x)中有中有r個未知參數(shù)需用個未知參數(shù)需用相應(yīng)的估計量來代替,那么當(dāng)相應(yīng)的估計量來代替,那么當(dāng) 時,統(tǒng)時,統(tǒng)計量計量 的分布漸近的分布漸近 (k-r-1)個自由度的個自由度的 分分布布.n2

8、 若原假設(shè)中的理論分布若原假設(shè)中的理論分布F(x)已經(jīng)完全給已經(jīng)完全給定,那么當(dāng)定,那么當(dāng) 時,統(tǒng)計量時,統(tǒng)計量n kiiiinpnpf122)( 的分布漸近的分布漸近(k-1)個自由度的個自由度的 分布分布.2 若原假設(shè)中的理論分布若原假設(shè)中的理論分布F(x)已經(jīng)完全給已經(jīng)完全給定,那么當(dāng)定,那么當(dāng) 時,統(tǒng)計量時,統(tǒng)計量n 為了便于理解,我們對定理作一為了便于理解,我們對定理作一點(diǎn)直觀的說明點(diǎn)直觀的說明.是是k個近似個近似正態(tài)正態(tài)的變量的平方和的變量的平方和.kiiiinpnpf122)( 這些變量之間存在著一個制約關(guān)系:這些變量之間存在著一個制約關(guān)系:kiiiiinpnpfp10)(故統(tǒng)計

9、量故統(tǒng)計量 漸近漸近(k-1)個自由度的個自由度的 分布分布.2 2 在理論分布在理論分布F(x)完全給定的情況下,每個完全給定的情況下,每個pi 都是確定的常數(shù)都是確定的常數(shù). 由由棣莫佛拉普拉斯中心極棣莫佛拉普拉斯中心極限定理,當(dāng)限定理,當(dāng)n充分充分大時,實測頻數(shù)大時,實測頻數(shù) fi 漸近正態(tài),漸近正態(tài),因此因此 在在F(x)尚未完全給定的情況下,每個未知尚未完全給定的情況下,每個未知參數(shù)用相應(yīng)的估計量代替,就相當(dāng)于增加一個參數(shù)用相應(yīng)的估計量代替,就相當(dāng)于增加一個制約條件,制約條件,因此,自由度也隨之減少一個因此,自由度也隨之減少一個. . 若若有有r個未知參數(shù)需用相應(yīng)的估計量來代個未知參

10、數(shù)需用相應(yīng)的估計量來代替,替,自由度就減少自由度就減少r個個. .此時統(tǒng)計量此時統(tǒng)計量 漸近漸近(k-r-1)個自由度的個自由度的 分布分布.2 2 如果根據(jù)所給的樣本值如果根據(jù)所給的樣本值 X1,X2, ,Xn算得算得統(tǒng)計量統(tǒng)計量 的實測值落入拒絕域,則拒絕原假的實測值落入拒絕域,則拒絕原假設(shè),否則就認(rèn)為差異不顯著而接受原假設(shè)設(shè),否則就認(rèn)為差異不顯著而接受原假設(shè).2 得拒絕域得拒絕域:) 1(22k ) 1(22rk (不需估計參數(shù)不需估計參數(shù))(估計估計r 個參數(shù)個參數(shù)) )(22P查查 分布表可得臨界值分布表可得臨界值2 2 ,使得,使得 根據(jù)這個定理,對給定的顯著性水平根據(jù)這個定理,對

11、給定的顯著性水平 , 皮爾遜定理是在皮爾遜定理是在n無限無限增大時推導(dǎo)出來增大時推導(dǎo)出來的,因而在使用時要注意的,因而在使用時要注意n要足夠大要足夠大,以及,以及npi 不太小不太小這兩個條件這兩個條件. 根據(jù)計算實踐,要求根據(jù)計算實踐,要求n不小于不小于50,以及,以及npi 都都不小于不小于 5. 否則應(yīng)適當(dāng)合并區(qū)間,使否則應(yīng)適當(dāng)合并區(qū)間,使npi滿滿足這個要求足這個要求 . 讓我們回到開始的一個例子,檢驗每讓我們回到開始的一個例子,檢驗每年爆發(fā)戰(zhàn)爭次數(shù)分布是否服從泊松分布年爆發(fā)戰(zhàn)爭次數(shù)分布是否服從泊松分布.提出假設(shè)提出假設(shè)H0: X服從參數(shù)為服從參數(shù)為 的泊松分布的泊松分布 按參數(shù)按參數(shù)

12、為為0.69的泊松分布,計算事件的泊松分布,計算事件X=i 的的概率概率pi ,=0.69X 將有關(guān)計算結(jié)果列表如下將有關(guān)計算結(jié)果列表如下:pi的估計是的估計是,i=0,1,2,3,4!69. 069. 0iepii根據(jù)觀察結(jié)果,得參數(shù)根據(jù)觀察結(jié)果,得參數(shù) 的極大似然估計為的極大似然估計為 因因H0所假設(shè)的理論分布中有一個未知所假設(shè)的理論分布中有一個未知參數(shù),故自由度為參數(shù),故自由度為4-1-1=2.x 0 1 2 3 4fi 223 142 48 15 4 0.58 0.31 0.18 0.01 0.02n 216.7 149.5 51.6 12.0 2.16 iiinpnpf2)(0.18

13、30.376 0.251 1.623戰(zhàn)爭次數(shù)戰(zhàn)爭次數(shù)實測頻數(shù)實測頻數(shù)ip ip 14.162.43將將n 5的組予以合并,即將發(fā)生的組予以合并,即將發(fā)生3次及次及4次次戰(zhàn)爭的組歸并為一組戰(zhàn)爭的組歸并為一組.ip 故認(rèn)為每年發(fā)生戰(zhàn)爭的次數(shù)故認(rèn)為每年發(fā)生戰(zhàn)爭的次數(shù)X服從服從參數(shù)為參數(shù)為0.69的泊松分布的泊松分布.按按 =0.05,自由度為,自由度為4-1-1=2查查 分布表得分布表得2 =5.991)2(205. 0 2 =2.435.991,由于統(tǒng)計量由于統(tǒng)計量2 的實測值的實測值未落入否定域未落入否定域. 奧地利生物學(xué)家孟德爾進(jìn)行了長奧地利生物學(xué)家孟德爾進(jìn)行了長達(dá)八年之久的豌豆雜交試驗達(dá)八年

14、之久的豌豆雜交試驗, 并根據(jù)并根據(jù)試驗結(jié)果試驗結(jié)果,運(yùn)用他的數(shù)理知識運(yùn)用他的數(shù)理知識, 發(fā)現(xiàn)了發(fā)現(xiàn)了遺傳的基本規(guī)律遺傳的基本規(guī)律. 例例2. 我們以遺傳學(xué)上的一項偉大發(fā)現(xiàn)為例我們以遺傳學(xué)上的一項偉大發(fā)現(xiàn)為例說明統(tǒng)計方法在研究自然界和人類社會的規(guī)律說明統(tǒng)計方法在研究自然界和人類社會的規(guī)律性時,是起著積極的、主動的作用性時,是起著積極的、主動的作用.孟德爾孟德爾子二代子二代子一代子一代黃色純系黃色純系綠色純系綠色純系他的一組觀察結(jié)果為:他的一組觀察結(jié)果為:黃黃70,綠,綠27近似為近似為2.59:1,與理論值相近,與理論值相近. 根據(jù)他的理論,子二代中根據(jù)他的理論,子二代中, 黃、綠之比黃、綠之比

15、 近似為近似為3:1, 由于隨機(jī)性,觀察結(jié)果與由于隨機(jī)性,觀察結(jié)果與3:1總有些差總有些差距,因此有必要去考察某一大小的差異是否距,因此有必要去考察某一大小的差異是否已構(gòu)成否定已構(gòu)成否定3:1理論的充分根據(jù),這就是如理論的充分根據(jù),這就是如下的檢驗問題下的檢驗問題.這里,這里,n=70+27=97, k=2,檢驗孟德爾的檢驗孟德爾的3:1理論理論:提出假設(shè)提出假設(shè)H0: p1=3/4, p2=1/4理論頻數(shù)為:理論頻數(shù)為: np1=72.75, np2=24.25實測頻數(shù)為實測頻數(shù)為70,27.2 由于統(tǒng)計量由于統(tǒng)計量的實測值的實測值2122)(iiiinpnpf 統(tǒng)計量統(tǒng)計量) 1 (2 自

16、由度為自由度為k-1=12 =0.41583.841,按按 =0.05,自由度為,自由度為1,查,查 分布表得分布表得2 =3.841) 1 (205. 0 未落入否定域未落入否定域.故認(rèn)為試驗結(jié)果符合故認(rèn)為試驗結(jié)果符合孟德爾的孟德爾的3:1理論理論. 這些試驗及其它一些試驗,都顯這些試驗及其它一些試驗,都顯 示孟德爾的示孟德爾的3: 1理論與實際是符合的理論與實際是符合的. 這本身就是這本身就是統(tǒng)計方法在科學(xué)中的一項統(tǒng)計方法在科學(xué)中的一項 重要應(yīng)用重要應(yīng)用.用于客觀地評價理論上的某個結(jié)論是用于客觀地評價理論上的某個結(jié)論是否與觀察結(jié)果相符,以作為該理論是否與觀察結(jié)果相符,以作為該理論是否站得住

17、腳的印證否站得住腳的印證.例例3. 自自1965年年1月月1日至日至1971年年2月月9日共日共2231天天中,全世界紀(jì)錄到里氏震級中,全世界紀(jì)錄到里氏震級4記和記和5級以上的級以上的地震地震162次,統(tǒng)計如下次,統(tǒng)計如下試檢驗相繼兩次地震間隔天數(shù)是否符合指數(shù)分試檢驗相繼兩次地震間隔天數(shù)是否符合指數(shù)分布。布。=0.05相繼兩次地震間相繼兩次地震間隔的天數(shù)隔的天數(shù)xi0-45-910-1415-1920-2425-2930-3435-3940出現(xiàn)的頻數(shù)出現(xiàn)的頻數(shù)fi50312617108668(1)解:本例是檢驗假設(shè)解:本例是檢驗假設(shè) H0 :X的概率密度為的概率密度為 此處的參數(shù)此處的參數(shù)未知

18、,先利用極大似然估計未知,先利用極大似然估計求出求出的估計為的估計為 將總體將總體X可能取值的區(qū)間可能取值的區(qū)間0,)分為分為9個個互不重疊的子區(qū)間互不重疊的子區(qū)間 i=1,2,9。若為真,則。若為真,則X的分布函數(shù)是的分布函數(shù)是 0 , 00,1)(/xxexfx 77.13162/2231L 0 00 177130 x,x,e)x(F./x, ,11 iiiiiaXaAa,a令令 由此式得概率由此式得概率pi = P(Ai )的估計:的估計: 于是可以得到下面的表:于是可以得到下面的表:0568. 0)(1)(2196. 0)5 . 4()5 . 9()()(:)()()(81990020

19、12020101iiiiiiiiAPAPpFFaFaFpaFaFaXaPAPp而例如13.2192 -0.7808 0.0461iai,ai+1)fi10,4.5)500.278845.1656-4.83440.517524.5,9.5)310.219635.57524.57520.588439.5,14.5)260.152724.7374-1.26260.0644414.5,19.5)170.106217.20440.20440.0024519.5,24.5)100.073911.97181.97180.3248624.5,29.5)80.05148.32680.32680.0126729.

20、5,34.5)60.03585.7996-0.20040.0069834.5,39.5)60.02484.0176939.5,+)80.05689.20161.5631ip ipniifpniiipnfpn/)(2結(jié)論:結(jié)論: 因為:因為:服從指數(shù)分布。即認(rèn)為接受下。故在水平XHrk,05.05631.1592.12)6()118()1(0205.0205.0205.0 教材上的另一例留給同學(xué)們自己看教材上的另一例留給同學(xué)們自己看. 由于這種檢驗的計算量相對較大,一般要由于這種檢驗的計算量相對較大,一般要用統(tǒng)計軟件包來實現(xiàn)用統(tǒng)計軟件包來實現(xiàn). 這一講我們介紹了擬合優(yōu)度的這一講我們介紹了擬合優(yōu)度

21、的 檢驗檢驗法法. 在對總體的分布進(jìn)行檢驗時經(jīng)常使用在對總體的分布進(jìn)行檢驗時經(jīng)常使用.2 5. 秩和檢驗法秩和檢驗法設(shè)從總體設(shè)從總體F(x)和和G(x)中分別抽出了樣本容量中分別抽出了樣本容量n1與與n2的樣本的樣本(X1, X2,Xn1), (X1,X2,Xn2),檢驗假設(shè):,檢驗假設(shè): H0:F(x)=G(x)設(shè):設(shè): 1.n1n2。2.把兩個樣本的觀測數(shù)據(jù)和在一起從小到大的把兩個樣本的觀測數(shù)據(jù)和在一起從小到大的次序排列,并進(jìn)行統(tǒng)一計數(shù)次序排列,并進(jìn)行統(tǒng)一計數(shù)1,2, n1+n2 。 3.每個數(shù)據(jù)每個數(shù)據(jù)在排列中所對應(yīng)的序數(shù)稱為該數(shù)據(jù)在排列中所對應(yīng)的序數(shù)稱為該數(shù)據(jù)的秩。的秩。4.相同數(shù)據(jù)用

22、他們的平均值來做秩。相同數(shù)據(jù)用他們的平均值來做秩。 將容量小的樣本的觀測值的秩之和記為將容量小的樣本的觀測值的秩之和記為T。以。以T為為檢驗統(tǒng)計量。檢驗統(tǒng)計量。 如果如果H0成立,則成立,則(X1, X2,Xn1), (X1,X2,Xn2)可可以看作取自同一總體的容量為以看作取自同一總體的容量為n1+n2的樣本值。的樣本值。 (x1, x2,xn1), (x1,x2, xn2)中諸元素的秩,應(yīng)該中諸元素的秩,應(yīng)該隨機(jī)地、分散地在自然數(shù)隨機(jī)地、分散地在自然數(shù)1,2, n1+n2 中取值,中取值,一般他們不應(yīng)過分集中取較小或過分集中取較大一般他們不應(yīng)過分集中取較小或過分集中取較大的值。由于的值。由于n1(n1+ 1)/2 T n1n2 + n2(n2+ 1)/2 則當(dāng)則當(dāng)H0為真時,秩和為真時,秩和T一般不應(yīng)取太靠近該不等式兩一般不

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論