概率統(tǒng)計建模講義_第1頁
概率統(tǒng)計建模講義_第2頁
概率統(tǒng)計建模講義_第3頁
概率統(tǒng)計建模講義_第4頁
概率統(tǒng)計建模講義_第5頁
已閱讀5頁,還剩73頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、主要內(nèi)容隨機(jī)變量及其分布 經(jīng)驗分布函數(shù)和頻率直方圖 參數(shù)估計 假設(shè)檢驗 相關(guān)分析與回歸分析簡介 MATLAB例題例1能量供應(yīng)問題 例2 放射性 例3正態(tài)分布 例4指數(shù)分布 例5 多元隨機(jī)變量例6經(jīng)驗分布函數(shù) 例7超市問題 例8區(qū)間估計 例9 擬合檢驗1 例10擬合檢驗2 例11概率紙檢驗法 例12道德 例13腸癌 例14 J效應(yīng) Back Next 隨機(jī)變量及其分布例1、能量供應(yīng)問題(二項分布)假定有個工人間歇性地使用電力,估計所需要的總負(fù)荷。首先我們要知道,或者是假定,每個工人彼此獨(dú)立工作,而每一時刻每個工人都以相同的概率p需要一個單位的電力。那么,同時使用電力的人數(shù)就是一個隨機(jī)變量,它服從

2、所謂的二項分布。用X表示這個隨機(jī)變量,記做,且有 這是非常重要的一類概率分布。其中E(X)np, D(X)=np(1-p)。 目錄 Back Next其次,要根據(jù)經(jīng)驗來估計出,p值是多少?例如,一個工人在一個小時里有12分鐘在使用電力,那么應(yīng)該有。最后,利用公式我們求出隨機(jī)變量X的概率分布表如下:X012345678910P0.0.0.301990.0.088080.0.0.0.0.0.累積概率0.0.375810.67780.0.0.0.0.0.11為直觀計,我們給出如下概率分布圖: 目錄 Back Next可以看出,也就是說,如果供應(yīng)6個單位的電力,則超負(fù)荷工作的概率只有0.,即每中,才可

3、能有一分鐘電力不夠用。還可以算出,八個或八個以上工人同時使用電力的概率就更小了,比上面概率的還要小。問題:二項分布是一個重要的用來計數(shù)的分布。什么樣的隨機(jī)變量會服從二項分布? 目錄 Back Next 進(jìn)行n次獨(dú)立觀測,在每次觀測中所關(guān)心的事件出現(xiàn)的概率都是p,那么在這n次觀測中事件A出現(xiàn)的總次數(shù)是一個服從二項分布B(n,p)。作業(yè):用MATLAB計算本題。binopdf(x,n,p) 計算x中每個值對應(yīng)的二項分布概率binocdf(x,n,p) 計算x中每個值對應(yīng)的分布函數(shù)值 binoinv(y,n,p) 計算使得分布函數(shù)值大于等于y的最小整數(shù)x:P(X=y binornd(n,p, mm,

4、 nn) 產(chǎn)生二項分布隨機(jī)數(shù),mm行nn列。再如,產(chǎn)生兩行五列的隨機(jī)數(shù)用binornd(10,0.2,2,5)例如binopdf(0:10,10,0.2), binoinv(0.9,10,0.2)=4,binoinv(0:10)/10,10,0.2)binornd(10,0.2,1,5)ans = 2 2 1 1 4目錄 Back Next 例2、Rutherford 對裂變物質(zhì)的觀測 (Poisson分布)英國著名物理學(xué)家 Rutherford(18711937)在其放射性物質(zhì)試驗中,觀測在時間間隔T內(nèi)放射性物質(zhì)放射出的粒子數(shù)。實際試驗時,取時間間隔為T=7.5秒,觀測了N2608次,將每次

5、觀測到的粒子數(shù)記錄下來,列在下表中第1,2行:粒子數(shù)X012345678910頻數(shù)n57203383525532408273139452716頻率f0.0.0.0.0.0.0.0.0.0.0.概率p0.0.0.0.0.0.0.0.0.0.0. 目錄 Back Next我們用X表示T=7.5秒內(nèi)觀測到的粒子數(shù),它是一個隨機(jī)變量,服從什么分布呢?在2608次觀測中,共觀測到10094個粒子數(shù),平均每次觀測到=MN1009426083.87個粒子數(shù),用參數(shù)為=3.87的Poisson分布P計算一下: 將計算結(jié)果列在上表中最后一行,與列在第3行的實際頻率比較,比較的圖示在下圖中。(Excel)可以看出

6、,認(rèn)為X服從參數(shù)為3.87的Poisson分布還是非常合理的。在后面統(tǒng)計部分,我們會用Pearson擬合檢驗法來證明這種合理性。 目錄 Back Next作業(yè):用MATLAB計算本題。poisspdf(x,),計算poisson概率,poisscdf, poissinv, poissrnd例如,poisspdf(0:9,3.87)問題:Poisson分布是又一類非常重要的用來計數(shù)的離散型分布,它依賴于一個參數(shù)。什么樣的隨機(jī)變量會服從Poisson分布呢? 目錄 Back Next在給定的觀測范圍內(nèi)(例如給定時間內(nèi),給定區(qū)域內(nèi),等等),事件會發(fā)生多少次?把觀測范圍分成n個小范圍:1、 給定事件在

7、每個小范圍內(nèi)可能發(fā)生,也可能不發(fā)生,發(fā)生多少次取決于小范圍的大??;2、 在不同的小范圍內(nèi)發(fā)生多少事件相互獨(dú)立;3、 在小范圍里發(fā)生的事件數(shù)多于一個的概率,和小范圍的大小相比可以忽略不計,用表示在小范圍內(nèi)事件發(fā)生一次的概率。那么在給定范圍內(nèi)發(fā)生的總事件數(shù)X近似服從,為給定范圍內(nèi)事件發(fā)生次數(shù)的近似平均值。令,則為給定范圍內(nèi)事件發(fā)生次數(shù)的準(zhǔn)確平均值,這時這正是Poisson分布,其中參數(shù)。 目錄 Back Next例3、正態(tài)分布隨機(jī)變量X如果有密度函數(shù)則稱此隨機(jī)變量服從參數(shù)為的正態(tài)分布,記做,其中都是給定的參數(shù),。稱為標(biāo)準(zhǔn)正態(tài)分布,用表示其分布函數(shù),其密度函數(shù)為時,我們有 目錄 Back Next大

8、量連續(xù)型隨機(jī)變量服從正態(tài)分布,所以正態(tài)分布在處理數(shù)據(jù)時是非常有用處的。我們在統(tǒng)計部分會大量用到它。Matlab中用norm表示正態(tài)分布,參數(shù)是數(shù)學(xué)期望和標(biāo)準(zhǔn)差。下面是正態(tài)分布的密度函數(shù)圖像:(正態(tài)密度圖像) 目錄 Back Next例4、指數(shù)分布稱隨機(jī)變量X服從參數(shù)為1的指數(shù)分布或標(biāo)準(zhǔn)指數(shù)分布,若它有密度函數(shù)它的分布函數(shù)為 設(shè)是給定常數(shù),則Y的分布函數(shù)為其密度函數(shù)為這是一般的指數(shù)分布。 目錄 Back Nextb0的指數(shù)分布的密度函數(shù)圖像如下所示(指數(shù)密度):可見,隨著的減小,隨機(jī)變量取到較大值的概率增加。事實上,是隨機(jī)變量的數(shù)學(xué)期望。 指數(shù)隨機(jī)變量經(jīng)常用來刻畫壽命。 目錄 Back Next

9、 例5、 多元隨機(jī)變量我們經(jīng)常需要考慮量與量之間的關(guān)系,如果這些量是隨機(jī)變量,那么就需要把多個隨機(jī)變量放在一起,考慮多元隨機(jī)變量。設(shè)是n元隨機(jī)變量,它的分布函數(shù)是一個n元函數(shù):利用這個分布函數(shù)就可以討論這n個隨機(jī)變量之間各種各樣的關(guān)系。 目錄 Back Next1、 邊際分布與獨(dú)立性相互獨(dú)立當(dāng)且僅當(dāng)2、 相關(guān)系數(shù)兩個隨機(jī)變量之間的相關(guān)系數(shù)定義為其中相關(guān)系數(shù)刻畫了隨機(jī)變量之間的線性相關(guān)程度,越接近于0,線性相關(guān)關(guān)系越弱。 目錄 Back Next定理:設(shè)二維隨機(jī)變量(X,Y)的相關(guān)系數(shù)為,則(1)、(2)、在(X,Y)服從二元正態(tài)分布的條件下,X與Y獨(dú)立的充要條件是;(3)、若,則幾乎必然有其中

10、是確定的常數(shù);若,則幾乎必然有其中是確定的常數(shù)。 目錄 Back Next3、 條件分布在已知其中某些隨機(jī)變量的取值的情況下,可以進(jìn)一步確定其他隨機(jī)變量的條件分布。例如,在有密度函數(shù)的情況下,我們還可以求條件密度函數(shù),甚至利用Bayes定理,解決許多重要問題。目錄 Back Next 綜上所述,我們知道在概率論里學(xué)過許多分布,當(dāng)然,還有許多分布我們沒有學(xué)過。但是,在實踐中我們可能會遇到各種各樣的分布,甚至還有沒被發(fā)現(xiàn)的分布。在處理數(shù)據(jù)的時候,我們要搞清楚:1、 數(shù)據(jù)是哪個或哪些指標(biāo)的取值?2、 這個或這些指標(biāo)是不是隨機(jī)變量或隨機(jī)向量? 3、 如果是,那么它服從什么分布?4、 用統(tǒng)計方法確定分布

11、;5、 分布確定后,用概率方法求出問題的解。下面我們就討論用統(tǒng)計方法確定分布的問題。目錄 Back Next 經(jīng)驗分布函數(shù)和頻率直方圖當(dāng)我們確定討論的指標(biāo)的確是隨機(jī)變量后,剩下的關(guān)鍵任務(wù)就是確定它的分布。那么它的觀測數(shù)據(jù)就是我們賴以解決問題的基本資料,叫做樣本,而這個隨機(jī)變量就叫做總體。這些數(shù)據(jù)反映了該隨機(jī)變量分布的基本特征。我們可以利用這些數(shù)據(jù)構(gòu)造一個分布函數(shù),理論上可以證明它很接近于那個未知分布。這個分布函數(shù)就叫做經(jīng)驗分布函數(shù)。目錄 Back Next 例6、例2續(xù)(經(jīng)驗分布函數(shù))在例2,我們確定所討論的指標(biāo)在時間間隔T秒內(nèi)放射出的粒子數(shù)X,是一個隨機(jī)變量。且有該隨機(jī)變量的n2608個觀測

12、值,這就是一個容量為2608的樣本。在沒有其他信息的情況下,首先應(yīng)該給出該樣本的經(jīng)驗分布函數(shù):在這里我們可求出這個經(jīng)驗分布函數(shù)如下:目錄 Back Next粒子數(shù)X012345678910頻數(shù)n57203383525532408273139452716頻率f0.0.0.0.0.0.0.0.0.0.0.概率p0.0.0.0.0.0.0.0.0.0.0.這個函數(shù)的圖像如下(Poisson2):如果熟悉Poisson分布的分布函數(shù)圖像的話,就可以從這個圖像判斷出,X可能服從參數(shù)為3.87的Poisson分布。從這個經(jīng)驗分布函數(shù)容易解決概率計算問題: 目錄 Back Next當(dāng)然,由于是離散型的隨機(jī)變

13、量,我們可能更熟悉如下頻率分布圖像:也就是說,對于離散型隨機(jī)變量,我們更常用的方法是繪制這種頻率分布圖。為了判斷分布的類型,對于離散型隨機(jī)變量,要繪制頻率分布圖!作業(yè):用MATLAB計算本例。目錄 Back Next例7、超市問題(頻率直方圖)隨機(jī)抽取某大學(xué)超市137位顧客的購買金額的實際記錄(單位:元),數(shù)據(jù)如下。請問購買金額服從什么分布?65.209.9029.7261.1016.9214.3824.1316.9929.33 4.399.8085.9622.5037.1932.318.4035.0341.706.084.906.2820.401.807.902.5015.0529.2711

14、.1011.0826.1017.5023.0523.123.0012.8813.189.0044.094.0045.4533.6921.9217.003.4016.306.6011.3642.308.007.4014.986.0544.9440.1460.051.5029.5818.306.0031.104.8016.343.2024.536.677.7249.4010.0316.3023.6012.705.0025.357.9264.801.393.0013.600.9020.2027.2021.9313.280.9010.095.0027.4535.604.222.0020.902.001

15、1.078.974.158.703.5017.2460.343.3027.4832.0055.4815.125.6112.400.9511.8018.6037.342.0034.079.1011.590.7028.0013.202.004.503.973.666.253.9019.6016.882.002.8025.162.865.7010.254.059.004.203.501.902.76 目錄 Back Next用X表示顧客的購買金額,那么它應(yīng)該是一個連續(xù)型的隨機(jī)變量。對于連續(xù)型的隨機(jī)變量,我們一般就不作它的經(jīng)驗分布函數(shù)了,而是改作它的頻率直方圖。一般認(rèn)為,X應(yīng)該服從正態(tài)分布,數(shù)學(xué)期望為

16、。其實不然,其頻率直方圖如下圖所示:(超市)目錄 Back Next它很像參數(shù)為的指數(shù)分布密度函數(shù),如圖中紅色曲線所示。所以我們就認(rèn)為X的分布是這樣的一個指數(shù)分布。例如,給定,可以求出表明該店顧客一次消費(fèi)金額在20元以下的人數(shù)占到近七成。這是什么原因呢?原來這是一家小型社區(qū)超市,人們只來買日用品,不在這里買大件。這對超市的經(jīng)營管理是一個重要信息。對于連續(xù)型隨機(jī)變量,要繪制頻率直方圖!作業(yè):1、用Excel完成本例;2、經(jīng)驗分布函數(shù)。 目錄 Back Next經(jīng)驗分布函數(shù)、頻率分布圖和頻率直方圖可以幫助我們了解隨機(jī)變量的類型。當(dāng)我們已經(jīng)了解到隨機(jī)變量的分布類型后,該隨機(jī)變量的分布一般就取決于一個

17、或幾個參數(shù)了。如果知道了這些參數(shù),就可以把分布完全確定下來。那么,如何確定這未知參數(shù)呢?數(shù)字特征計算:+ stat:計算均值和方差目錄 Back Next 參數(shù)估計設(shè)隨機(jī)變量X的分布形式已經(jīng)知道,而其中的一個或幾個參數(shù)未知,我們記這個分布為。注意,在應(yīng)用中,X可能是離散型隨機(jī)變量,也可能是連續(xù)型隨機(jī)變量,未知參數(shù)是具體的,要寫出分布的具體形式,例如寫出概率分布列或密度函數(shù),而不要抽象地記為。我們有樣本,這就是大家在實際問題中拿到的數(shù)據(jù)。(相對于這個樣本,我們一般把X叫做總體)。怎樣利用樣本估計參數(shù)呢?有兩套理論,即點(diǎn)估計理論和區(qū)間估計理論。 目錄 Back Next 點(diǎn)估計首先要掌握點(diǎn)估計方法

18、。大家學(xué)過兩種點(diǎn)估計方法矩估計法和極大似然估計法。這里就不具體講這兩種求法了,我們只講一下幾個重要的結(jié)果。1、 樣本均值是總體均值的無偏估計,所以當(dāng)總體的數(shù)學(xué)期望E(X)未知時,我們一般用樣本均值作為E(X)的估計。目錄 Back Next在例2中,根據(jù)例6的結(jié)果看,應(yīng)該用Poisson分布,而這時,所以我們用作為的估計,得到具體的一個Poisson分布。為什么恰好取3.87而非其它的值?這個為什么的問題是一個物理問題,我們無能為力。但是,從統(tǒng)計角度看,我們選用Poisson分布合理嗎?后面我們再解決這個問題。再如例7,我們利用頻率直方圖得到X應(yīng)該服從指數(shù)分布的判斷,而對于參數(shù)為的指數(shù)分布,因

19、為,是無偏估計,所以在那里取。那么,用這個指數(shù)分布從統(tǒng)計角度來說合理嗎?這個問題也留到后面解決。 目錄 Back Next現(xiàn)在大家應(yīng)該理解點(diǎn)估計的重要意義了吧,可以看出來,沒有一個好的點(diǎn)估計量,就不可能得到一個至少是直觀上合理的分布。下面我們再給出另一個重要的點(diǎn)估計量。2、 修正樣本方差是總體方差的無偏估計量,所以當(dāng)總體方差D(X)未知時,我們一般用作為D(X)的估計量。例如在很多情況下,我們會用到正態(tài)分布,那時我們不但要用來估計,而且還要用來估計,從而得到一個具體的正態(tài)分布。(注意,當(dāng)樣本容量n較大時, 與 沒有多大區(qū)別,所以在應(yīng)用中有時會直接使用。)Matlab里計算樣本統(tǒng)計量的函數(shù):ge

20、omean幾何平均,harmmean調(diào)和平均,iqr四分位間距,mean均值,median中位數(shù),std標(biāo)準(zhǔn)差,var無偏樣本方差 目錄 Back Next區(qū)間估計 區(qū)間估計 在一個或兩個正態(tài)總體情況下的參數(shù)的區(qū)間估計問題在任何一本數(shù)理統(tǒng)計學(xué)的教材中都可以找到標(biāo)準(zhǔn)的求法??墒顷P(guān)于非正態(tài)總體的情況在實際問題中也是常碰到的。下面就通過一個例子來體會一下它的求法。目錄 Back Next 例8、續(xù)例7(區(qū)間估計)我們討論例7中的一個問題,求消費(fèi)金額不超過20元的概率p的區(qū)間估計,置信水平為。 用Y表示消費(fèi)金額不超過20元這個事件,對i1,2,137,記那么總體Y服從兩點(diǎn)分布,。為其樣本,而且由原始數(shù)

21、據(jù)可得n137,還可得每個的取值即樣本觀測值。被估計量為,但是也未知。的樣本方差為,用它來代替總體Y的方差。目錄 Back Next我們知道利用關(guān)于二項分布的中心極限定理,當(dāng)n較大時,近似地有 從而近似地有由此不難求出p的置信區(qū)間: 由,給定,可得p的置信度為的置信區(qū)間約為 。目錄 Back Next一般情況下,我們總會想到正態(tài)總體的區(qū)間估計方法。但是,對于非正態(tài)總體,如果需要,我們也要設(shè)法作區(qū)間估計,方法有兩類:象正態(tài)總體那樣,構(gòu)造樞軸變元,利用已知分布求區(qū)間估計,可參見教材中P265第16題的方法(作為習(xí)題,請同學(xué)們做這道題);另一類方法就是在大樣本情況下用正態(tài)分布的方法求近似區(qū)間估計,如

22、本例所示。綜上所述,點(diǎn)估計和區(qū)間估計的理論與方法在實踐中有重要應(yīng)用,而我們在數(shù)理統(tǒng)計中也學(xué)過這些方法,所以在建模時,要在需要的時候充分利用。這些內(nèi)容在數(shù)理統(tǒng)計的任何一本教材中都可以容易地查到,所以在建模的時候,這些問題不應(yīng)該成為大家的攔路虎。Matlab函數(shù):normfit(r): 樣本r下正態(tài)總體參數(shù)的點(diǎn)估計和區(qū)間估計。例如先產(chǎn)生兩列(每列100個)正態(tài)隨機(jī)數(shù)(均值10,方差2*2=4):r=normrnd(10,2,100,2)。然后a,b,c,d=normfit(r,alpha)產(chǎn)生均值、標(biāo)準(zhǔn)差的點(diǎn)估計、區(qū)間估計,其中a,b放的是點(diǎn)估計,c,d放的是區(qū)間估計。 目錄 Back Next假

23、設(shè)檢驗 假設(shè)檢驗當(dāng)然我們不會在這里講數(shù)理統(tǒng)計課堂上作為重點(diǎn)學(xué)習(xí)過的那些正態(tài)總體未知參數(shù)的假設(shè)檢驗方法,這些應(yīng)該是大家必須熟練掌握的基本內(nèi)容。在這里,我們要介紹兩個很有用的非參數(shù)檢驗方法,一個方法用來解決前面提到的“總體服從某個分布是否合理”的問題,如例2及例6中認(rèn)為X服從參數(shù)為3.87的Poisson分布,例7中認(rèn)為X服從參數(shù)為的指數(shù)分布,這樣作從統(tǒng)計角度看合理嗎?也就是要檢驗總體分布是否為某給定分布。另一個方法是用來檢驗兩個隨機(jī)變量是否獨(dú)立的所謂獨(dú)立性檢驗方法。注意要掌握思想,揣摩何時需要做這些檢驗,需要的時候,可以在任何一本統(tǒng)計學(xué)的教材中找到具體步驟。所以我不要求大家記住具體步驟,而要理解

24、其重要性。目錄 Back Next擬合檢驗例9、續(xù)例2(離散型)例2中認(rèn)為在時間間隔內(nèi)放射性物質(zhì)放射出的粒子數(shù)X服從Poisson分布,是否合理?我們現(xiàn)在解決這個問題。這是一個非參數(shù)假設(shè)檢驗問題,原假設(shè)為H0:X服從Poisson分布當(dāng)然其對立假設(shè)就是X不服從Poisson分布。目錄 Back Next檢驗的第一步要解決的問題是,如果H0成立,那么它服從參數(shù)為多少的Poisson分布?要先估計未知參數(shù)。因為這時,所以用點(diǎn)估計法有,??芍绻鸋0成立,那么。 檢驗的第二步要解決的問題是,觀測數(shù)據(jù)是否支持原假設(shè)?如果原假設(shè)成立,那么X的分布如表中1、4行所示,我們可以計算出在總共N2608次觀測中

25、X取每個值的理論頻數(shù)Npk:粒子數(shù)X012345678910頻數(shù)n57203383525532408273139452716頻率f0.0.0.0.0.0.0.0.0.0.0.理論概率pk0.0.0.0.0.0.0.0.0.0.0.理論頻數(shù)Npk54.39863210.5227407.3614525.4962508.4176393.5152253.8173140.324767.8820829.1892917.07489 目錄 Back Next直觀上看,表中的理論頻數(shù)和實際頻數(shù)之間相差不大,但是我們必須構(gòu)造統(tǒng)計量來刻畫這個差別,而且要利用統(tǒng)計量的分布給出小概率事件,用實際推斷原理來嚴(yán)格檢驗原假設(shè)

26、。構(gòu)造統(tǒng)計量如下:。其中k表示X的取值情況數(shù),我們更喜歡稱之為X的取值的分組個數(shù)。本例中k11。這里要用到一個著名的定理,叫Pearson-Fisher定理: 若H0成立,不論總體服從什么分布,當(dāng)樣本容量時,由上式定義的統(tǒng)計量的極限分布為。其中的r為計算理論頻數(shù)時所估計的未知參數(shù)的個數(shù)。 目錄 Back Next 所以,當(dāng)樣本容量較大時,近似地有.顯然,H0成立時,值不應(yīng)該太大。所以,取為否定域,給定檢驗水平,H0成立時, 。很小時,是一個小概率事件。如果,則否定原假設(shè),否則說明數(shù)據(jù)與原假設(shè)沒有矛盾,接受原假設(shè)。 目錄 Back Next 檢驗的第三步,具體計算。本例中,N2608 很大,k1

27、1,r1,可計算得 。我們?nèi)z驗水平,可查表求得,所以不否定原假設(shè),認(rèn)為X服從Poisson分布.事實上,H0成立時可以求得(利用MATLAB,1-chi2cdf(12.,9)),這個概率還是相當(dāng)大的,一般來說遠(yuǎn)遠(yuǎn)大于所要求的檢驗水平??梢钥闯鰜恚灰獧z驗水平?jīng)]有超過0.1679,就可以接受原假設(shè)。換句話說,除非檢驗水平大于0.1679, 否則接受原假設(shè)。這是所謂p值判斷法。 作業(yè):用MATLAB完成本例計算。 目錄 Back Next這個例子講述了離散總體情況下的總體分布的2擬合檢驗。那么,對于連續(xù)(注意沒有要求是連續(xù)型的)總體該如何處理?我們還是用例子來說明。 目錄 Back Next例1

28、0、續(xù)例7(連續(xù)型)解決例7超市問題中遺留下來的問題,認(rèn)為顧客的購買金額X服從參數(shù)為的指數(shù)分布,合理嗎? 上一個問題中,總體X是離散型隨機(jī)變量,我們把它的所有可能的取值分成了11個不同的情況,比較每一種情況下的理論與觀測結(jié)果,構(gòu)造統(tǒng)計量解決問題。本問題中,總體X不再是離散型隨機(jī)變量,所有可能取值為全體正實數(shù)。 目錄 Back Next我們要借用離散型的思想,將這X的無窮多個取值分成k個不同的情況(k不能太大也不能太小,一般在420之間),即將全體正實數(shù)分解成k個區(qū)間。怎樣分?保證樣本中的觀測值在每個區(qū)間中的個數(shù)一般不少于5個(大部分區(qū)間上這樣就可以了,在數(shù)據(jù)的最大最小值附近的區(qū)間上一般不一定要

29、這樣)。這樣就可以統(tǒng)計每個區(qū)間中的觀測值的個數(shù),同時,在原假設(shè)成立的情況下計算每個區(qū)間中的理論頻數(shù)。這樣就把問題簡化為離散型的數(shù)據(jù)結(jié)構(gòu),那里用到的統(tǒng)計量仍可以使用,那里的定理還成立,所有后面的步驟不再變化。 目錄 Back Next 現(xiàn)在解決本例中的問題。原假設(shè)為.注意這里的原假設(shè)與上一個例子不同,參數(shù)認(rèn)為是已知的,不要再去估計了。如果認(rèn)為參數(shù)未知,則如上一題那樣還要在下面估計,這涉及到用到的自由度問題。 目錄 Back Next為了計算簡便,再考慮到所有數(shù)據(jù)在0100之間,我們把區(qū)間0,72)分成9等分,把72,100)作為一個區(qū)間,依次得到10個區(qū)間。統(tǒng)計各個區(qū)間上觀測值的頻數(shù),填入下表。

30、區(qū)間分割0,8)8,16)16,24)24,32)32,40)40,48)48,56)56,64)64,72)72,100)頻數(shù)nk51292114862321理論概率pk0.0.0.0.0.0.0.0.0.0.理論頻數(shù)Npk50.9120531.9920720.1031512.63247.4.3.1.1.1.68113在原假設(shè)成立的情況下,計算如下概率:將計算結(jié)果也列在同一表中。利用所得概率可以計算出N137次觀測中各個區(qū)間上觀測值的理論頻數(shù),計算結(jié)果也列在表中。 目錄 Back Next原假設(shè)成立時,。這里k10,r0。給定檢驗水平,可查表求得,否定域為。計算統(tǒng)計量的值,所以不否定原假設(shè),

31、認(rèn)為.通過這兩個例子大家應(yīng)該清楚總體分布的Pearson擬合檢驗法了。這是一個幾乎可以解決所有問題的通用方法。作業(yè):還是自己完成計算。 另一種檢驗方法:K-S檢驗法:H=kstest(x,cdf,alpha)其中x是樣本列向量,cdf=(x,x的原假設(shè)分布函數(shù)值)是n行兩列的矩陣。例如cdf=y,expcdf(y,17.22),y是超市數(shù)據(jù)。h=kstest(y,cdf)得到h = 0,不否定原假設(shè)。 目錄 Back Next例11、概率紙檢驗法概率紙是一張坐標(biāo)紙。每一個分布都對應(yīng)一張概率紙,其橫坐標(biāo)與普通坐標(biāo)系的橫坐標(biāo)沒有區(qū)別,但是其縱坐標(biāo)的刻度依賴于分布函數(shù)F(x)。如果總體X的分布函數(shù)為

32、F(x),那么在這個分布函數(shù)對應(yīng)的概率紙上,函數(shù)yF(x)是一條直線。所以將觀測數(shù)據(jù)構(gòu)成的點(diǎn)點(diǎn)在概率紙上,除了兩端的點(diǎn)外(因為在數(shù)據(jù)的兩個極端附近,數(shù)據(jù)必然較少,經(jīng)驗分布函數(shù)與總體分布函數(shù)會有較大差距),應(yīng)該呈直線狀。常用的概率紙有正態(tài)概率紙、對數(shù)正態(tài)概率紙、威布爾(Weibull)分布概率紙等。在MATLAB中有專門的命令來處理,極易。 目錄 Back Next用概率紙法檢驗例7中的數(shù)據(jù),看總體是否服從正態(tài)分布。用MATLAB完成:h=normplot(x)可以看出總體顯然不是正態(tài)分布的。 目錄 Back Next再看看其Weibull分布概率圖:h=weibplot(x)從此圖看,用Wei

33、bull分布比較合理。 目錄 Back Next 實際上指數(shù)分布是威布爾分布的一個特例,威布爾分布有兩個參數(shù),記為W(m,),其分布函數(shù)如下:其中m0叫形狀參數(shù),0叫刻度參數(shù)。更一般的形式:將上面的x改為x-r,r叫位置參數(shù)。m=1時即為指數(shù)分布。參見現(xiàn)代數(shù)學(xué)手冊隨機(jī)數(shù)學(xué)卷。 目錄 Back next獨(dú)立性檢驗獨(dú)立性檢驗例12、中央民族大學(xué)教育學(xué)研究室的課題“學(xué)習(xí)成績與道德的認(rèn)識水平之間的關(guān)系”要研究的問題是,學(xué)生的學(xué)習(xí)成績與道德認(rèn)識水平有關(guān)系嗎?他們將學(xué)生的學(xué)習(xí)成績分為優(yōu)、良、中、差四個等級,將道德認(rèn)識水平分為好、中上、中下、差四檔,隨機(jī)調(diào)查了150名同學(xué),調(diào)查結(jié)果如下表: B道德A學(xué)習(xí) n

34、ij20810295401416002186260111233525514430n150從調(diào)查數(shù)據(jù)看,道德認(rèn)識水平與學(xué)習(xí)成績有沒有關(guān)系?目錄 Back Next 我們在這個例子里要為大家介紹獨(dú)立性檢驗的概念。如果用X表示學(xué)習(xí)成績,Y表示道德認(rèn)識水平,都是量化的數(shù)量指標(biāo),那么(X,Y)是二元隨機(jī)變量。我們要檢驗的是X與Y是否獨(dú)立。所以原假設(shè)是。那么怎樣檢驗?zāi)??我們把X的取值范圍分成四個部分,即所謂的優(yōu)、良、中、差四個等級,分別用表示;將Y的取值范圍也分為四個部分,即好、中上、中下、差四檔,分別用表示。則原假設(shè)“”成立時,我們必有那么,表中調(diào)查數(shù)據(jù)支持上面的這些等式嗎? 目錄 Back Next我

35、們用表中數(shù)據(jù)將上面等式中的各個概率一一估計出來,原假設(shè)成立的時候,應(yīng)該有或構(gòu)造如下統(tǒng)計量:若H0成立,則當(dāng)時,這個統(tǒng)計量的分布收斂到。 目錄 Back Next至少在樣本容量n較大的時候,我們可以近似地認(rèn)為,從而構(gòu)造否定域。事實上,當(dāng)H0成立時,不應(yīng)該太大,所以給定檢驗水平,否定域為。 在本例中,rs4,我們?nèi)?,查表得。統(tǒng)計量的觀測值為因為所以否定原假設(shè),認(rèn)為道德認(rèn)識水平與學(xué)習(xí)成績有之間不獨(dú)立,有顯著的關(guān)系。作業(yè):還是自己完成計算。 目錄 Back next相關(guān)分析 相關(guān)分析與回歸分析簡介 在前面討論了兩個隨機(jī)變量X與Y之間的獨(dú)立性檢驗問題。我們要清楚,研究的對象是二元隨機(jī)變量(X,Y),利用

36、的是成對觀測數(shù)據(jù)。如果數(shù)據(jù)否定了獨(dú)立性假設(shè),那么X與Y之間的關(guān)系應(yīng)該怎樣描述呢?這是一個非常復(fù)雜的問題。下面我們通過實例介紹一點(diǎn)處理這類問題思路。 目錄 Back Next例13、下表是德國1955年至1995年男性與女性得腸癌的逐年病例數(shù)記錄。從常識上看,在同一國家,男性與女性的生活飲食環(huán)境類似,所以兩者犯病的可能性也應(yīng)該有一定的關(guān)系。從統(tǒng)計的角度刻畫兩者的關(guān)系。女性男性女性男性女性男性39364356105888921136841019641384623109959080136269967444347691122891061386510258459447691158194751382110

37、4105019519312012968014186107475439526012379101591396510690571053901277199661398210739655860871283510292144441115171226563132101030314286110217641678112612981613953110398125714212951998913882110418459756012781981887197451128379861102208602133159869104448540132099952 目錄 Back Next 分別用X和Y表示男性與女性得腸癌的病例數(shù)。

38、我們簡單地用上面的數(shù)據(jù)繪制一張散點(diǎn)圖,可以看出來X與Y之間有密切關(guān)系,二者顯然不獨(dú)立。它們是什么樣的關(guān)系呢?回顧一下概率論里學(xué)過的一個重要概念相關(guān)系數(shù)。我們可以用相關(guān)系數(shù)來刻畫這種關(guān)系。所以,我們要學(xué)會利用樣本估計、檢驗總體相關(guān)系數(shù)的方法。 目錄 Back Next首先引入如下樣本相關(guān)系數(shù)的概念:對二元總體(X,Y)的樣本,定義樣本相關(guān)系數(shù)為其中分別為X和Y的樣本方差,叫X與Y之間的樣本協(xié)方差。這是第三個重要統(tǒng)計量,與總體相關(guān)系數(shù)相對應(yīng)。例如,利用本例中的數(shù)據(jù)可求得樣本相關(guān)系數(shù)為。那么,怎樣充分發(fā)揮這個統(tǒng)計量的作用呢?下面我們講講如何利用它對總體相關(guān)系數(shù)作假設(shè)檢驗和區(qū)間估計。 目錄 Back

39、Next 1、原假設(shè)為對立假設(shè)為 在原假設(shè)成立的情況下,可以證明下面的統(tǒng)計量服從自由度為n-2的t分布: 所以給定檢驗水平,可得原假設(shè)的否定域。(圖) 本例中我們?nèi)〔楸淼?,而,否定原假設(shè),認(rèn)為男女患腸癌人數(shù)之間存在高顯著相關(guān)性,而且是正相關(guān)。 目錄 Back Next2、原假設(shè)為對立假設(shè)為 英國統(tǒng)計學(xué)家Fisher提出了如下統(tǒng)計量,其中如果原假設(shè)成立,那么當(dāng)n充分大時,Z近似服從N (0,1)分布。所以給定檢驗水平,原假設(shè)的否定域為。本例中n41比較大,可用此統(tǒng)計量。我們檢驗一下原假設(shè)。計算統(tǒng)計量的值: 目錄 Back Next查標(biāo)準(zhǔn)正態(tài)分布表易知,對于任給的一個檢驗水平,一般都有,所以否定原假設(shè),認(rèn)為。這個結(jié)果還提示我們,應(yīng)該有那么是否會有呢?我們提出如下原假設(shè),再做單邊檢驗 目錄 Back Next3、一般地,可以證明在成立的情況下,所以,成立時,給定檢驗水平,有,所以,還是用上面給的統(tǒng)計量Z,可得否定域本例中我們?nèi)〔楸淼?,而,否定原假設(shè),認(rèn)為男女患腸癌人數(shù)之間的相關(guān)系數(shù)比0.95還要大。那么,這個相關(guān)系數(shù)到底有多大呢?我們下面做一個區(qū)間估計。 目錄 Back Next3、 區(qū)間估計 我們要對相關(guān)系數(shù)作區(qū)間估計,就要找一個樞軸變量。在n較大的時候,選用 即可,這時近似地。所以給定置信水平,有 目錄 Back

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論