醫(yī)學(xué)統(tǒng)計學(xué)總體均數(shù)估計1603_第1頁
醫(yī)學(xué)統(tǒng)計學(xué)總體均數(shù)估計1603_第2頁
醫(yī)學(xué)統(tǒng)計學(xué)總體均數(shù)估計1603_第3頁
醫(yī)學(xué)統(tǒng)計學(xué)總體均數(shù)估計1603_第4頁
醫(yī)學(xué)統(tǒng)計學(xué)總體均數(shù)估計1603_第5頁
已閱讀5頁,還剩62頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第六章

總體均數(shù)的估計

福建醫(yī)科大學(xué)公共衛(wèi)生學(xué)院

何保昌1主要內(nèi)容均數(shù)的抽樣誤差與標(biāo)準誤t分布總體均數(shù)的估計2使用樣本統(tǒng)計量過程中的問題不同的研究者對相同的總體作類似的抽樣研究可能會得到不同的樣本統(tǒng)計量各自用樣本統(tǒng)計量估計總體的參數(shù),樣本統(tǒng)計量與總體參數(shù)間是否完全相等?如何評價他們的準確性?3一、均數(shù)抽樣誤差和標(biāo)準誤

已知某地高中三年級男生的身高滿足正態(tài)分布,其平均身高為168.15厘米,這里,將該地高中三年級男生的身高視為一個總體?,F(xiàn)從該總體中隨機抽樣5次,每次抽取一個樣本含量n=10的樣本,得到的5個樣本的數(shù)據(jù)及各樣本均數(shù)如下:4樣本號樣本含量(n=10)m=168.15cm樣本均數(shù)1161.1173.7173.7167.3162.2162.2166.6166.6157.4157.4164.822166.8159.1159.1166.1173.3173.3169.1169.1165.2165.2166.633157.4174.0172.3175.8166.6182.1163.1159.4159.4177.3168.744174.5182.1168.5171.3174.1165.6173.7171.9167.5164.1171.335164.1166.6169.6169.6173.8173.2164.3166.6182.1165.4169.535樣本均數(shù)的特點各個樣本均數(shù)之間都不相同——抽樣誤差表現(xiàn)形式之一各個樣本均數(shù)都不等于總體均數(shù),有的比總體均數(shù)大,有的比它小——抽樣誤差表現(xiàn)形式之二相對于各樣本的個體值,樣本均數(shù)間的變異程度較小6樣本均數(shù)的抽樣分布

仍以某地高三男生的身高為例,設(shè)身高變量為x,假定x服從正態(tài)分布,記為x~N(168.15,62)從總體X中反復(fù)隨機抽樣,樣本含量分別為n=4,n=16和n=36,分別隨機抽10000個樣本并計算樣本均數(shù),把同一樣本含量的10000個樣本均數(shù)視為一個新的樣本資料作頻數(shù)圖78

從正態(tài)分布總體N(168.15,62)中隨機抽樣10000次的結(jié)果曲線是正態(tài)總體N(168.15,62)的概率密度曲線直方圖為正態(tài)分布總體N(168.15,62)的樣本均數(shù)的頻率密度圖樣本含量n=36樣本含量n=16樣本含量n=4樣本均數(shù)的分布規(guī)律大多數(shù)的樣本均數(shù)相互之間存在差異,絕大多數(shù)的樣本均數(shù)不等于x的總體均數(shù)樣本均數(shù)的集中趨勢位置與個體資料x的集中趨勢位置較為接近,樣本均數(shù)的頻數(shù)圖均呈現(xiàn)出中間多、兩邊少且基本對稱的正態(tài)分布特征。樣本均數(shù)的分布范圍較個體值??;隨著樣本含量的增大,樣本均數(shù)的頻數(shù)分布范圍越來越窄樣本均數(shù)的標(biāo)準差都非常接近(

為個體資料x的總體標(biāo)準差,n為個體數(shù))

9樣本均數(shù)的分布規(guī)律

理論上可以證明:從正態(tài)分布的總體中隨機抽取樣本含量為n的一批樣本,樣本均數(shù)有如下性質(zhì):樣本均數(shù)服從正態(tài)分布樣本均數(shù)的總體均數(shù)為

101.從正態(tài)分布N(

,

2)中,以固定n抽取樣本,樣本均數(shù)的分布仍服從正態(tài)分布,樣本均數(shù)的總體均數(shù)仍為

,樣本均數(shù)的標(biāo)準差為2.即使是從偏態(tài)分布總體抽樣,只要n足夠大,樣本均數(shù)的分布也近似正態(tài)分布;3.隨著樣本量的增大,樣本均數(shù)的變異范圍也逐漸變窄。中心極限定理centrallimittheorem11樣本均數(shù)的標(biāo)準誤為了與個體的標(biāo)準差相互區(qū)別,樣本均數(shù)的標(biāo)準差又稱為樣本均數(shù)的標(biāo)準誤(SE),或理論標(biāo)準誤反映了樣本均數(shù)間的離散程度,如果SE很大則不同的樣本均數(shù)間參差不齊,同時樣本均數(shù)的分布范圍較大,也反映了樣本均數(shù)與總體均數(shù)間的差異可能較大,因而標(biāo)準誤反映均數(shù)抽樣誤差的大??;它與總體標(biāo)準差成正比,與總體中的個體數(shù)的平方根成反比代表樣本均數(shù)的標(biāo)準誤,其表達式為12均數(shù)的標(biāo)準誤的影響因素從標(biāo)準誤的計算公式中看出它與原先個體觀察值的總體標(biāo)準差s有關(guān),同時也和樣本含量n有關(guān)在固定樣本含量的情況下,總體標(biāo)準差越大,則樣本均數(shù)間越參差不齊,抽樣誤差越大;但是總體標(biāo)準差是參數(shù),在抽樣之前就已經(jīng)存在,無法改變它的大小故可行的方法是通過擴大樣本含量減少標(biāo)準誤;從而減少抽樣誤差13均數(shù)標(biāo)準誤的估計值

由于在實際研究中,我們往往只抽一次樣,得到一個樣本均數(shù),而且大多數(shù)情況下s未知,此時常用樣本標(biāo)準差S估計總體標(biāo)準差s,這樣我們就得到樣本均數(shù)標(biāo)準誤的估計值抽樣誤差越小,表示樣本均數(shù)與總體均數(shù)越接近,用樣本均數(shù)估計總體均數(shù)的可靠性越高;反之則越低

14例6.1隨機抽取某地正常成年男性200名,測得其血清膽固醇的均數(shù)為3.64mmol/L,標(biāo)準差為1.20mmol/L,試估計抽樣誤差:15標(biāo)準誤與標(biāo)準差的區(qū)別:(1)概念不同

標(biāo)準差是描述樣本個體值間的變異,標(biāo)準差小,說明變量值圍繞均數(shù)的波動小,均數(shù)的代表性好。

標(biāo)準誤是描述樣本均數(shù)的抽樣誤差,標(biāo)準誤越小,表示樣本均數(shù)圍繞總體均數(shù)的波動越小。16(2)用途不同

標(biāo)準差表示變量值對均數(shù)的波動大小,當(dāng)資料呈正態(tài)分布時,與均數(shù)結(jié)合估計正常值范圍、計算變異系數(shù)、標(biāo)準誤等。標(biāo)準誤表示樣本統(tǒng)計量對總體參數(shù)的波動情況,用于估計參數(shù)的置信區(qū)間、進行假設(shè)檢驗。171)兩者均為變異指標(biāo);2)樣本含量不變時,均數(shù)的標(biāo)準誤與標(biāo)準差成正比;3)兩者均可與均數(shù)結(jié)合使用(但描述的內(nèi)容各不相同)。(3)聯(lián)系18在應(yīng)用過程中要注意標(biāo)準差和標(biāo)準誤的區(qū)別:19t分布

t分布的由來t分布的特征t分布曲線下的面積20樣本均數(shù)標(biāo)準正態(tài)性轉(zhuǎn)換中的實際問題要對樣本均數(shù)進行Z轉(zhuǎn)換,必須要知道總體的標(biāo)準差s;但是在實際的情況下,并沒有對總體中所有的個體進行觀察,所以無法得知s;而且通常我們也只作一次抽樣研究,只能得到s,只能用樣本標(biāo)準誤的估計值估計那么是否仍然滿足標(biāo)準正態(tài)分布?假定,我們比較一下Z'與Z之間是否存在不同21Z'vsZ在正態(tài)總體N(168.18,62)中隨機抽樣,樣本量分別取n=5,n=100,均抽10000個樣本,分別計算Z'值和Z值,其結(jié)果如下:

樣本量統(tǒng)計量平均值P2.5P97.5n=5Z0.0149031-1.9500671.969157Z'0.0319309-2.6542142.838163n=100Z0.0033231-1.9508861.971245Z'0.0347047-1.9811832.0004072223樣本含量n=5樣本含量n=100(a)(b)Z'統(tǒng)計量的頻數(shù)分布圖(10000個樣本),輪廓曲線為標(biāo)準正態(tài)分布u曲線Z'vsZ上述10000個樣本所計算出的Z值和Z'值的平均值都非常接近標(biāo)準正態(tài)分布的集中位置0對于Z值而言,無論n=5和n=100,Z值的P2.5和P97.5都十分接近標(biāo)準正態(tài)分布95%的雙側(cè)分位點±1.96;但對于Z'值而言,樣本量n=5時,其P2.5和P97.5明顯遠離±1.96,而樣本量n=100時,Z'值的P2.5和P97.5相對比較靠近

當(dāng)樣本量較大時,同樣可以發(fā)現(xiàn)統(tǒng)計量Z'的頻數(shù)圖與標(biāo)準正態(tài)分布曲線非常接近,而當(dāng)樣本含量較小時,統(tǒng)計量Z'的分布與標(biāo)準正態(tài)分布則有所區(qū)別——峰較矮,尾部較高,數(shù)據(jù)相對Z值分散

24Z'的分布

并不滿足標(biāo)準正態(tài)分布!在樣本含量較大時它與標(biāo)準正態(tài)分布接近,但是當(dāng)樣本含量較小時,它與標(biāo)準正態(tài)分布相差較遠25WilliamSealeyGosset(1876-1937)26Gossetinventedthet-testtohandlesmallsamplesforqualitycontrolinbrewing(Guinness).Hewroteunderthename"Student".

樣本均數(shù)

t分布的由來總體中心極限定理標(biāo)準正態(tài)分布

標(biāo)準正態(tài)分布

t分布

變量變換27t分布28如果抽取例數(shù)n=5的樣本k個,每個樣本又都可以按下面公式計算出一個t值,可將k個t值編制成頻數(shù)表,作出直方圖,當(dāng)k無限增大時,則可得到一條光滑的曲線。

同理,如果抽取例數(shù)n=10時,仍能得到一條t分布曲線,因此,當(dāng)n變化時,就可以得到不同的t分布曲線,如下圖29xpopulation

t1

t2

t3

tkN=5N=5N=5N=530xμpopulationN=10N=10N=10N=1031

t1

t2

t3

tk圖3.2自由度分別為4、9、∞的t分布

32t分布曲線的特點

①單峰分布,曲線在t=0處最高,并以t=0為中心左右對稱②與正態(tài)分布相比,曲線最高處較矮,兩尾部翹得高(見紅線)③其形態(tài)變化與自由度

的大小有關(guān)。自由度

越小,則t值越分散,曲線越低平;隨自由度增大,曲線逐漸接近正態(tài)分布。33

它與樣本例數(shù)n或自由度ν

有關(guān),某個自由度對應(yīng)于一條t分布曲線。當(dāng)n或ν不同時,曲線形狀不同。當(dāng)

時,t分布趨近于標(biāo)準正態(tài)分布。自由度:ν=n-1隨機變量能夠自由取值的個數(shù)34t分布曲線下面積規(guī)律t分布曲線下總面積仍為1或100%由于t分布是一簇曲線,故t分布曲線下面積固定面積(如95%或99%)的界值不是一個常量,而是隨自由度的大小而變化,如附表3。35附表3,t分布表的特點附表3的橫標(biāo)目為自由度

,縱標(biāo)目為概率P,表中數(shù)值為其相應(yīng)的t界值,記作t

,

;t取值于某個區(qū)間的概率P相當(dāng)與橫軸上該區(qū)間與曲線所夾面積。附表3給出了t分布曲線下單側(cè)或雙側(cè)尾部面積所對應(yīng)的界值;36雙側(cè)t0.05/2,9=2.262=單側(cè)t0.025.9單側(cè)t0.05,9=1.833雙側(cè)t0.05/2,∞=1.96=單側(cè)t0.025,∞單側(cè)t0.05,∞=1.64t分布曲線下面積37其通式為雙側(cè):P(t≤-t

/2,

)+P(t≥t

/2,

)=

單側(cè):P(t≤-t

,

)=

或P(t≥t

,

)=

圖中非陰影部分面積的概率為,P(-t

/2,

<t<t

/2,

)=1-

-t/2,

t/2,

0以下附圖的陰影部分表示t

,

以外尾部面積的概率。38/2/2

求自由度v為10,單尾概率a=0.05時的t界值,并簡述其含義由表中查得單側(cè)t0.05,10=1.812從一個正態(tài)總體中隨機抽樣,每次抽11個個體,分別計算各個樣本的均數(shù)與標(biāo)準差,并對之進行t轉(zhuǎn)換后,理論上有P(t≤-1.812)=0.05或P(t≥1.812)=0.0539

求自由度v為100,雙尾概率a=0.05時的t界值,并簡述其含義由表中查得雙側(cè)t0.05/2,100=1.984從一個正態(tài)總體中隨機抽樣,每次抽101個個體,分別計算各個樣本的均數(shù)與標(biāo)準差,并對之進行t轉(zhuǎn)換后,理論上有P(t≤-1.984)+P(t≥1.984)=0.0540二、總體均數(shù)的估計

參數(shù)的估計點估計:由樣本統(tǒng)計量直接估計總體參數(shù)缺點:沒有考慮抽樣誤差。區(qū)間估計:在一定可信度下,同時考慮抽樣誤差。411.點估計11名18歲男大學(xué)生身高均數(shù)資料得,

=172.25cm,S=3.31cm,試估計該地18歲男大學(xué)生身高總體均數(shù)?答:該地18歲男大學(xué)生身高總體均數(shù)為172.25cm422.區(qū)間估計區(qū)間估計intervalestimate:在點估計的基礎(chǔ)上,結(jié)合抽樣誤差的大小,給出總體參數(shù)估計的一個區(qū)間范圍(由上、下限構(gòu)成的置信區(qū)間)該區(qū)間按照一定的概率可能性,包含所推斷的總體參數(shù)43置信區(qū)間假設(shè)已知的樣本均數(shù)是從較小的m總體中抽取的,它成立的統(tǒng)計條件是從該總體中抽取一個樣本,其均數(shù)為當(dāng)前均數(shù)以及更大的可能性并非小概率事件44m=A已知的樣本均數(shù)置信區(qū)間而如果從m<A的總體中在一次抽樣的前提下,幾乎是不可能得到當(dāng)前的樣本的,因為它是一個小概率事件!45m<A已知的樣本均數(shù)m=A置信區(qū)間假設(shè)已知的樣本均數(shù)是從較大m的總體中抽取的,它成立的統(tǒng)計條件是從該總體中抽取一個樣本,其均數(shù)為當(dāng)前均數(shù)以及更小的可能性并非小概率事件46m=B已知的樣本均數(shù)置信區(qū)間而如果從m>B的總體中在一次抽樣的前提下,幾乎是不可能得到當(dāng)前的樣本的,因為它是一個小概率事件!47m>B已知的樣本均數(shù)m=B置信區(qū)間因而如果m的取值在A~B間,在一次抽樣的前提下,是有可能得到當(dāng)前的樣本均數(shù)的這樣就把區(qū)間(A,B)稱為樣本均數(shù)所來源的未知總體均數(shù)的置信區(qū)間48m=A已知的樣本均數(shù)m=B置信度(confidencecoefficient)我們之所以說m=A的總體像是樣本所來源的總體,那是因為從它中得到該樣本不是小概率事件但是小概率事件是有可能發(fā)生的,例如該樣本真的來自于m<A的總體,此時我們的結(jié)論:“只有總體均數(shù)取值在(A,B)間的總體才是樣本所來源的”就是錯誤的錯誤的可能性有多大?就是小概率事件發(fā)生的概率a;也就是說不發(fā)生的可能性為1-a,這就是我們結(jié)論正確的概率,所以1-a稱為置信度49置信區(qū)間與置信度按預(yù)先給定的概率(1-a)確定的包含未知總體參數(shù)的可能范圍,該范圍通常稱為參數(shù)的可信區(qū)間或置信區(qū)間(confidenceinterval,CI);預(yù)先給定的概率(1-a)稱為可信度或置信度(confidencelevel),常取95%或99%50置信區(qū)間的確切含義

95%置信區(qū)間:從總體中作隨機抽樣,作100次抽樣,每個樣本可算得一個置信區(qū)間,得100個置信區(qū)間,平均有95個置信區(qū)間包括μ(估計正確),只有5個置信區(qū)間不包括μ(估計錯誤)。51圖100個來自N(0,1)的樣本所估計的置信區(qū)間示意

52

資料不同,總體均數(shù)的估計方法也不同,根據(jù)資料的條件,計算方法有三種:總體均數(shù)的置信區(qū)間估計方法53(1)

未知,且n?。喊磘分布原理計算置信區(qū)間。

-t/2,

t/2,

0

由于:則:54/2/2所以,總體均數(shù)的100(1-α)%置信區(qū)間的通式為:

55例6.3:在某地成年男子中隨機抽取25人,測得其脈搏均數(shù)為72次/min,標(biāo)準差為8次/min。試估計該地成年男性脈搏總體均數(shù)的95%置信區(qū)間。

=(68.7,75.3)次/分

根據(jù)樣本計算,可推斷該地成年男性脈搏總體均數(shù)的95%置信區(qū)間為(68.7,75.3)次/分。56(2)

未知,但n足夠大時(n>100),t分布逼近z分布。按z

分布原理計算置信區(qū)間。z

-z

由于:則:57/2/2所以,總體均數(shù)的100(1-α)%之置信區(qū)間的通式為:

58例

測得某地110名18歲男大學(xué)生身高=172.73cm,s=4.09cm,估計該地18歲男大學(xué)生身高均數(shù)的95%置信區(qū)間。

本例n=110,=172.73cm,s=4.09cm,雙側(cè)z0.05/2=1.96按式(3.7)計算:即:該地18歲男大學(xué)生身高均數(shù)的95%置信區(qū)間為171.97cm~173.49cm59(3)σ已知:故可按正態(tài)分布原理估計總體均數(shù)的置信區(qū)間,計算公式為:60

未知,且n小

已知:

未知,但n足夠大:三種情況61置信

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論