分類資料的統(tǒng)計(jì)推斷.ppt_第1頁
分類資料的統(tǒng)計(jì)推斷.ppt_第2頁
分類資料的統(tǒng)計(jì)推斷.ppt_第3頁
分類資料的統(tǒng)計(jì)推斷.ppt_第4頁
分類資料的統(tǒng)計(jì)推斷.ppt_第5頁
已閱讀5頁,還剩51頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、,第二節(jié) 分類資料的統(tǒng)計(jì)推斷,一、率的抽樣誤差與標(biāo)準(zhǔn)誤 二、總體率的區(qū)間估計(jì) 三、率的z(u)檢驗(yàn),從同一總體中隨機(jī)抽取n個(gè)觀察單位的一組樣本,計(jì)算得到的各個(gè)樣本率(p)不會(huì)都與總體率()完全相同,這種由于抽樣誤差引起的樣本率與總體率之間的差別稱為率的抽樣誤差。,抽樣誤差的大小用樣本率的標(biāo)準(zhǔn)差來表示,即率的標(biāo)準(zhǔn)誤。,一、率的抽樣誤差與標(biāo)準(zhǔn)誤,1.率的標(biāo)準(zhǔn)誤計(jì)算,(理論值),(估計(jì)值),計(jì)算公式:,例:在某鎮(zhèn)按人口的1/20隨機(jī)抽取329人,作血清登革熱血凝抑制抗體反應(yīng)檢驗(yàn),得到陽性率為8.81 %,試求此陽性率的抽樣誤差。,本例,已知:n=329, p=0.0881, 代入公式可得:,舉例說明

2、標(biāo)準(zhǔn)誤的計(jì)算:,例10-6 為了解某地人群結(jié)核菌素試驗(yàn)陽性率情況,某醫(yī)療機(jī)構(gòu)在該地人群中隨機(jī)檢測(cè)了1773人,結(jié)核菌素試驗(yàn)陽性有682人,陽性率為38.47%,試計(jì)算其標(biāo)準(zhǔn)誤。,課堂練習(xí):,它是反映含量相同的樣本率的離散趨勢(shì)或變異程度的指標(biāo),率的標(biāo)準(zhǔn)誤大,則說明樣本率或率的抽樣誤差波動(dòng)程度大,樣本對(duì)總體的代表性差,可靠性低;反之,則表示樣本率與總體率間教接近。,2.率的標(biāo)準(zhǔn)誤用途,它可以用于對(duì)總體率的區(qū)間估計(jì)與頻率間的顯著性檢驗(yàn)。,二、總體率的估計(jì),點(diǎn)估計(jì),p ,用樣本率估計(jì)總體率!,用的較少!,區(qū)間估計(jì),1.正態(tài)近似法,當(dāng)樣本含量n足夠大,樣本率p和(1 - p )均不太小時(shí)【可通過np與n

3、(1-p)均大于5】,樣本率p的分布近似正態(tài)分布,這時(shí)可利用正態(tài)分布理論來估計(jì)總體率的可信區(qū)間。,u是標(biāo)準(zhǔn)正態(tài)分布雙側(cè)臨界值,在估計(jì)總體率的95%置信區(qū)間時(shí),其值為1.96;99%置信區(qū)間時(shí),其值為2.58。,計(jì)算公式:,用一定概率來估計(jì)總體率的所在范圍。,9,95%的置信區(qū)間: 38.47%1.961.16%=36.20%40.74% 99%的置信區(qū)間: 38.47%2.581.16%=35.48%41.46%,示例:求例題10-6中所示該地人群中結(jié)核菌素試驗(yàn)陽性率95%和99%的置信區(qū)間。,已知 其陽性率為38.47%;標(biāo)準(zhǔn)誤為1.16%。,在某鎮(zhèn)按人口的1/20隨機(jī)抽取329人,作血清登

4、革熱血凝抑制抗體反應(yīng)檢驗(yàn),得到陽性率為8.81 %,求得陽性率的抽樣誤差為0.0156,試求抗體陽性率的95%及99%的可信區(qū)間?,已知:n=329,p=0.0881, sp=0.0156 n.p=3290.0881=28.985,符合正態(tài)近似法的條件 95%可信區(qū)間: p1.96sp = 0.0881 1.96 0.0156=0.0575-0.1187 即:5.75%-11.87% 99%可信區(qū)間: p2.58sp = 0.0881 2.58 0.0156=0.0479-0.1283 即:4.79%-12.83%,課堂練習(xí):,2.查 表 法,當(dāng)n,p不符合上述條件,如n較?。╪ 50),特別

5、是 p 接近于0或1時(shí),需按二項(xiàng)分布原理估計(jì)總體率的可信區(qū)間。因其計(jì)算比較復(fù)雜,統(tǒng)計(jì)學(xué)家已經(jīng)編制了總體率可信區(qū)間估計(jì)用表,可根據(jù)樣本含量n和陽性數(shù)X查閱統(tǒng)計(jì)學(xué)專著中的附表 。 教材附表,例:某校校醫(yī)用儀器矯治25名學(xué)生的近視眼,其中3人近期有效,求該方法近期有效率的95%的可信區(qū)間。,n=25 50,采用查表法: 在n=25橫行,和x=3的縱列交叉處上行的數(shù)值為2.531.2,即該法近期有效率的95%可信區(qū)間為:2.5% 31.2%,附表7 百分率的可信區(qū)間上行:95%可信區(qū)間 下行:99%可信區(qū)間,注意:表中X值只列出X n/2部分,當(dāng)xn/2時(shí),應(yīng)以n-X值查表,然后用100減去查得的數(shù)值

6、,即為可信區(qū)間。,例:某縣抽查了10名獻(xiàn)血員的HBsAg攜帶情況,陰性者8人,求該縣獻(xiàn)血員HBsAg陰性率的95%的可信區(qū)間。,本例n=10,X=8,Xn/2,故以X=10-8=2查表,得到2.555.6,再用: 100-2.5=97.5; 100-55.6=44.4 即該縣獻(xiàn)血員HBsAg陰性率的95%的可信區(qū)間為44.4%97.5%。,例題:,三、率比較的z(u)檢驗(yàn),當(dāng)樣本含量n足夠大,樣本率既不接近于0也不接近于1時(shí),樣本率的分布近似正態(tài)分布。 樣本率和總體率之間、兩個(gè)樣本率之間的比較可用z(u)檢驗(yàn)。,1)建立檢驗(yàn)假設(shè),確定檢驗(yàn)水準(zhǔn) 2)選定檢驗(yàn)方法和計(jì)算統(tǒng)計(jì)量 3) 確定P值并作出

7、推斷結(jié)論,U 檢驗(yàn)的步驟:,1.單個(gè)總體率的假設(shè)檢驗(yàn),計(jì)算公式,-樣本率與總體率的比較!,樣本率與總體率比較的目的是推斷該樣本是否來自于已知總體,即推斷樣本率與總體率的差異是否由抽樣引起。 總體率一般為理論值、標(biāo)準(zhǔn)值或大量觀察所得的穩(wěn)定值。,例題:,經(jīng)長(zhǎng)期臨床觀察, 發(fā)現(xiàn)胃潰瘍患者發(fā)生胃出血癥狀的占20%?,F(xiàn)某醫(yī)院觀察了304例65歲以上的老年胃潰瘍患者,有96例發(fā)生胃出血癥狀。問老年胃潰瘍患者是否較一般患者更易發(fā)生胃出血?,65歲以上老年胃潰瘍患者胃出血率為: P=96/304=31.58%, 樣本p和1-p均不接近于零,且np與n(1-p)均大于5,樣本率的分布近似于正態(tài)分布。,(1)建立

8、檢驗(yàn)假設(shè),確定檢驗(yàn)水準(zhǔn) H0: = 0,即老年胃潰瘍患者胃出血發(fā)生率與一般患者相同 H1: 0,即老年胃潰瘍患者胃出血發(fā)生率高于一般患者 單側(cè) = 0.05 (2) 計(jì)算檢驗(yàn)統(tǒng)計(jì)量 。 (3) 確定P值 , 做出推斷結(jié)論。查t值表(附表2)得, P0.05, 按 = 0.05水準(zhǔn)拒絕H0, 接受H1, 認(rèn)為老年胃潰瘍患者較一般患者更易發(fā)生胃出血。,2.完全隨機(jī)設(shè)計(jì)兩樣本率的比較,計(jì)算公式,表示為:Sp1-p2,兩個(gè)總體率的假設(shè)檢驗(yàn)主要是通過在兩個(gè)總體中分別進(jìn)行抽樣所得的樣本率(p1 ; p2)來推斷總體率(1 ;2)是不是相等。,-兩個(gè)總體率的假設(shè)檢驗(yàn)!,分母實(shí)為兩個(gè)率的標(biāo)準(zhǔn)誤!,例題:為了解

9、某地小學(xué)生蛔蟲感染率的城鄉(xiāng)差異,抽樣調(diào)查了該地小學(xué)生共22792人,其中城鎮(zhèn)小學(xué)生抽查8207人,糞檢蛔蟲卵陽性數(shù)為701人,蛔蟲感染率為8.54%,鄉(xiāng)村小學(xué)生抽查14585人,糞檢蛔蟲卵陽性數(shù)為2167人,蛔蟲感染率為14.86%,試比較該地小學(xué)生蛔蟲感染率城鄉(xiāng)差異有無統(tǒng)計(jì)學(xué)意義。,建立檢驗(yàn)假設(shè),確定檢驗(yàn)水準(zhǔn) H0: 1=2,H1: 12,=0.05,2. 計(jì)算統(tǒng)計(jì)量u值,1)先 計(jì)算,3. 確定P值,判斷結(jié)果,確定P值和判斷結(jié)果:本題 =13.7392.58,P0.01,按=0.05的水準(zhǔn)拒絕H0,接受H1,差異有統(tǒng)計(jì)學(xué)意義。 據(jù)此結(jié)果可以認(rèn)為鄉(xiāng)村小學(xué)生蛔蟲感染率顯著高于城市小學(xué)生。,2)

10、 計(jì)算標(biāo)準(zhǔn)誤,3)計(jì)算u值,(Chi-square test),2檢驗(yàn)是現(xiàn)代統(tǒng)計(jì)學(xué)的創(chuàng)始人之一,英國(guó)統(tǒng)計(jì)學(xué)家K.Pearson于1900年提出的一種具有廣泛用途的假設(shè)檢驗(yàn)方法。常用于分類變量資料的統(tǒng)計(jì)推斷。,三、 2檢驗(yàn),1.2 檢驗(yàn)的定義與基本思想,定義: 當(dāng)需要進(jìn)行兩個(gè)或兩個(gè)以上樣本率比較,并試圖從樣本率的差別來推斷其所代表的總體率是否也存在差別時(shí),為保證推斷的科學(xué)性,必須做樣本率的顯著性檢驗(yàn),這種檢驗(yàn)的方法叫做2檢驗(yàn)。 2檢驗(yàn)的基本思想 假設(shè)兩組資料率的差異來自抽樣誤差,用2值反映實(shí)際頻率和理論頻數(shù)吻合的程度。,(一)四格表資料的2 檢驗(yàn),四格表資料的2 檢驗(yàn)可分為完全隨機(jī)設(shè)計(jì)(成組設(shè)計(jì)

11、)兩樣本率比較的2 檢驗(yàn)和配對(duì)設(shè)計(jì)2 的檢驗(yàn)。,四格表資料形式:,對(duì)于任何兩樣本率的資料,都可表達(dá)為以下四格表基本形式!,2 值、P值和統(tǒng)計(jì)結(jié)論,2 界值表:附表7-P362,根據(jù)自由度和檢驗(yàn)水準(zhǔn)查表可得2界值,若2值20.05(),則可按=0.05的檢驗(yàn)水準(zhǔn)拒絕H0;若2值20.05(),則還不能拒絕H0。,2值的大小與格子數(shù)多少有關(guān),格子數(shù)越多(自由度越大),2值也會(huì)越大。,格子數(shù)實(shí)際就是指自由度,在四格表中,在周邊合計(jì)不變的條件下,其中一格的理論數(shù)確定以后,其余3個(gè)格子的理論數(shù)就沒有自由變動(dòng)的余地了,故自由度()等于1.,自由度()計(jì)算公式為:,2 界值表(P362),四格表專用公式:,

12、為簡(jiǎn)化計(jì)算,省去求理論頻數(shù)的過程,對(duì)于四個(gè)表資料可直接用專用公式計(jì)算值。,連續(xù)性校正方法計(jì)算(后述)。,若不能滿足條件, 可用四格表校正公式(如下):,例題: 某醫(yī)師研究奧美拉唑(洛賽克)治療消化性潰瘍的療效,以西咪替丁(泰胃美)作為對(duì)照組,觀察結(jié)果如下表,試問兩組病人的療效是否有差異?,1. 完全隨機(jī)設(shè)計(jì)兩樣本率的比較,通過例題說明:,表 3-5,注:a、b、c、d分別為四格表中的四個(gè)理論頻數(shù)(需計(jì)算), n為總例數(shù)。,首先制四格表資料的效果計(jì)算表:,表 3-5,(1)建立檢驗(yàn)假設(shè),確定檢驗(yàn)水準(zhǔn),即洛賽克組與泰胃美組患者的有效率相同,即洛賽克組與泰胃美組患者的有效率不同,檢驗(yàn)水準(zhǔn)!,操作步驟

13、:,(2)計(jì)算統(tǒng)計(jì)量 值,A為基本格子的實(shí)際頻數(shù) ;T為其理論數(shù)。 理論數(shù)是根據(jù)無效檢驗(yàn)假設(shè)推算出來的。例題的無效假設(shè)為兩種藥物治療的有效率相同,都等于合計(jì)的有效率75.0(90/120)。 值的大小反映了實(shí)際數(shù)與理論數(shù)的相差情況,若無效假設(shè) 成立,則理論數(shù)和實(shí)際數(shù)相差不應(yīng)該太大,較大的 值出現(xiàn)的概率較小。故根據(jù)資料計(jì)算的 值越大,就越有理由推翻無效假設(shè) 。,或,為第R行第C列格子的理論數(shù) 為R行的合計(jì)數(shù) 為第C列的合計(jì)數(shù) 為總例數(shù),d=第2行第2列,因?yàn)樗母癖淼囊粋€(gè)數(shù)(45)確定后,其他就不可變了,所以直接減就可以了。,c=第2行第1列,a=第1行第1列,理論數(shù)計(jì)算公式,b=第1行第2列,求

14、行列的 “理論數(shù)”,求:表中的 a; b; c; d,為什么是60-45?,表 3-5,表3-8 兩種藥物治療潰瘍病的效果計(jì)算表,將計(jì)算得出的理論頻數(shù)填入表內(nèi)!,帶入公式計(jì)算 值:,(3)查表確定P值,做出統(tǒng)計(jì)推斷,按 水準(zhǔn),做出拒絕 的結(jié)論。,結(jié)論:洛賽克組患者的療效顯著高于泰胃美組患者的療效.,用四格表專用公式計(jì)算:,兩者計(jì)算結(jié)果完全相同,一般很少用基本公式計(jì)算!,本例計(jì)算:,本例滿足:,再次復(fù)習(xí)以上操作步驟:,(1)建立檢驗(yàn)假設(shè),確定檢驗(yàn)水準(zhǔn) 即洛賽克組與泰胃美組患者的有效率相同 即洛賽克組與泰胃美組患者的有效率不同,檢驗(yàn)水準(zhǔn):,表 兩種藥物治療潰瘍病的效果計(jì)算表,(2)求理論頻數(shù),求出

15、一個(gè)即可!,表 3-5,(3)計(jì)算統(tǒng)計(jì)量 值,(4)確定P值,(5)判斷結(jié)果 按 水準(zhǔn),做出拒絕還是接受 的結(jié)論。,校正公式:,英國(guó)統(tǒng)計(jì)學(xué)家Yates F 認(rèn)為:2分布是一種連續(xù)性分布,而原始資料(分類變量資料)屬離散性分布,因此得到的統(tǒng)計(jì)量也是不連續(xù)的,由此計(jì)算的2值只能說近似于2分布,在自由度大于1,理論頻數(shù)皆大于5時(shí)這種近似性很好,而當(dāng)自由度為1(四格表),尤其當(dāng)有理論頻數(shù)小于5時(shí),這種近似性就差一些,為改善2統(tǒng)計(jì)量分布的連續(xù)性,他建議將實(shí)際頻數(shù)和理論頻數(shù)之差的絕對(duì)值減去0.5以作校正。,附:2 統(tǒng)計(jì)量的連續(xù)性校正,基本公式:,在實(shí)際工作中,對(duì)于四格表資料,通常規(guī)定:,(1)所有 T5,

16、且N40時(shí),直接計(jì)算值,不用校正; (2)1T5, 且N40時(shí),用連續(xù)性校正檢驗(yàn); (3)T1或N40,不能用卡方檢驗(yàn),用直接計(jì)算概率的方法。,“直接計(jì)算概率方法”可參考相應(yīng)相關(guān)統(tǒng)計(jì)學(xué)專著,以下介紹連續(xù)性校正檢驗(yàn)方法!,例題:某醫(yī)生研究比較A、B兩種藥物對(duì)急性細(xì)菌性肺炎的療效,有關(guān)資料見下表,問兩種藥物的療效差別有無統(tǒng)計(jì)學(xué)意義?,表3-9 A、B兩藥治療急性細(xì)菌性肺炎的療效比較,該例屬于:1T5, 且N40,用連續(xù)性校正檢驗(yàn)!,T22=228/64=2.75 5,按=1,查2值表,20.05(1)=3.84,2=4.793.84,P0.05, 按=0.05水準(zhǔn),拒絕H0,接受H1,認(rèn)為兩藥的療

17、效差別有統(tǒng)計(jì)學(xué)意義,A藥療效要好于B藥。,計(jì)算公式:,配對(duì)四格表資料也叫22列聯(lián)表,是對(duì)配對(duì)設(shè)計(jì)研究所獲得的計(jì)數(shù)資料進(jìn)行比較。 配對(duì)設(shè)計(jì): 1)同一批樣品用兩種不同的處理方法。 2)觀察對(duì)象根據(jù)配對(duì)條件配成對(duì)子,同一對(duì)子內(nèi)不同的個(gè)體分別接受不同的處理。 3)在病因和危險(xiǎn)因素的研究中,將病人和對(duì)照按配對(duì)條件配成對(duì)子,研究是否存在某種病因或危險(xiǎn)因素。,(二)配對(duì)資料的卡方檢驗(yàn),應(yīng)用公式:,b+c40 b+c40,=(行數(shù)1)(列數(shù) 1)=1,配對(duì)卡方檢驗(yàn)又稱McNemar檢驗(yàn),配對(duì)資料卡方檢驗(yàn)公式的推導(dǎo)!,某研究者用凝集試驗(yàn)和細(xì)菌培養(yǎng)兩種方法,同時(shí)對(duì)65例慢性菌痢患者的糞便進(jìn)行檢查,結(jié)果如下表,問

18、兩種方法檢出率是否有差別?,基本思想:表中a與d為結(jié)果相同的部分,兩種方法是否有差別可以不予考慮,主要比較結(jié)果不同部分b與c。如果兩種方法檢查效果相同,理論上應(yīng)有總體B=C,故可以通過b、c的差別大小來判斷兩種方法的差別。,例題:,表3-10 兩種方法檢出結(jié)果,注意:a、b、c 、d和前面講的理論數(shù)概念不同!,檢驗(yàn)步驟:,建立假設(shè): H0:B=C, H1:BC,=0.05 計(jì)算2值: b+c=15 40,故采用校正公式 確定P值: =(21)(21)=1,查界值表得2 0.05(1) = 3.84, 本例2 =1.073.84,P值0.05 。 結(jié)論: 按=0.05水準(zhǔn),不拒絕H0 ,故認(rèn)為兩

19、種方法檢查無差別,兩種方法檢出結(jié)果,注意:由于該檢驗(yàn)只考慮了不一致的情況(b與c),而未考慮樣本含量n及一致結(jié)果(a與d),因此,當(dāng)n很大而且兩法一致率較高(即a與d數(shù)值較大),b與c的數(shù)值相對(duì)較小時(shí),即使檢驗(yàn)結(jié)果有統(tǒng)計(jì)學(xué)意義,但實(shí)際意義并不大。,例11-11 用兩種血清學(xué)方法對(duì)100例肝癌患者進(jìn)行檢測(cè),有關(guān)檢測(cè)結(jié)果見表10-9,問兩種血清學(xué)方法檢測(cè)結(jié)果有無差別?,表3-11 兩種血清學(xué)方法對(duì)肝癌檢測(cè)的結(jié)果比較,課堂練習(xí),H0 :兩種方法檢出率相同,即B = C H1 :兩種方法檢出率不同,即B C =0.05,查表得,P0.025,按=0.05水準(zhǔn),拒絕H0,接受H1,差別有統(tǒng)計(jì)學(xué)意義,可以

20、認(rèn)為兩種方法的檢出率不同,甲法較高。,(1),(2),(3),b+c40,兩分類變量的關(guān)聯(lián)性分析 教材:208 自主學(xué)習(xí)!,甲法陽性檢出率:82/100=82%; 乙方法:65/100=65%,(三)行列表資料的卡方檢驗(yàn),行列表卡方檢驗(yàn)的通式:, =(R-1)(C-1),當(dāng)計(jì)數(shù)資料分析的表格行數(shù)或列數(shù)大于2時(shí),其基本數(shù)據(jù)有R行C列, 稱為行列表,簡(jiǎn)稱R C表。 R C表有多種資料形式,如多個(gè)樣本率的比較、構(gòu)成比的比較、計(jì)數(shù)資料的關(guān)聯(lián)性分析等。,表3-12 三個(gè)地區(qū)花生的黃曲霉毒素B1污染率的比較,例題:某研究者欲比較三個(gè)地區(qū)花生中黃曲霉毒素B1的污染情況,詳見下表,試比較三個(gè)地區(qū)污染情況有何差別?,1.多個(gè)樣本率的比較,檢驗(yàn)步驟:,確定P值: =(31)(21)=2,查界值表得2 0.05(2)=5.99,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論