獨(dú)立性檢驗(yàn)的基本思想:_第1頁
獨(dú)立性檢驗(yàn)的基本思想:_第2頁
獨(dú)立性檢驗(yàn)的基本思想:_第3頁
獨(dú)立性檢驗(yàn)的基本思想:_第4頁
獨(dú)立性檢驗(yàn)的基本思想:_第5頁
已閱讀5頁,還剩19頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、定量變量定量變量的取值一定是實(shí)數(shù),它們的取值大小有特定的取值一定是實(shí)數(shù),它們的取值大小有特定的含義,不同取值之間的運(yùn)算也有特定的含義的含義,不同取值之間的運(yùn)算也有特定的含義. .如身高、體重、考試成績、溫度等等如身高、體重、考試成績、溫度等等.變量變量定量變量定量變量分類變量分類變量兩個(gè)定量變量的相關(guān)關(guān)系分析:回歸分析(畫散點(diǎn)圖、兩個(gè)定量變量的相關(guān)關(guān)系分析:回歸分析(畫散點(diǎn)圖、相關(guān)指數(shù)相關(guān)指數(shù)R2、殘差分析)、殘差分析)(定性變量)(定性變量)對(duì)于性別變量,其取值為男和女兩種,這種變量的不對(duì)于性別變量,其取值為男和女兩種,這種變量的不同同“值值”表示個(gè)體所屬的不同類別,像這樣的變量稱表示個(gè)體所

2、屬的不同類別,像這樣的變量稱為為分類變量分類變量. .在日常生活中,主要考慮在日常生活中,主要考慮分類變量之間是否有關(guān)系分類變量之間是否有關(guān)系:如是否吸煙、宗教信仰、是否患肺癌、國籍等等如是否吸煙、宗教信仰、是否患肺癌、國籍等等. .例如,吸煙是否與患肺癌有關(guān)系?例如,吸煙是否與患肺癌有關(guān)系? 性別是否對(duì)于喜歡數(shù)學(xué)課程有影響?等等性別是否對(duì)于喜歡數(shù)學(xué)課程有影響?等等. .分類變量也稱為分類變量也稱為屬性變量屬性變量或或定性變量定性變量,它們的取值一,它們的取值一定是離散的,而且不同的取值僅表示個(gè)體所屬的類別,定是離散的,而且不同的取值僅表示個(gè)體所屬的類別,如性別變量,只取男、女兩個(gè)值如性別變量

3、,只取男、女兩個(gè)值兩個(gè)分類變量的相關(guān)關(guān)系的分析:兩個(gè)分類變量的相關(guān)關(guān)系的分析:通過圖形直觀判斷兩個(gè)分類變量是否相關(guān);通過圖形直觀判斷兩個(gè)分類變量是否相關(guān);獨(dú)立性檢驗(yàn)獨(dú)立性檢驗(yàn).不患肺癌不患肺癌患肺癌患肺癌總計(jì)總計(jì)不吸煙不吸煙77757775424278177817吸煙吸煙20992099494921482148總計(jì)總計(jì)98749874919199659965由列聯(lián)表可以粗略估計(jì)出,在不吸煙者中,有由列聯(lián)表可以粗略估計(jì)出,在不吸煙者中,有0.54%0.54%患患有肺癌;在吸煙者中,有有肺癌;在吸煙者中,有2.28%2.28%患有肺癌。因此,直觀患有肺癌。因此,直觀上可以得到結(jié)論:上可以得到結(jié)論:

4、吸煙者和不吸煙者患肺癌的可能性吸煙者和不吸煙者患肺癌的可能性存在差異存在差異. .與表格相比,三維柱形圖和二維條形圖能更直觀地反與表格相比,三維柱形圖和二維條形圖能更直觀地反映出相關(guān)數(shù)據(jù)的總體狀況映出相關(guān)數(shù)據(jù)的總體狀況. .為調(diào)查吸煙是否對(duì)患肺癌有影響,某腫瘤研究所隨機(jī)為調(diào)查吸煙是否對(duì)患肺癌有影響,某腫瘤研究所隨機(jī)地調(diào)查了地調(diào)查了9965人,得到如下結(jié)果(單位:人):人,得到如下結(jié)果(單位:人):吸煙與患肺癌吸煙與患肺癌列聯(lián)表列聯(lián)表(列出兩個(gè)分類變量的頻數(shù)表):(列出兩個(gè)分類變量的頻數(shù)表):不患肺癌不患肺癌患肺癌患肺癌總計(jì)總計(jì)不吸煙不吸煙77757775424278177817吸煙吸煙2099

5、2099494921482148總計(jì)總計(jì)987498749191996599651 1、列聯(lián)表、列聯(lián)表2 2、三維柱形圖、三維柱形圖3 3、二維條形圖、二維條形圖不患肺癌患肺癌吸煙不吸煙不患肺癌患肺癌吸煙不吸煙080007000600050004000300020001000從三維柱形圖能清晰看出各從三維柱形圖能清晰看出各個(gè)頻數(shù)的相對(duì)大小個(gè)頻數(shù)的相對(duì)大小. .從二維條形圖能看出,吸煙者中從二維條形圖能看出,吸煙者中患肺癌的比例高于不患肺癌的比例患肺癌的比例高于不患肺癌的比例. .不吸煙吸煙00.10.20.30.40.50.60.70.80.91不吸煙不吸煙吸煙吸煙患肺癌比例不患肺癌比例4 4

6、、等高條形圖、等高條形圖等高條形圖更清晰地表達(dá)了兩種情況下患肺癌的比例等高條形圖更清晰地表達(dá)了兩種情況下患肺癌的比例.上面我們通過分析數(shù)據(jù)和圖形,得到的直觀印象是吸上面我們通過分析數(shù)據(jù)和圖形,得到的直觀印象是吸煙和患肺癌有關(guān),那么事實(shí)是否真的如此呢?這需要煙和患肺癌有關(guān),那么事實(shí)是否真的如此呢?這需要用用統(tǒng)計(jì)觀點(diǎn)統(tǒng)計(jì)觀點(diǎn)來考察這個(gè)問題來考察這個(gè)問題. .現(xiàn)在想要知道能夠以多大的把握認(rèn)為現(xiàn)在想要知道能夠以多大的把握認(rèn)為“吸煙與患肺癌吸煙與患肺癌有關(guān)有關(guān)”,為此先假設(shè):,為此先假設(shè):H H0 0:吸煙與患肺癌沒有關(guān)系:吸煙與患肺癌沒有關(guān)系不患肺癌不患肺癌患肺癌患肺癌總計(jì)總計(jì)不吸煙不吸煙a ab b

7、a+ba+b吸煙吸煙c cd dc+dc+d總計(jì)總計(jì)a+ca+cb+db+da+b+c+da+b+c+d把數(shù)字用字母代替,得到如下用字母表示的列聯(lián)表:把數(shù)字用字母代替,得到如下用字母表示的列聯(lián)表:不患肺癌不患肺癌患肺癌患肺癌總計(jì)總計(jì)不吸煙不吸煙a ab ba+ba+b吸煙吸煙c cd dc+dc+d總計(jì)總計(jì)a+ca+cb+db+da+b+c+da+b+c+d吸煙與患肺癌的列聯(lián)表:吸煙與患肺癌的列聯(lián)表:如果如果“吸煙與患肺癌沒有關(guān)系吸煙與患肺癌沒有關(guān)系”,則在吸煙者中不患,則在吸煙者中不患肺癌的比例應(yīng)該與不吸煙者中相應(yīng)的比例應(yīng)差不多,肺癌的比例應(yīng)該與不吸煙者中相應(yīng)的比例應(yīng)差不多,即即|ad-bc

8、|ad-bc|越小,說明吸煙與患肺癌之間關(guān)系越弱;越小,說明吸煙與患肺癌之間關(guān)系越弱;|ad-bc|ad-bc|越大,說明吸煙與患肺癌之間關(guān)系越強(qiáng)越大,說明吸煙與患肺癌之間關(guān)系越強(qiáng). .為了使不同樣本容量的數(shù)據(jù)有統(tǒng)一的評(píng)判標(biāo)準(zhǔn),基于為了使不同樣本容量的數(shù)據(jù)有統(tǒng)一的評(píng)判標(biāo)準(zhǔn),基于上述分析,我們構(gòu)造一個(gè)隨機(jī)變量上述分析,我們構(gòu)造一個(gè)隨機(jī)變量 若若H H0 0成立,即成立,即“吸煙與患肺癌沒有關(guān)系吸煙與患肺癌沒有關(guān)系”,則,則K K2 2應(yīng)很小應(yīng)很小. .由列聯(lián)表中數(shù)據(jù),利用公式(由列聯(lián)表中數(shù)據(jù),利用公式(1 1)計(jì)算得)計(jì)算得K K2 2的觀測(cè)值為:的觀測(cè)值為:22()()()()()n adbc

9、Kab cdac bd (1 1)29965(7775 4942 2099)56.632.78172148 9874 91k其中其中n=a+b+c+d為樣本容量為樣本容量.在在H0成立的情況下,統(tǒng)計(jì)學(xué)家估算出如下的概率:成立的情況下,統(tǒng)計(jì)學(xué)家估算出如下的概率:2(6.635)0.01P K 也就是說,在也就是說,在H H0 0成立的情況下,對(duì)隨機(jī)變量成立的情況下,對(duì)隨機(jī)變量K K2 2進(jìn)行多次進(jìn)行多次觀測(cè),觀測(cè)值超過觀測(cè),觀測(cè)值超過6.6356.635的頻率約為的頻率約為0.010.01,是一個(gè)小概,是一個(gè)小概率事件率事件. .現(xiàn)在現(xiàn)在K K2 2的觀測(cè)值為的觀測(cè)值為56.63256.632,

10、遠(yuǎn)遠(yuǎn)大于,遠(yuǎn)遠(yuǎn)大于6.6356.635,所,所以有理由斷定以有理由斷定H H0 0不成立不成立,即認(rèn)為,即認(rèn)為“吸煙與患肺癌有關(guān)系吸煙與患肺癌有關(guān)系” ” 56.632k 但這種判斷會(huì)犯錯(cuò)誤,犯錯(cuò)誤的概率不會(huì)超過但這種判斷會(huì)犯錯(cuò)誤,犯錯(cuò)誤的概率不會(huì)超過0.01,即,即我們有我們有99的把握認(rèn)為的把握認(rèn)為“吸煙與患肺癌有關(guān)系吸煙與患肺癌有關(guān)系”.利用隨機(jī)變量利用隨機(jī)變量K K2 2來確定在多大程度上可以認(rèn)為來確定在多大程度上可以認(rèn)為“兩個(gè)兩個(gè)分類變量有關(guān)系分類變量有關(guān)系”的方法稱為兩個(gè)分類變量的獨(dú)立性的方法稱為兩個(gè)分類變量的獨(dú)立性檢驗(yàn)檢驗(yàn). .獨(dú)立性檢驗(yàn):獨(dú)立性檢驗(yàn):如果如果 ,就判斷,就判斷H

11、0不成立;否則就判斷不成立;否則就判斷H0成立成立.6.635k (6.635)0.01P k 獨(dú)立性檢驗(yàn)的基本思想:獨(dú)立性檢驗(yàn)的基本思想:類似于數(shù)學(xué)上的反證法,對(duì)類似于數(shù)學(xué)上的反證法,對(duì)“兩個(gè)分類變量有關(guān)系兩個(gè)分類變量有關(guān)系”這一結(jié)論成立的可信程度的判斷:這一結(jié)論成立的可信程度的判斷:(1 1)假設(shè)該結(jié)論不成立,即假設(shè)結(jié)論)假設(shè)該結(jié)論不成立,即假設(shè)結(jié)論“兩個(gè)分類變量兩個(gè)分類變量沒有關(guān)系沒有關(guān)系”成立成立. .(2 2)在假設(shè)條件下,計(jì)算構(gòu)造的隨機(jī)變量)在假設(shè)條件下,計(jì)算構(gòu)造的隨機(jī)變量K K2 2,如果由,如果由觀測(cè)數(shù)據(jù)計(jì)算得到的觀測(cè)數(shù)據(jù)計(jì)算得到的K K2 2很大,則在一定程度上說明假很大,則

12、在一定程度上說明假設(shè)不合理設(shè)不合理. .(3 3)根據(jù)隨機(jī)變量)根據(jù)隨機(jī)變量K K2 2的含義,可以通過(的含義,可以通過(2 2)式評(píng)價(jià)假)式評(píng)價(jià)假設(shè)不合理的程度,由實(shí)際計(jì)算出的設(shè)不合理的程度,由實(shí)際計(jì)算出的k6.635k6.635,說明假設(shè),說明假設(shè)不合理的程度約為不合理的程度約為99%99%,即,即“兩個(gè)分類有關(guān)系兩個(gè)分類有關(guān)系”這一結(jié)這一結(jié)論成立的可信程度約為論成立的可信程度約為99%.99%.y y1 1y y2 2總計(jì)總計(jì)x x1 1a ab ba+ba+bx x2 2c cd dc+dc+d總計(jì)總計(jì)a+ca+cb+db+da+b+c+da+b+c+d一般地,假設(shè)有兩個(gè)分類變量一般

13、地,假設(shè)有兩個(gè)分類變量X X和和Y Y,它們的可能取值,它們的可能取值分別為分別為xx1 1,x,x2 2 和和yy1 1,y,y2 2,其樣本頻數(shù)列聯(lián)表(稱為其樣本頻數(shù)列聯(lián)表(稱為2x22x2列聯(lián)表)為:列聯(lián)表)為:利用獨(dú)立性檢驗(yàn)來考察兩個(gè)分類變量是否有關(guān)系,能利用獨(dú)立性檢驗(yàn)來考察兩個(gè)分類變量是否有關(guān)系,能較精確地給出這種判斷的可靠程度較精確地給出這種判斷的可靠程度. .具體作法是:具體作法是:(1 1)根據(jù)實(shí)際問題需要的可信程度確定臨界值)根據(jù)實(shí)際問題需要的可信程度確定臨界值k k0 0;(2)由觀測(cè)數(shù)據(jù)計(jì)算得到隨機(jī)變量)由觀測(cè)數(shù)據(jù)計(jì)算得到隨機(jī)變量K2的觀測(cè)值的觀測(cè)值k;(3)如果)如果k

14、6.635,就以,就以 1-P(K26.635)100%的的把握認(rèn)為把握認(rèn)為“X與與Y有關(guān)系有關(guān)系”;否則就說樣本觀測(cè)數(shù)據(jù)沒;否則就說樣本觀測(cè)數(shù)據(jù)沒有提供有提供“X與與Y有關(guān)系有關(guān)系”的充分證據(jù)的充分證據(jù).10.8287.8796.6355.0243.8412.7062.0721.3230.7080.445 k0.0010.0050.0100.0250.050.100.150.50.400.502()P Kk(1 1)如果)如果k10.828k10.828,就有,就有99.9%99.9%的把握認(rèn)為的把握認(rèn)為“X X與與Y Y有關(guān)系有關(guān)系”;(2 2)如果)如果k7.879k7.879,就有,就

15、有99.5%99.5%的把握認(rèn)為的把握認(rèn)為“X X與與Y Y有關(guān)系有關(guān)系”;(3 3)如果)如果k6.635k6.635,就有,就有99%99%的把握認(rèn)為的把握認(rèn)為“X X與與Y Y有關(guān)系有關(guān)系”;(4 4)如果)如果k5.024k5.024,就有,就有97.5%97.5%的把握認(rèn)為的把握認(rèn)為“X X與與Y Y有關(guān)系有關(guān)系”;(5 5)如果)如果k3.841k3.841,就有,就有95%95%的把握認(rèn)為的把握認(rèn)為“X X與與Y Y有關(guān)系有關(guān)系”;(6 6)如果)如果k2.706k2.706,就有,就有90%90%的把握認(rèn)為的把握認(rèn)為“X X與與Y Y有關(guān)系有關(guān)系”;(7 7)如果)如果k=2.

16、706k=2.706,就認(rèn)為沒有充分的證據(jù)顯示,就認(rèn)為沒有充分的證據(jù)顯示 “ “X X與與Y Y有關(guān)系有關(guān)系”. .臨界值臨界值例例1 在某醫(yī)院,因?yàn)榛夹呐K病而住院的在某醫(yī)院,因?yàn)榛夹呐K病而住院的665名男名男性病人中,有性病人中,有214人禿頂;而另外人禿頂;而另外772名不是因名不是因?yàn)榛夹呐K病而住院的男性病人中有為患心臟病而住院的男性病人中有175人禿頂。人禿頂。分別利用圖形和獨(dú)立性檢驗(yàn)方法判斷禿頂與患分別利用圖形和獨(dú)立性檢驗(yàn)方法判斷禿頂與患心臟病是否有關(guān)系?你所得的結(jié)論在什么范圍心臟病是否有關(guān)系?你所得的結(jié)論在什么范圍內(nèi)有效?內(nèi)有效?禿頭禿頭不禿頭不禿頭解:根據(jù)題目所給數(shù)據(jù)得到如下列聯(lián)

17、表1-13:患心臟病患心臟病 不患心臟不患心臟病病總計(jì)總計(jì)禿頂禿頂214175389不禿頂不禿頂4515971048總計(jì)總計(jì)6657721437 根據(jù)聯(lián)表根據(jù)聯(lián)表1-13中的數(shù)據(jù),得到中的數(shù)據(jù),得到221437 (214 597 175 451)16.3736.635.389 1048 665 772K所以有所以有99%的把握認(rèn)為的把握認(rèn)為“禿頂患心臟病有禿頂患心臟病有關(guān)關(guān)”。因?yàn)檫@組數(shù)據(jù)來自住院的病人,因此所得到的結(jié)論適合住院的病人群體例例2 為考察高中生的性別與是否喜歡數(shù)學(xué)課程之為考察高中生的性別與是否喜歡數(shù)學(xué)課程之間的關(guān)系,在某城市的某校高中生中隨機(jī)抽取間的關(guān)系,在某城市的某校高中生中隨機(jī)抽取300名學(xué)生,得到如下聯(lián)表:名學(xué)生,得到如下聯(lián)表:喜歡數(shù)學(xué)課喜歡數(shù)學(xué)課程程不喜歡數(shù)學(xué)不喜歡數(shù)學(xué)課程課程總計(jì)總計(jì)男男3785122女女35143178總計(jì)總計(jì)72228300由表中數(shù)據(jù)計(jì)算由表中數(shù)據(jù)計(jì)算K2的觀測(cè)值的觀測(cè)值k4.513。在。在多大程度上可以認(rèn)為高中生的性別與是否喜多大程度上可以認(rèn)為高中生的性別與是否喜歡數(shù)學(xué)課程之間有關(guān)系?

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論