第八章 卡方檢驗(yàn)與交互分析_第1頁
第八章 卡方檢驗(yàn)與交互分析_第2頁
第八章 卡方檢驗(yàn)與交互分析_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第八章 卡方檢驗(yàn)與交互分析交互分析是社會(huì)調(diào)查研究中常用方法之一,用于研究?jī)蓚€(gè)定類變量的關(guān)系。交互分析中用于檢驗(yàn)兩個(gè)變量是否相關(guān)的方法叫做卡方檢驗(yàn),也叫獨(dú)立性檢驗(yàn)??ǚ綑z驗(yàn)是建立在觀測(cè)頻次和期望頻次之差基礎(chǔ)上的一種檢驗(yàn)。一、卡方檢驗(yàn)的原理例:一項(xiàng)調(diào)查得到890個(gè)樣本的與收入和所處地區(qū)的數(shù)據(jù),希望分析收入和地區(qū)的關(guān)系。表1東部城市中西北部城市總頻次個(gè)人月收入Y0-1000元1461723181000-1500元661001661500-2000元51861372000元以上166103269總頻次429461890相對(duì)頻次0.4820.5181.00要檢驗(yàn)的H0:收入和地區(qū)之間沒有相關(guān)性,即每一地

2、區(qū)的收入分布模式應(yīng)該是相同的,收入的高低不應(yīng)隨著地區(qū)的不同而有所差異。也就是說,如果東部城市的四個(gè)收入類別各自比重和中西北部城市的四個(gè)收入類別各自比重一致,那么,收入和地區(qū)之間是相互獨(dú)立的。如果這個(gè)890人的樣本能夠反應(yīng)總體的獨(dú)立性特征,那么就應(yīng)該能夠觀測(cè)到兩個(gè)地區(qū)具有相同的收入分布模式,稱為期望模式,樣本的期望觀測(cè)頻次如下:表2東部城市中西北部城市總頻次個(gè)人月收入Y0-1000元153.3164.73181000-1500元80861661500-2000元66711372000元以上129.7139.3269總頻次429461890相對(duì)頻次0.4820.5181.00接下來,計(jì)算觀測(cè)頻次f

3、0與期望頻次fe之間的偏差(f0-fe),如果這些偏差比較小,則有利于證明原假設(shè)即總體的獨(dú)立性。反之,則可能推翻原假設(shè)。但偏差之和為0,所以對(duì)偏差進(jìn)行平方。但是,為了說明每一個(gè)偏差的相對(duì)重要性,每一偏差平方和都需要和本組中的期望頻次相比較,計(jì)算相對(duì)(f0-fe)2/fe。然后,將所有組的貢獻(xiàn)相加,從而得到度量全部偏差的一個(gè)量,叫做卡方2=(fo-fe)2fe,服從自由度為(c-1)(r-1)的卡方分布。如用c和r分別表示表中的列數(shù)和行數(shù),自由度為(c-1)(r-1)。f0 fe146172661005186166103153.3164.780866671129.7139.3(f0-fe)-7.

4、37.3-1414-151536.3-36.3(f0-fe)2/fe0.350.322.452.283.413.1710.169.46計(jì)算出卡方值后,可根據(jù)已知的顯著性水平和自由度查卡方分布表,找出臨界值,與之作對(duì)比。反過來,也可以計(jì)算出概值,再根據(jù)我們所希望的顯著性水平做比較。該例題中計(jì)算出2為31.6,查表發(fā)現(xiàn)對(duì)應(yīng)自由度為3的那一行的所有臨界值都小于2,因此,概值小于0.001。由于概值如此小,檢驗(yàn)水平可以是1%甚至更小,所以一定可以拒絕原假設(shè)。也就是說,在總?cè)丝谥?,收入與地區(qū)有顯著的相關(guān)性,二者并不獨(dú)立。練習(xí)題:在電視的收視率調(diào)查中,得到性別與收視習(xí)慣的聯(lián)列表如下,試分析性別和收視習(xí)慣的

5、關(guān)系。男女總頻次幾乎天天看382462偶爾看31738總頻次6931100相對(duì)頻率0.690.311.00解:原假設(shè)為“性別和收視習(xí)慣相互獨(dú)立”,如果原假設(shè)成立,那么兩列期望憑此應(yīng)通過0.69和0.31分別乘以最后一列總頻次而得到。382431742.819.226.211.8(f0-fe)-4.84.84.8-4.8(f0-fe)2/fe0.541.200.881.95卡方值=4.57。自由度為(2-1)(2-1)=1??ǚ街荡笥?.052=3.84,所以概值小于0.05。可以認(rèn)為在5%的顯著性水平下拒絕原假設(shè),認(rèn)為性別與收視習(xí)慣并不是相互獨(dú)立的。二、卡方檢驗(yàn)的局限性和補(bǔ)救辦法 1、卡方值隨

6、分類的不同而不同交互分析將數(shù)據(jù)按類別整理,分類的不同可改變卡方值,甚至導(dǎo)致相反結(jié)果。在例題中,收入如果分成高、中、低三類,結(jié)果必然不同。因此,在分類時(shí)最好有理論(統(tǒng)計(jì)上的)依據(jù)。如果沒有,則需要有統(tǒng)計(jì)上的依據(jù),例如利用中位數(shù),將數(shù)據(jù)平分兩類。2、樣本量不能太小,也不宜過大樣本量應(yīng)大于30或50,一般調(diào)查中都會(huì)超過50。樣本量太大,檢驗(yàn)結(jié)果也可能會(huì)失去意義。因?yàn)榭ǚ街凳軜颖玖坑绊懞艽?,樣本量越大,越容易得到拒絕原假設(shè)的結(jié)果。比如將樣本量增大10倍,各種對(duì)應(yīng)關(guān)系不變,則卡方值也會(huì)增大10倍。原來的不拒絕結(jié)果可能就會(huì)變成拒絕原假設(shè)的結(jié)果。為了解決這一問題,要采用補(bǔ)救辦法,常用的是聯(lián)列系數(shù)C,可以消除樣本量的影響,解釋變量間真正關(guān)系的密切程度。C= ,雖然卡方值不同,但C值相同。因此,當(dāng)卡方檢驗(yàn)顯著單樣本量有很大時(shí),最好參照C值的大小,如果C值也比較大,才可以拒絕原假設(shè)。遺憾的是,對(duì)于C值的顯著程度沒有可行的統(tǒng)計(jì)檢驗(yàn)方法,有些學(xué)者認(rèn)為C值至少要超過0.16,最好達(dá)到0.25,才可以考慮兩個(gè)變量相關(guān)。同時(shí),C值還受到連列表規(guī)模影響。對(duì)于2*2的表,C值不會(huì)超過0.707,但對(duì)于4*6的表,C值上限可達(dá)到0.877。所以,也有學(xué)者建議將C值與其理論上限值作比較,如果接近上限,關(guān)系顯著。但后一種方法過于嚴(yán)格,對(duì)很多

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論