spss學(xué)習(xí)系列2卡方檢驗_第1頁
spss學(xué)習(xí)系列2卡方檢驗_第2頁
spss學(xué)習(xí)系列2卡方檢驗_第3頁
spss學(xué)習(xí)系列2卡方檢驗_第4頁
spss學(xué)習(xí)系列2卡方檢驗_第5頁
已閱讀5頁,還剩10頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

卡方檢驗,是針對無序分類變量的一種非參數(shù)檢驗,其理論依據(jù)是:實際觀察頻數(shù)f0與理論頻數(shù)fe(又稱期望頻數(shù))之差的平方再除以理論頻數(shù)所得的統(tǒng)計量,近似服從X2分布,即(f-f)2 V”、—0 X(n)fe卡方檢驗的一般是用來檢驗無序分類變量的實際觀察頻數(shù)和理論頻數(shù)分布之間是否存在顯著差異,二者差異越小,X2值越小??ǚ綑z驗要求:(1)分類相互排斥,互不包容;(2)觀察值相互獨立;(3)樣本容量不宜太小,理論頻數(shù)三5,否則需要進行校正(合并單元格、增加樣本數(shù)、去除樣本法、使用校正公式校正卡方值)??ǚ叫U綖椋?|f-f|-0.5)2

I0 e f

e卡方檢驗的原假設(shè)H。:x2=0;備擇假設(shè)Hjx2W0;卡方檢驗的用途:(1)檢驗?zāi)尺B續(xù)變量的數(shù)據(jù)是否服從某種分布(擬合優(yōu)度檢驗);(2)檢驗?zāi)撤诸愖兞扛黝惖某霈F(xiàn)概率是否等于指定概率;(3)檢驗兩個分類變量是否相互獨立(關(guān)聯(lián)性檢驗);(4)檢驗控制某幾個分類因素之后,其余兩個分類變量是否相互獨立;(5)檢驗兩種方法的結(jié)果是否一致,例如兩種方法對同一批人進行診斷,其結(jié)果是否一致。(一)檢驗單樣本某水平概率是否等于某指定概率一、單樣本案例例如,檢驗彩票中獎號碼的分布是否服從均勻分布(概率二某常值);檢驗?zāi)钞a(chǎn)品市場份額是否比以前更大;檢驗?zāi)臣膊〉陌l(fā)病率是否比以前降低。有數(shù)據(jù)文件:檢驗“性別”的男女比例是否相同(各占1/2)。.【分析】一一【非參數(shù)檢驗】一一【單樣本】打開“單樣本非參數(shù)檢驗”窗口,【目標(biāo)】界面勾選“自動比較觀察數(shù)據(jù)和假設(shè)數(shù)據(jù)”.【字段】界面,勾選“使用定制字段分配”,將變量“性別”選入【檢驗字段】框;注意:變量“性別”的度量標(biāo)準(zhǔn)必須改為“名義”類型。.【設(shè)置】界面,選擇“自定義檢驗”勾選“比較觀察可能性和假設(shè)可能性(卡方檢驗)”.點【選項】,打開“卡方檢驗選項”子窗口,本例要檢驗?zāi)信怕识?,勾選“所有類別概率相等”注:若有類別概率不等,需要勾選“自定義期望概率”,在其表中設(shè)置各類別水平及相應(yīng)概率。點【確定】回到原窗口,點【運行】得到雙擊上表,得到更多的描述:結(jié)果說明:(1)男生的觀察頻數(shù)為28,理論頻數(shù)為25,殘差=3;女生的觀察頻數(shù)為22,理論頻數(shù)為25,殘差=-3;可以計算卡方值=[32+(-3)2]/25二(2)卡方檢驗的P值=>,故接受原假設(shè)H0,即認(rèn)為男女性別人數(shù)無差異。注:卡方檢驗的P值是近似P值,若用“二項分布檢驗”計算出精確P值二.另外,上述卡方檢驗也可以用:【分析】一一【非參數(shù)檢驗】一一【舊對話框】一一【卡方】得到的結(jié)果是一致的。二、兩樣本或多樣本案例一一比較不同類的構(gòu)成比或發(fā)生率的差異問題:兩組收入不同的受訪家庭其轎車擁有率的比較。使用【交叉表】的卡方檢驗來實現(xiàn),需要注意:若交叉表中存在有序分類變量,則適合用秩和檢驗而不是卡方檢驗。有數(shù)據(jù)文件:變量O1表示是否擁有轎車:“1二有,2二沒有”;變量Ts9表示收入級別:“1二萬以上,2二萬以上”。.【分析】一一【描述統(tǒng)計】一一【交叉表】,打開“交叉表”窗口,將變量“T$9收入級別"選入【行】框,將變量“)1是否擁有轎車"選入【列】框,根據(jù)需要勾選“顯示復(fù)式條形圖”.點【統(tǒng)計量】,打開“統(tǒng)計量”子窗口,勾選“卡方”表示進行卡方檢驗;.點【繼續(xù)】回到原窗口,點【單元格】打開“單元顯示”窗口,【計數(shù)】輸出觀察頻數(shù)和理論頻數(shù),默認(rèn)勾選“觀察值”;【百分比】勾選“行”【非整數(shù)權(quán)重】設(shè)置小數(shù)權(quán)重問題,保持默認(rèn);

注:“殘差”設(shè)置殘差的輸出方式;“z-檢驗”對多于兩組的數(shù)據(jù)做兩兩組間比較;點【繼續(xù)】回到原窗口,點【確定】得到有效的缺失N百分比N百分比N百分比家庭收入2級*O1.是否擁有家用轎車989%158%1147%入2級火O1且不iffl后場中上夫Ar合計沒有計數(shù)32303335Below48,000家庭收入2級中的%%%%家庭收入2級計數(shù)225429654Over48,000家庭收入2級中的%%%%計數(shù)257732989合計^^庭收入級1H中的%%%a.低收入家庭有%擁有轎車;高收入家庭%擁有轎車。a.值df1卡市檢驗 漸進Sig(雙側(cè))精確Sig(雙側(cè))精確Sig(單側(cè))Pearson卡方1.000連續(xù)校正b1.000似然比1.000Fisher的精確檢驗.000.000線性和線性組合1.000有效案例中的N 989.0單元格%)的期望計數(shù)少于5。最小期望計數(shù)為。b.僅對2x2表計算腳注a說明沒有單元格的期望頻數(shù)<5,滿足Pearson卡方檢驗要求,故看Pearson卡方檢驗結(jié)果即可:P值=0<,拒絕原假設(shè)H0,即高低收入不同的家庭轎車擁有上的差異有統(tǒng)計學(xué)意義。注:(1)“Pearson卡方”:最標(biāo)準(zhǔn)最常用;(2)“連續(xù)校正”:只適用于4格表,樣本量>40,所有期望頻數(shù)都>1,只有1/5以下的單元格期望頻數(shù)<5;(3)“Fisher精確檢驗”:不需要近似,結(jié)果最精確,但耗時多;若樣本量<40,有單元格的期望頻數(shù)<1的4格表,需要用該檢驗;若有單元格的期望頻數(shù)<1,或<5的期望頻數(shù)較多,也可采用該檢驗;(4)“似然比”:用似然比公式計算卡方,在處理多維表是有更大優(yōu)勢;(5)“線性卡方”:檢驗的原假設(shè)10是行列變量間無線性相關(guān),在列聯(lián)表分類變量中很少用,更多用于連續(xù)變量。(三)檢驗兩分類變量間的關(guān)聯(lián)程度例如,進行客戶滿意度研究中,價格、質(zhì)量、服務(wù)都與總體滿意度相關(guān),哪項與總體滿意度關(guān)系更密切?卡方值的大小可以粗略地反映兩變量聯(lián)系的強弱,更精確的描述可以用“相對危險度”和“優(yōu)勢比”。(1)相對危險度(RR)實驗組人群反應(yīng)陽性概率與對照組人群反應(yīng)陽性概率的比值,即RR二用于反應(yīng)實驗因素與反應(yīng)陽性的關(guān)聯(lián)程度,RR=1表明二者無關(guān)聯(lián);RR<1表明實驗因素導(dǎo)致反應(yīng)陽性的發(fā)生率降低。(2)優(yōu)勢比(OR)有時反應(yīng)陽性概率的估計值很難求得(如回顧性研究),往往使用優(yōu)勢比代替RR值。優(yōu)勢比是反應(yīng)陽性人群中實驗因素有無的比例與反應(yīng)陰性人群中實驗因素有無的比例之比,即a/badOR= =—c/dbc若OR>1,則表明實驗因素更容易導(dǎo)致結(jié)果為陽性,或者說“采用的實驗因素”與“結(jié)果為陽性”有關(guān)聯(lián)。注:當(dāng)反應(yīng)陽性概率<時,OR可作為RR的近似。優(yōu)勢比是兩個比數(shù)之比,例如,女性購買與不購買某產(chǎn)品的比數(shù)是男性該比數(shù)的3倍。問題:描述家庭收入級別與擁有轎車的關(guān)聯(lián)程度.【分析】一一【描述統(tǒng)計】一一【交叉表】,打開“交叉表”窗口,將變量“T$9收入級別"選入【行】框,將變量t1是否擁有轎車"選入【列】框;.點【統(tǒng)計量】,打開“統(tǒng)計量”子窗口,勾選“風(fēng)險”用來計算OR值和RR值;點【繼續(xù)】回到原窗口,點【確定】得到

家庭收入?級*01是否擁有家用轎車交叉制表日.不士田后若中左穴左合計沒有計數(shù)Below48,000家庭收入2級中的%家庭收入2級計數(shù)Over48,000家庭收入2級中的%計數(shù)合計32%225%257 %303%429%732 %335%654%989 % [風(fēng)險估計 值 95%置信區(qū)間 下限 上限家庭收入2級(Below48,000/Over.201 .135 .30048,000)的幾率比用于cohort01.是否擁有家用轎車.278 .196 .392=有用于cohort01.是否擁有家用轎車=沒有有效案例中的N 9891(1)優(yōu)勢比0R是兩個比數(shù)之比:低收入家庭擁有轎車的比例為%,沒有轎車的比例是%,其比數(shù)為%/%=;高收入家庭的比數(shù)為:%/%=;故OR值二二該值的95%置信區(qū)間二[,],不包含1(有統(tǒng)計學(xué)意義);(2)相對危險度RR1是兩組人群擁有轎車的概率之比,其估計值為%/%=,說明高收入家庭擁有轎車的概率是低收入家庭的1/二倍,RR1值的95%置信區(qū)間二[,],不包含1(有統(tǒng)計學(xué)意義);(3)相對危險度RR2是兩組人群沒有轎車的概率之比,估計值為%/%二.注:上述三個指標(biāo)實際上是等價的;另外,OR值也等于有車與無車的相對危險度之比(/=)。(四)分層卡方檢驗前文已經(jīng)得到家庭收入級別會影響轎車擁有情況,那么進一步,不同城市是否存在差異?即“城市”因素是否也是影響轎車擁有的協(xié)變量?另外“學(xué)歷”因素呢?分層卡方檢驗就是解決上述問題常用的一種方法。問題:在前文的基礎(chǔ)上,進一步在控制“城市”的影響的前提下,更準(zhǔn)確地描述家庭收入與轎車擁有的關(guān)聯(lián)程度。.【分析】一一【描述統(tǒng)計】一一【交叉表】,打開“交叉表”窗口;將變量“T$9收入級別"選入【行】框,將變量“)1是否擁有轎車"選入【列】框;將變量“s1城市”選入【層1的1】框;.點【統(tǒng)計量】,打開“統(tǒng)計量”子窗口,勾選“風(fēng)險”、“Cochran'sandMantel-Haenszel統(tǒng)計量”,點【繼續(xù)】;點【確定】,得到結(jié)果家庭收入2級*O1.是否擁有家用轎車*S1.城市交叉制表計數(shù)S1.城市旦不土田后巖用妖水合計. ZM1 1Jt1沒有Below48,000993102100北京家庭收入2級Over48,00083134217

合計92227319Below48,0004103107家庭收入2級200上海 Over48,00070160230合計74263337Below48,00019107126家庭收入2級300廣州 Over48,00072135207合計91242333Below48,00032303335家庭收入2級合計 Over48,000225429654合計257732QQQ風(fēng)險估計S1.城市值Q就曾佇▽尚下限上限家庭收入2級(Below48,000/Over48,000)的幾率比用于cohortO1.是否擁有家用轎車.156.075.326100北京 =有用于cohortO1.是否擁有家用轎車=沒有有效案例中的N家庭收入2級(Below48,000/Over.231319.121.44048,000)的幾率比用于cohortO1.是否擁有家用轎車.089.031.251200上海 =有用于cohortO1.是否擁有家用轎車=沒有有效案例中的N家庭收入2級(Below48,000/Over.123337.046.32848,000)的幾率比用于cohortO1.是否擁有家用轎車.333.189.586300廣州 =有用于cohortO1.是否擁有家用轎車=沒有有效案例中的N家庭收入2級(Below48,000/Over.434333.275.68348,000)的幾率比合計用于cohortO1.是否擁有家用轎車.201.135.300=有.278.196.392用于cohortO1.是否擁有家用轎車=沒有有效案例中的N 989I由于設(shè)置了分層變量,故按分層變量的水平值單獨對每一層進行風(fēng)險估計。上海的OR值二,而廣州的OR值二,說明是有地區(qū)差異的。幾率比的均一性檢驗卡方df—漸進d_(雙側(cè))_Breslow-Day^aun^^^^^^^.22.046046層間差異的檢查結(jié)果(不同城市家庭收入與轎車擁有的聯(lián)系是否相同),原假謝。:層間無差異;P值=<,拒絕原假設(shè)H0,即不同城市是有差異的,因此不能簡單地將不同城市數(shù)據(jù)總體處理得到結(jié)果。條件的獨立性檢驗卡方dfCochran的11.000000在條件的獨立性假定下,僅當(dāng)層數(shù)固定時Cochran的統(tǒng)計量才漸進分布為1df卡方分布,而Mantel-Haenszel統(tǒng)計量始終漸進分布為1df卡方分布。注意,當(dāng)觀測值和期望值差值之和為0時,將從Mantel-Haenszel統(tǒng)計量中刪除連續(xù)校正。分層卡方檢驗(即去除分層因素“城市”的影響之后,家庭收入與轎車擁有的關(guān)聯(lián)性)的兩種結(jié)果:CMH卡方檢驗和MH卡方檢驗,前者是后者的改進。P值=0<,說明“家庭收入”與“轎車擁有”有關(guān)聯(lián),但由于前面檢驗的層間差異有統(tǒng)計學(xué)意義,所以這個結(jié)論僅供參考。MaatAl-HaeafiAfil^s般比估計估計.195ln(估計)ln(估計)的標(biāo)準(zhǔn)誤差.206漸進Sig.(雙側(cè)).000下限.130一般幾率比上限.292漸進.95%置信區(qū)間下限ln(一般幾率比) 上限Mantel-Haenszel一般幾率比估計在假定的一般幾率比下漸進地正態(tài)分布。因此是估計的自然對數(shù)。給出了調(diào)整了分層因素作用后的綜合OR值:ORMH值=(原OR值=),P值=0<,說明結(jié)果顯著。注:(1)分層卡方檢驗是一種很好的控制其他因素的方法,從而能得到更準(zhǔn)確的結(jié)果,若樣本量足夠大還可用引入更多的分層。(2)SPSS的CMH卡方檢驗只能進行兩分類變量檢驗,而不能進行多分類變量的檢驗;當(dāng)分層變量和要分析的變量存在交互作用時,分層卡方檢驗就不再適用,此時應(yīng)當(dāng)考慮用對數(shù)線性模型或Logistic模型來進行更為深入和準(zhǔn)確的分析。(五)配對設(shè)計列聯(lián)表的Kappa一致檢驗以及配對卡方檢驗一、Kappa一致檢驗配對設(shè)計列聯(lián)表的行變量和列變量反應(yīng)的是同一事物的同一屬性的相同水平,只是對該屬性各水平的區(qū)分方法不同。例如,某疾病的診斷結(jié)果表,行變量為一種診斷方法,列變量為另一種診斷方法;對某事物的評價等級表,行變量和列變量分別顯示不同專家的評價。對于配對設(shè)計列聯(lián)表,希望檢驗兩種方法給出的結(jié)果是否一致,適合用Kappa一致檢驗。注意:Pearson卡方檢驗只能檢驗兩種測量結(jié)果之間是否存在關(guān)聯(lián),不能判斷其是否具有一致性。問題:某公司擴展業(yè)務(wù)開新分店選址,請兩位顧問分別對20個地址進行評價,分為好、中、差3個等級,想知道兩人的評價結(jié)果是否一致?count二頻數(shù),cons1,cons2表示兩位顧問的評價:1二差,2二中,3=好;例如第一行數(shù)據(jù):6,1,1表示兩顧問都評為“差”的有6個地址。.【數(shù)據(jù)】一一【加權(quán)個案】,打開“加權(quán)個案”窗口,勾選“加權(quán)個案”,將變量“頻數(shù)”選入【頻率變量】框,點【確定】.【分析】一一【統(tǒng)計描述】一一【交叉表】,打開“交叉表”窗口,將變量“cons1,cons2”分別選入【行】【列】框;.點【統(tǒng)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論