統(tǒng)計(jì)學(xué)列聯(lián)分析_第1頁(yè)
統(tǒng)計(jì)學(xué)列聯(lián)分析_第2頁(yè)
統(tǒng)計(jì)學(xué)列聯(lián)分析_第3頁(yè)
統(tǒng)計(jì)學(xué)列聯(lián)分析_第4頁(yè)
統(tǒng)計(jì)學(xué)列聯(lián)分析_第5頁(yè)
已閱讀5頁(yè),還剩55頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第九

章列聯(lián)分析9.1分類數(shù)據(jù)與列聯(lián)表9.2c2

檢驗(yàn)9.3列聯(lián)表中的相關(guān)測(cè)量9.4列聯(lián)分析中應(yīng)注意的問(wèn)題學(xué)習(xí)目標(biāo)1. 解釋列聯(lián)表進(jìn)行c2

檢驗(yàn)擬合優(yōu)度檢驗(yàn)獨(dú)立性檢驗(yàn)3. 測(cè)度列聯(lián)表中的相關(guān)性9.1

分類數(shù)據(jù)與列聯(lián)表9.1.1分類數(shù)據(jù)9.1.2列聯(lián)表的構(gòu)造9.1.3列聯(lián)表的分布數(shù)據(jù)數(shù)據(jù)分類數(shù)據(jù)順序數(shù)據(jù)數(shù)值型數(shù)據(jù)分類數(shù)據(jù)和順序數(shù)據(jù)都屬于分類數(shù)據(jù)。其共同特征是,調(diào)查結(jié)果雖然是用數(shù)值表示的,但不同數(shù)值描述了調(diào)查對(duì)象的不同特征。分類數(shù)據(jù)例如:我們關(guān)心原料的質(zhì)量和原料的產(chǎn)地是否存在相關(guān)關(guān)系原料的質(zhì)量是順序數(shù)據(jù),可以分為“一級(jí)品”“二級(jí)品”“三級(jí)品”等原料的產(chǎn)地是分類數(shù)據(jù),可以分為“甲地區(qū)”“乙地區(qū)”“丙地區(qū)”等數(shù)值型數(shù)據(jù)可以轉(zhuǎn)化為分類數(shù)據(jù)。例如,“收入”是一個(gè)數(shù)值型數(shù)據(jù),但可以按照一定的標(biāo)準(zhǔn)把不同收入的被調(diào)查者分為不同的類型,如“高收入群”“較高收入群”“低收入群”等。列聯(lián)表的構(gòu)造列聯(lián)表

(contingencytable)由兩個(gè)以上的變量交叉分類的頻數(shù)分布表行變量的類別用r

表示,ri

表示第i

個(gè)類別列變量的類別用c

表示,cj

表示第j

個(gè)類別每種組合的觀察值用fij

表示,也叫條件頻數(shù)表中列出了行變量和列變量的所有可能的組合,所以稱為列聯(lián)表一個(gè)

r行c

列的列聯(lián)表稱為r

c

列聯(lián)表列聯(lián)表的結(jié)構(gòu)

(22列聯(lián)表)列(cj)合計(jì)j=1j=1i=1f11f12f11+f12i=2f21f22f21+f22合計(jì)f11+f21f12+f22n列(cj)行(ri)列聯(lián)表的結(jié)構(gòu)

(r

c

列聯(lián)表的一般表示)列(cj)合計(jì)j=1j=2…i=1f11f12…r1i=2f21f22…r2:::::合計(jì)c1c2…n列(cj)行(ri)fij

表示第i

行第j

列的觀察頻數(shù)列聯(lián)表

(例題分析)一分公司二分公司三分公司四分公司合計(jì)贊成該方案68755779279反對(duì)該方案32753331141合計(jì)10012090110420【例】一個(gè)集團(tuán)公司在四個(gè)不同的地區(qū)設(shè)有分公司,現(xiàn)該集團(tuán)公司欲進(jìn)行一項(xiàng)改革,此項(xiàng)改革可能涉及到各分公司的利益,故采用抽樣調(diào)查方式,從四個(gè)分公司共抽取420個(gè)樣本單位(人),了解職工對(duì)此項(xiàng)改革的看法,調(diào)查結(jié)果如下表列聯(lián)表的分布觀察值的分布期望值的分布觀察值的分布邊緣分布行邊緣分布行觀察值的合計(jì)數(shù)的分布例如,贊成改革方案的共有279人,反對(duì)改革方案的141人列邊緣分布列觀察值的合計(jì)數(shù)的分布例如,四個(gè)分公司接受調(diào)查的人數(shù)分別為100人,120人,90人,110人條件分布與條件頻數(shù)變量X條件下變量Y

的分布,或在變量Y

條件下變量X

的分布每個(gè)具體的觀察值稱為條件頻數(shù)觀察值的分布

(圖示)一分公司二分公司三分公司四分公司合計(jì)贊成該方案68755779279反對(duì)該方案32753331141合計(jì)10012090110420行邊緣分布列邊緣分布條件頻數(shù)基數(shù)不同,故不能直接比較條件頻數(shù)。百分比分布

(概念要點(diǎn))條件頻數(shù)反映了數(shù)據(jù)的分布,但不適合對(duì)比為在相同的基數(shù)上進(jìn)行比較,可以計(jì)算相應(yīng)的百分比,稱為百分比分布行百分比:行的每一個(gè)觀察值除以相應(yīng)的行合計(jì)數(shù)(fij

/ri)列百分比:列的每一個(gè)觀察值除以相應(yīng)的列合計(jì)數(shù)(fij

/cj)總百分比:每一個(gè)觀察值除以觀察值的總數(shù)(fij

/N

)百分比分布

(圖示)一分公司二分公司三分公司四分公司合計(jì)贊成該方案24.4%26.9%20.4%28.3%66.4%68.0%62.5%63.3571.8%—16.2%17.8%13.6%18.8%—反對(duì)該方案22.7%31.9%23.4%22.0%33.6%32.0%37.5%36.7%28.2%—7.6%10.7%7.9%7.4%—合計(jì)23.8%28.6%21.4%26.2%100%總百分比列百分比行百分比觀察值的分布

(圖示)一分公司二分公司三分公司四分公司合計(jì)贊成該方案68755779279反對(duì)該方案32753331141合計(jì)10012090110420行邊緣分布列邊緣分布條件頻數(shù)

期望頻數(shù)的分布假定行變量和列變量是獨(dú)立的一個(gè)實(shí)際頻數(shù)fij

的期望頻數(shù)eij

,是總頻數(shù)的個(gè)數(shù)n乘以該實(shí)際頻數(shù)fij

落入第i

行和第j列的概率,即期望頻數(shù)的分布

(例題分析)由于觀察頻數(shù)的總數(shù)為n

,所以f11

的期望頻數(shù)e11應(yīng)為

例如,第1行和第1列的實(shí)際頻數(shù)為f11

,它落在第1行的概率估計(jì)值為該行的頻數(shù)之和r1除以總頻數(shù)的個(gè)數(shù)n

,即:r1/n;它落在第1列的概率的估計(jì)值為該列的頻數(shù)之和c1除以總頻數(shù)的個(gè)數(shù)n

,即:c1/n。根據(jù)概率的乘法公式,該頻數(shù)落在第1行和第1列的概率應(yīng)為觀察值的分布

(圖示)一分公司二分公司三分公司四分公司合計(jì)贊成該方案68755779279反對(duì)該方案32753331141合計(jì)10012090110420行邊緣分布列邊緣分布條件頻數(shù)

期望頻數(shù)的分布

(例題分析)一分公司二分公司三分公司四分公司贊成該方案實(shí)際頻數(shù)68755779期望頻數(shù)66806073反對(duì)該方案實(shí)際頻數(shù)32753331期望頻數(shù)344030379.2

檢驗(yàn)9.2.1

統(tǒng)計(jì)量9.2.2擬合優(yōu)度檢驗(yàn)獨(dú)立性檢驗(yàn)

統(tǒng)計(jì)量

統(tǒng)計(jì)量用于檢驗(yàn)列聯(lián)表中變量間擬合優(yōu)度和獨(dú)立性用于測(cè)定兩個(gè)分類變量之間的相關(guān)程度

計(jì)算公式為列聯(lián)表

(例題分析)一分公司二分公司三分公司四分公司合計(jì)贊成該方案68755779279反對(duì)該方案32753331141合計(jì)10012090110420【例】一個(gè)集團(tuán)公司在四個(gè)不同的地區(qū)設(shè)有分公司,現(xiàn)該集團(tuán)公司欲進(jìn)行一項(xiàng)改革,此項(xiàng)改革可能涉及到各分公司的利益,故采用抽樣調(diào)查方式,從四個(gè)分公司共抽取420個(gè)樣本單位(人),了解職工對(duì)此項(xiàng)改革的看法,調(diào)查結(jié)果如下表

統(tǒng)計(jì)量

(例題分析)實(shí)際頻數(shù)(fij)期望頻數(shù)(eij)fij-eij(fij-eij)2(fij-eij)2eij687557793245333166806073344030372-5-36-253-64259364259360.06060.31250.15000.49320.11760.62500.30000.9730合計(jì):3.0319擬合優(yōu)度檢驗(yàn)擬合優(yōu)度檢驗(yàn)

(goodnessoffittest)檢驗(yàn)多個(gè)比例是否相等檢驗(yàn)的步驟提出假設(shè)H0:1=2=…=j;H1:

1,2,…,j

不全相等

計(jì)算檢驗(yàn)的統(tǒng)計(jì)量

進(jìn)行決策根據(jù)顯著性水平和自由度(r-1)(c-1)查出臨界值

2

若2>

2,拒絕H0;若

2<

2,接受H0擬合優(yōu)度檢驗(yàn)

(例題分析)H0:

1=

2=

3=

4

H1:

1,

2,

3,

4

不全相等

=0.1df=(2-1)(4-1)=3臨界值(s):統(tǒng)計(jì)量:

=0.1的水平上不能拒絕H0可以認(rèn)為四個(gè)分公司對(duì)改革方案的贊成比例是一致的

決策:結(jié)論:獨(dú)立性檢驗(yàn)

(testofindependence)檢驗(yàn)列聯(lián)表中的行變量與列變量之間是否獨(dú)立檢驗(yàn)的步驟為提出假設(shè)H0:行變量與列變量獨(dú)立H1:行變量與列變量不獨(dú)立計(jì)算檢驗(yàn)的統(tǒng)計(jì)量進(jìn)行決策根據(jù)顯著性水平和自由度(r-1)(c-1)查出臨界值

2若2

2,拒絕H0;若

2<

2,接受H0獨(dú)立性檢驗(yàn)

(例題分析)【例】一種原料來(lái)自三個(gè)不同的地區(qū),原料質(zhì)量被分成三個(gè)不同等級(jí)。從這批原料中隨機(jī)抽取500件進(jìn)行檢驗(yàn),結(jié)果如下表。檢驗(yàn)各地區(qū)與原料之間是否存在依賴關(guān)系(

0.05)地區(qū)一級(jí)二級(jí)三級(jí)合計(jì)甲地區(qū)526424140乙地區(qū)605952171丙地區(qū)506574189合計(jì)162188150500獨(dú)立性檢驗(yàn)

(例題分析)提出假設(shè)H0:地區(qū)與原料等級(jí)之間獨(dú)立H1:地區(qū)與原料等級(jí)之間不獨(dú)立計(jì)算檢驗(yàn)的統(tǒng)計(jì)量根據(jù)顯著性水平=0.05和自由度(3-1)(3-1)=4查出相應(yīng)的臨界值

2=9.488。由于2=19.82>

2=9.448,拒絕H0擬合優(yōu)度檢驗(yàn)

(例題分析)H0:地區(qū)與原料等級(jí)之間獨(dú)立H1:地區(qū)與原料等級(jí)之間不獨(dú)立

=0.05df=(3-1)(3-1)=4臨界值(s):統(tǒng)計(jì)量:

=0.05的水平上拒絕H0地區(qū)和原料等級(jí)之間存在依賴關(guān)系

決策:結(jié)論:9.3列聯(lián)表中的相關(guān)測(cè)量9.4.1

相關(guān)系數(shù)9.4.2列聯(lián)相關(guān)系數(shù)9.4.3V

相關(guān)系數(shù)列聯(lián)表中的相關(guān)測(cè)量品質(zhì)相關(guān)對(duì)品質(zhì)數(shù)據(jù)(分類和順序數(shù)據(jù))之間相關(guān)程度的測(cè)度列聯(lián)表變量的相關(guān)性屬于品質(zhì)相關(guān)列聯(lián)表相關(guān)測(cè)量的統(tǒng)計(jì)量主要有

相關(guān)系數(shù)列聯(lián)相關(guān)系數(shù)V

相關(guān)系數(shù)

相關(guān)系數(shù)

(correlationcoefficient)測(cè)度22列聯(lián)表中數(shù)據(jù)相關(guān)程度對(duì)于22列聯(lián)表,

系數(shù)的值在0~1之間

相關(guān)系數(shù)計(jì)算公式為

相關(guān)系數(shù)

(原理分析)一個(gè)簡(jiǎn)化的22列聯(lián)表因素Y因素X合計(jì)x1x2y1aba+by2cdc+d合計(jì)a+cb+dn

相關(guān)系數(shù)

(原理分析)列聯(lián)表中每個(gè)單元格的期望頻數(shù)分別為將各期望頻數(shù)代入

的計(jì)算公式得

相關(guān)系數(shù)

(原理分析)將

相關(guān)系數(shù)的計(jì)算公式得ad等于bc,

=0,表明變量X與Y

之間獨(dú)立若b=0

,c=0,或a=0

,d=0,意味著各觀察頻數(shù)全部落在對(duì)角線上,此時(shí)|

|=1,表明變量X與Y

之間完全相關(guān)列聯(lián)表中變量的位置可以互換,

的符號(hào)沒有實(shí)際意義,故取絕對(duì)值即可當(dāng)列聯(lián)表中行數(shù)和列數(shù)大于2時(shí),

相關(guān)系數(shù)將會(huì)隨著R和C的增大而增大,

值沒有上限,描述相關(guān)程度不夠清晰。列聯(lián)相關(guān)系數(shù)

(coefficientofcontingency)用于測(cè)度大于22列聯(lián)表中數(shù)據(jù)的相關(guān)程度計(jì)算公式為C的取值范圍是0C<1C=0表明列聯(lián)表中的兩個(gè)變量獨(dú)立C的數(shù)值大小取決于列聯(lián)表的行數(shù)和列數(shù),并隨行數(shù)和列數(shù)的增大而增大根據(jù)不同行和列的列聯(lián)表計(jì)算的列聯(lián)系數(shù)不便于比較-----局限性V相關(guān)系數(shù)

(Vcorrelationcoefficient)計(jì)算公式為

V的取值范圍是0V1

V=0表明列聯(lián)表中的兩個(gè)變量獨(dú)立

V=1表明列聯(lián)表中的兩個(gè)變量完全相關(guān)不同行和列的列聯(lián)表計(jì)算的列聯(lián)系數(shù)不便于比較當(dāng)列聯(lián)表中有一維為2,min[(r-1),(c-1)]=1,此時(shí)V=

、C、V的比較同一個(gè)列聯(lián)表,

、C、V的結(jié)果會(huì)不同不同的列聯(lián)表,

、C、V的結(jié)果也不同在對(duì)不同列聯(lián)表變量之間的相關(guān)程度進(jìn)行比較時(shí),不同列聯(lián)表中的行與行、列與列的個(gè)數(shù)要相同,并且采用同一種系數(shù)列聯(lián)表中的相關(guān)測(cè)量

(例題分析)【例】一種原料來(lái)自三個(gè)不同地區(qū),原料質(zhì)量被分成三個(gè)不同等級(jí)。從這批原料中隨機(jī)抽取500件進(jìn)行檢驗(yàn),結(jié)果如下表。分別計(jì)算系數(shù)、C系數(shù)和V系數(shù),并分析相關(guān)程度地區(qū)一級(jí)二級(jí)三級(jí)合計(jì)甲地區(qū)526424140乙地區(qū)605952171丙地區(qū)506574189合計(jì)162188150500列聯(lián)表中的相關(guān)測(cè)量

(例題分析)解:已知n=500,

=19.82,列聯(lián)表為33結(jié)論:三個(gè)系數(shù)均不高,表明產(chǎn)地和原料等級(jí)之間的相關(guān)程度不高§9.4列聯(lián)分析中應(yīng)注意的問(wèn)題§9.4.1條件百分表的方向§9.4.2分布的期望值準(zhǔn)則44§9.4.1條件百分表的方向條件百分表方向一般在列聯(lián)表中變量的位置是任意的,即既可以把變量X放在列的位置,也可以放在行的位置。如果變量X與Y存在因果關(guān)系,令X為自變量(原因),Y為因變量(結(jié)果),那么一般的做法是把自變量X放在列的位置,條件百分表也多按自變量的方向計(jì)算,因?yàn)檫@樣便于更好地表現(xiàn)原因?qū)Y(jié)果的影響。如有下面的一個(gè)2*2列聯(lián)表。45§9.4.1條件百分表的方向

表9-12職業(yè)背景與工作價(jià)值觀取向46§9.4.1條件百分表的方向

表9-12分析

數(shù)據(jù)顯示,總共調(diào)查了225人,其中制造業(yè)145人,服務(wù)業(yè)80人;在制造業(yè)被調(diào)查者中,以物質(zhì)報(bào)酬為價(jià)值取向的有105人,占該群體的72%;以人情關(guān)系為價(jià)值取向的有40人,占該群體的28%。而服務(wù)業(yè)被調(diào)查者中,以物質(zhì)報(bào)酬為價(jià)值取向的有45人,占該群體的56%;以人情關(guān)系為價(jià)值取向的有35人,占該群體的44%;數(shù)據(jù)表明,與制造業(yè)相比,服務(wù)業(yè)就業(yè)人員更注重人情關(guān)系。人們的職業(yè)背景不同,工作的價(jià)值觀有可能不同。47§9.4.1條件百分表的方向特殊情況如果因變量在樣本內(nèi)的分布不能代表其在總體內(nèi)的分布,例如,為了滿足分析的需要,抽樣時(shí)擴(kuò)大了因變量某項(xiàng)內(nèi)容的樣本容量,這時(shí)仍以自變量的方向計(jì)算百分表就會(huì)歪曲實(shí)際情況。48§9.4.1條件百分表的方向例:社會(huì)學(xué)家欲研究家庭狀況(自變量)對(duì)青少年犯罪(因變量)的影響。該地區(qū)有未犯罪記錄的青少年10000名,犯罪記錄的青少年150名。如果從未犯罪青少年中抽取百分之一,即100名進(jìn)行研究,則用相同比例從犯罪青少年中抽取的樣本量?jī)H為1.5人。顯然,這樣少的數(shù)量無(wú)法滿足對(duì)比研究的需要。因此,對(duì)犯罪青少年的抽樣比要擴(kuò)大,譬如擴(kuò)大到二分之一,即抽取75人。假定從兩個(gè)樣本調(diào)查所獲得的數(shù)據(jù)如表9-13所示。49§9.4.1條件百分表的方向

表9-13家庭狀況與青少年犯罪50§9.4.1條件百分表的方向表9-13是調(diào)查結(jié)果的條件分布。由表9-13可以計(jì)算其條件百分表,如表9-14表9-14家庭狀況與青少年犯罪百分表51§9.4.1條件百分表的方向表9-14分析

表9-14中得到的顯示是,在完整家庭接受調(diào)查的130人中,犯罪青少年所占的比例是29%。其實(shí),這個(gè)比例是歪曲的,這是由于抽樣時(shí)擴(kuò)大了對(duì)犯罪青少年抽取的數(shù)量。如果把計(jì)算百分表的方向變換一下,改為按因變量方向計(jì)算,則得到表9-1552§9.4.1條件百分表的方向

表9-15家庭狀況與青少年犯罪百分表53§9.4.1條件百分表的方向表9-15分析在完整家庭中,未犯罪青少年的比例占到92%,而在離異家庭中,這個(gè)比例僅為8%。完整家庭的青少年未犯罪率遠(yuǎn)遠(yuǎn)高于離異家庭的這個(gè)比例。家庭狀況對(duì)青少年行為的影響得到了比較真實(shí)的反映。54§9.4.2分布的期望值準(zhǔn)則用

分布進(jìn)行獨(dú)立性檢驗(yàn),要求樣本容量必須足夠大,特別是每個(gè)單元中的期望頻數(shù)(理論頻數(shù))不能過(guò)于小,否則應(yīng)用

檢驗(yàn)可能會(huì)得出錯(cuò)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論