版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
8.3列聯(lián)表與獨立性檢驗1.分類變量在現(xiàn)實生活中,人們經(jīng)常需要回答一定范圍內(nèi)的兩種現(xiàn)象或性質(zhì)之間
是否存在關(guān)聯(lián)性或互相影響的問題.例如:就讀不同學(xué)校是否對學(xué)生的成績有影響,不同班級學(xué)生用于體育鍛煉的時間是否存在區(qū)別,吸煙是否會增加患肺癌的風(fēng)險等。在討論上述問題時,為了表述方便,
我們經(jīng)常會使用一種特殊的隨機(jī)變量,
以區(qū)別
不同的現(xiàn)象或性質(zhì)
,
這類隨機(jī)變量稱為分類變量.分類變量:用實數(shù)表示不同的現(xiàn)象或性質(zhì).如:班級:1、2、3,
男生、女生:0、1.本節(jié)主要討論取值于{0,1}的分類變量的關(guān)聯(lián)性問題1:為了有針對性地提高學(xué)生體育鍛煉的積極性,某中學(xué)需要了解性別因素是否對本校學(xué)生體育鍛煉的經(jīng)常性有影響,為此對學(xué)生是否經(jīng)常鍛煉的情況進(jìn)行了普查.全校生
的普查數(shù)據(jù)如下:523名女生中有331名經(jīng)常鍛煉,601名男生中有473名經(jīng)常鍛煉.你能利
用這些數(shù)據(jù),說明該校女生和男生在體育鍛煉的經(jīng)常性方面是否存在差異嗎?解1:比較經(jīng)常鍛煉的學(xué)生在女生和男中的比率.f0
=
經(jīng)常
生數(shù),f1
=
經(jīng)常
生數(shù).
≈
0.633,f1
=
≈
0.787.
f1
0
=
0.787-0.633=0.
154.男生經(jīng)常鍛煉的比率比女生高出15.4個百分點,所以該校的女生和男生在體育鍛
煉的經(jīng)常性方面有差異,而且男生更經(jīng)常鍛煉.男生總數(shù)鍛煉的男女生總數(shù)鍛煉的女若性別對體育鍛煉的經(jīng)常性沒有影響,可描述為
P
(Y
=
1
X
=
0)
=
P(Y
=
1
X
=
1)若性別對體育鍛煉的經(jīng)常性有影響,可描述為
P
(Y=1X=0)
≠P(Y=1X=1)性別鍛煉合計不經(jīng)常(Y
=0)經(jīng)常(Y
=1)女生(X
=0)192331523男生(X
=1)128473601合計3208041124P(Y
=
1X
=
1)>P(Y
=
1X
=
0)[0,該生不經(jīng)常鍛煉,Y
=
{0,該生為女生,1,該生為男生,,解2:
對于Ω中的每一名學(xué)生,分別令∴性別對體育鍛煉的經(jīng)常性有影響l1
,該生經(jīng)常鍛煉,[X
=
{lXY合計Y
=0Y=1X
=0aba+bX=1cdc+d合計a+cb
+dn
=a+b
+c+d2.2×2列聯(lián)表的概念分類變量X和Y的抽樣數(shù)據(jù)的2×2列聯(lián)表2×2列聯(lián)表給出成對分類變量數(shù)據(jù)的交叉分類頻數(shù)例1.為比較甲、乙兩所學(xué)校學(xué)生的數(shù)學(xué)水平,采用簡單隨機(jī)抽樣的方法抽取88名學(xué)生.通過測驗得到了如下數(shù)據(jù):甲校43名學(xué)生中有10名數(shù)學(xué)成績優(yōu)秀;乙校45名學(xué)生中有7名
數(shù)學(xué)成績優(yōu)秀.試分析兩校學(xué)生中數(shù)學(xué)成績優(yōu)秀率之間是否存在差異.解:用Ω表示兩所學(xué)校的全體學(xué)生構(gòu)成的集合.考慮以Ω為樣本空間的古典概型.對
于Ω中每一名學(xué)生,定義分類變量X和Y如下:因此,甲校學(xué)生中數(shù)學(xué)成績不優(yōu)秀和數(shù)學(xué)成績優(yōu)秀的頻率分別為
≈
0.7674,
≈
0.2326.乙校學(xué)生中數(shù)學(xué)成績不優(yōu)秀和數(shù)學(xué)成績優(yōu)秀的頻率分別為
≈
0.8444,
≈
0.
1556.學(xué)校數(shù)學(xué)成績合計不優(yōu)秀
Y=優(yōu)
=甲校
(乙校(X
1)387合計7117[0,
該生數(shù)學(xué)成績不優(yōu)秀,Y
=
{0,
該生來
自
甲校,1,該生來
自
乙校,,l
1
,該生數(shù)學(xué)成績優(yōu)秀,[X
={l兩個分類變量之間關(guān)聯(lián)關(guān)系的定性分析的方法:(1)頻率分析法:通過對樣本的每個分類變量的不同類別事件發(fā)生的頻
率大小進(jìn)行比較來分析分類變量之間是否有關(guān)聯(lián)關(guān)系.(2)圖形分析法:與表格相比,圖形更能直觀地反映出兩個分類變量間是
否互相影響,常用等高堆積條形圖展示列聯(lián)表數(shù)據(jù)的頻率特征.你認(rèn)為“兩校學(xué)生的數(shù)學(xué)成績優(yōu)秀率存在差異”這一結(jié)論是否有可能是錯誤的?有可能“兩校學(xué)生的數(shù)學(xué)成績優(yōu)秀率存在差異
”這個結(jié)論是根據(jù)兩個頻率間存在差異推斷出
來的.有可能出現(xiàn)這種情況:在隨機(jī)抽取的這個樣本中,兩個頻率間確實存在差異,但
兩校學(xué)生的數(shù)學(xué)成績優(yōu)秀率實際上是沒有差別的.對于隨機(jī)樣本而言,因為頻率具有隨
機(jī)性,頻率與概率之間存在誤差,所以我們的推斷可能犯錯誤,而且在樣本容量較小時,
犯錯誤的可能性會較大.因此,需要找到一種更為合理的推斷方法,
同時也希望能對出
現(xiàn)錯誤推斷的概率有一定的控制或估算.獨立性檢驗方法假定我們通過簡單隨機(jī)抽樣得到了X和Y的抽樣數(shù)據(jù)列聯(lián)表,如果零假設(shè)H0成立,則應(yīng)滿足
≈
,
即ad-bc≈0.因此在列聯(lián)表中|ad-bc|越小,說明兩個分類變量之間關(guān)系越弱
;
|ad-bc|越大,說明兩個分類變量之間關(guān)系越強.為了使不同樣本容量的數(shù)據(jù)有統(tǒng)一的評判標(biāo)準(zhǔn)
基于上述分析我們構(gòu)造一個隨機(jī)變量
用χ2取值的大小作為判斷零假設(shè)H0是否成立的依據(jù),當(dāng)它比較大時推斷H0不成
立,否則認(rèn)為H0成立。這種利用χ2
的取值推斷分類變量X和Y是否獨立的方法稱為χ2
獨立性檢驗,讀作“卡方獨立性檢驗
”,簡稱獨立性檢驗(test
of
independence).3.獨立性檢驗公式及定義提出零假設(shè)(原假設(shè))H0
:分類變量X和Y獨立4.臨界值的定義對于任何小概率值α
,
可以找到相應(yīng)的正實數(shù)xα
,
使得P(x≥xα)=α成立,我們稱xα
為
α
的臨界值,這個臨界值可作為判斷χ2大小的標(biāo)準(zhǔn),概率值α越小,臨界值xα越大.χ2獨立性檢驗中幾個常用的小概率值和相應(yīng)的臨界值.基于小概率值
α
的檢驗規(guī)則:當(dāng)
χ2
≥x
α
時,我們就推斷H0不成立,即認(rèn)為X和Y不獨立,該推斷犯錯誤的概率不超過α
,
即大約有(1-α)
的可能性認(rèn)為X和Y有關(guān)系;當(dāng)
χ2
<x
α
時,我們沒有充分證據(jù)推斷H0不成立,可以認(rèn)為X和Y獨立.0.10.050.010.0050.001xα2.7063.8416.6357.87910.828例2
某兒童醫(yī)院用甲、乙兩種療法治療小兒消化不良.采用有放回簡單隨機(jī)抽樣的方法對治療情況進(jìn)行檢查,得到了如下數(shù)據(jù):抽到接受甲種療法的患兒67名,其中未治愈
15名,治愈52名;抽到接受乙種療法的患兒69名,其中未治愈6名,治愈63名.試根據(jù)小概
率值α=0.005的獨立性檢驗,分析乙種療法的效果是否比甲種療法好.解:零假設(shè)為H0:療法與療效獨立,即兩種療法效果沒有差異.將所給數(shù)據(jù)進(jìn)行整理,得到兩種療法治療數(shù)據(jù)的列聯(lián)表,療法療效合計未治愈治愈甲155267乙66369合計21115136沒有充分證據(jù)推斷H0不成立,
因此可以認(rèn)為
H0成立,即認(rèn)為
兩種療法效果沒有差異.α0.10.050.010.0050.001xα2.7063.8416.6357.87910.828
0.00152,60則當(dāng)m取下面何值時,X與Y的關(guān)系最弱A.8
B.9
√C.14
D.19解析由10×26≈18m
,解得m
≈14.4
,所以當(dāng)m
=14時,X與Y的關(guān)系最弱.y1y2x11018x2m26在列聯(lián)表中|ad-bc|越小,說明兩個分類變量之間關(guān)系越弱
;
|ad-bc|越大,
說明兩個分類變量之間關(guān)系越強.3.假設(shè)有兩個分類變量X與Y,它們的可能取值分別為{x1
,x2}和{y1,y2},其2×2列聯(lián)表為XY合計Y
=0Y=1X
=0aba+bX=1cdc+d合計a+cb
+dn
=a+b
+c+d因為|ad-bc|的值越大,兩個分類變量有關(guān)系的可能性就越大,故選A.5.在2×2列聯(lián)表中,兩個比值相差越大
,
兩個分類變量有關(guān)系的可能性就越大
,那么這兩個比值為
√6.(1)為了判定兩個分類變量X和Y是否有關(guān)系,應(yīng)用獨立性檢驗法算的χ2為5.003
,又已知P(χ2
≥3.841)
=0.05
,P(χ2
≥6.635)
=0.01
,則下列說法正確的是
(
)√A.在犯錯誤的概率不超過5%的前提下,認(rèn)為“X和Y有關(guān)系
”B.在犯錯誤的概率不超過5%的前提下,認(rèn)為“X和Y沒有關(guān)系
”C.依據(jù)小概率值α
=0.01的獨立性檢驗,認(rèn)為“X和Y有關(guān)系
”D.依據(jù)小概率值α
=0.01的獨立性檢驗,認(rèn)為“X和Y沒有關(guān)系
”解:
∵
3.841
=x0.05<χ2
=5.003<6.635
=x0.01
,又P(χ2
≥3.841)
=0.05,:依據(jù)小概率值α
=0.05的獨立性檢驗,在犯錯誤的概率不超過5%的前提
下,即大約95%的可能性認(rèn)為“X和Y有關(guān)系
”.xαα0.10.050.010.0050.0012.7063.8416.6357.87910.828(2)有關(guān)獨立性檢驗的四個命題,其中不正確的是
(
)A.兩個變量的2×2列聯(lián)表中,對角線上數(shù)據(jù)的乘積之差的絕對值越大,說明兩個變量有關(guān)系成立的可能性就越大B.對分類變量X與Y的隨機(jī)變量χ2來說,χ2越小,認(rèn)為“X與Y有關(guān)系
”的犯錯誤的概率越大√C.由獨立性檢驗可知:在犯錯誤的概率不超過5%的前提下,認(rèn)為禿頂與患心臟病有關(guān),我們說某人禿頂,那么他有95%的可能患有心臟病D.依據(jù)小概率值α
=0.01的獨立性檢驗,認(rèn)為吸煙與患肺癌有關(guān),是指在犯錯誤的概
率不超過1%的前提下,即大約有99%的可能性認(rèn)為吸煙與患肺癌有關(guān)√
√xαα0.10.050.010.0050.0012.7063.8416.6357.87910.828解析由題意可知
a>5
,且15-a>5
,a∈Z,8.(多選)針對時下的“抖音熱
”,某校團(tuán)委對“學(xué)生性別和喜歡抖音是否有關(guān)
”作了一次調(diào)查,其中被調(diào)查的男女生人數(shù)相同,男生喜歡抖音的人數(shù)占男生人數(shù)的
,女生喜歡抖音
的人數(shù)占女生人數(shù)的
,若在犯錯誤的概率不超過5%的前提下,認(rèn)為是否喜歡抖音和性別
有關(guān),則調(diào)查人數(shù)中男生可能有(
)人A.25
√B.45
√C.60
D.75解析設(shè)男生的人數(shù)為5n(n
∈N*)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 設(shè)備結(jié)構(gòu)設(shè)計培訓(xùn)課件教學(xué)
- 設(shè)備管道安裝培訓(xùn)課件
- 防雷接地培訓(xùn)課件
- 小滿節(jié)氣的文化探索
- 2026年電工技術(shù)中級理論與實踐筆試模擬題
- 2026年預(yù)測模擬試題庫AI從業(yè)者技能檢驗
- 心理健康知識普及2026年心理調(diào)適能力測試題
- 2026年軟件定義網(wǎng)絡(luò)SDN的面試問題探討
- 2026年證券從業(yè)資格認(rèn)證筆試練習(xí)題
- 2026年網(wǎng)絡(luò)安全知識及應(yīng)急響應(yīng)題集
- 工程勘探與設(shè)計報告范文模板
- 【數(shù)學(xué)】2025-2026學(xué)年人教版七年級上冊數(shù)學(xué)壓軸題訓(xùn)練
- 產(chǎn)品銷售團(tuán)隊外包協(xié)議書
- 汽車充電站安全知識培訓(xùn)課件
- 民航招飛pat測試題目及答案
- 2026年鄭州鐵路職業(yè)技術(shù)學(xué)院單招職業(yè)傾向性考試題庫及參考答案詳解
- DB35-T 2278-2025 醫(yī)療保障監(jiān)測統(tǒng)計指標(biāo)規(guī)范
- 長沙股權(quán)激勵協(xié)議書
- 心源性腦卒中的防治課件
- GB/T 46561-2025能源管理體系能源管理體系審核及認(rèn)證機(jī)構(gòu)要求
- GB/T 32483.3-2025光源控制裝置的效率要求第3部分:鹵鎢燈和LED光源控制裝置控制裝置效率的測量方法
評論
0/150
提交評論