高中數(shù)學《分類變量與列聯(lián)表》教案、導學案與同步練習_第1頁
高中數(shù)學《分類變量與列聯(lián)表》教案、導學案與同步練習_第2頁
高中數(shù)學《分類變量與列聯(lián)表》教案、導學案與同步練習_第3頁
高中數(shù)學《分類變量與列聯(lián)表》教案、導學案與同步練習_第4頁
高中數(shù)學《分類變量與列聯(lián)表》教案、導學案與同步練習_第5頁
已閱讀5頁,還剩64頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

《8.3分類變量與列聯(lián)表》教案

【教材分析】

本節(jié)課選自《2019人教A版高中數(shù)學選擇性必修第三冊》,第七章《隨機變量及其分布

列》,本節(jié)課主本節(jié)課主要學習分類變量與列聯(lián)表

學生前面已經(jīng)學習了基本獲取樣本數(shù)據(jù)的方法,從樣本數(shù)據(jù)中提取信息的方法,也掌握了

相互獨立事件的概率計算,獨立性檢驗是進一步分析兩個分類變量之間是否有關系,是高

中數(shù)學知識中體現(xiàn)統(tǒng)計思想的重要課節(jié)。學習重點應放在獨立性檢驗的統(tǒng)計學原理上,理

解獨立性檢驗的基本思想,明確獨立性檢驗的基本步驟。課堂趣味性較強,充分體現(xiàn)了數(shù)

學在實際生活中的應用,對于提高學生應用意識和數(shù)學建模思想有重要意義。

【教學目標與核心素養(yǎng)】

課程目標學科素養(yǎng)

A.通過對典型案例的探究,了解獨立性檢驗(只1.數(shù)學抽象:從特殊實例到一般原理

要求2X2列聯(lián)表)的基本思想、方法2.邏輯推理:獨立性檢驗的思想方法

及初步應用.3.數(shù)學運算:獨立檢驗的運用

B.通過對數(shù)據(jù)的收集、整理和分析,增強學生的4.數(shù)學建模:模型化思想

社會實踐能力,培養(yǎng)學生分析問題、

解決問題的能力.

【重點與難點】

重點:了解獨立性檢驗(只要求2X2列聯(lián)表)的應用.

難點:獨立性檢驗(只要求2X2列聯(lián)表)的基本思想、方法

【教學過程】

教學過程教學設計

一、問題導學

前面兩節(jié)所討論的變量,如人的身高、樹的胸徑、樹的高度、短跑100m世

界紀錄和創(chuàng)紀錄的時間等,都是數(shù)值變量,數(shù)值變量的取值為實數(shù).其大小

和運算都有實際含義.

在現(xiàn)實生活中,人們經(jīng)常需要回答一定范圍內的兩種現(xiàn)象或性質之間是否

存在關聯(lián)性或相互影響的問題.例如,就讀不同學校是否對學生的成績有影

響,不同班級學生用于體育鍛煉的時間是否有差別,吸煙是否會增加患肺癌

的風險,等等,本節(jié)將要學習的獨立性檢驗方法為我們提供了解決這類問題

的方案。

在討論上述問題時,為了表述方便,我們經(jīng)常會使用一種特殊的隨機變量,

以區(qū)別不同的現(xiàn)象或性質,這類隨機變量稱為分類變量.分類變量的取值可

以用實數(shù)表示,例如,學生所在的班級可以用1,2,3等表示,男性、女性可

以用1,0表示,等等.在很多時候,這些數(shù)值只作為編號使用,并沒有通常的

大小和運算意義,本節(jié)我們主要討論取值于{0,1}的分類變量的關聯(lián)性問

題.

二、探究新知

問題1.為了有針對性地提高學生體育鍛煉的積極性,某中學需要了解性

別因素是否對本校學生體育鍛煉的經(jīng)常性有影響,為此對學生是否經(jīng)常鍛通過具體的問題

煉的情況進行了普查,全校學生的普查數(shù)據(jù)如下:523名女生中有331名經(jīng)情境,引發(fā)學生

常鍛煉;601名男生中有473名經(jīng)常鍛煉。你能利用這些數(shù)據(jù),說明該校女思考積極參與互

生和男生在體育鍛煉的經(jīng)常性方面是否存在差異嗎?動,說出自己見

這是一個簡單的統(tǒng)計問題,最直接的解答方法是,比較經(jīng)常鍛煉的學生在女解。從而分類變

生和男生中的比率,為了方便,我們設分-經(jīng)常饕瞿生數(shù),/-經(jīng)?;酆谏鷶?shù)量獨立性檢驗的

概念,發(fā)展學生

那么,只要求出f和f的值,通過比較這兩個值的大小,就可以知道女生和

01

邏輯推理、數(shù)學

男生在鍛煉的經(jīng)常性方面是否有差異,由所給的數(shù)據(jù),經(jīng)計算得到

運算、數(shù)學抽象

/=|||^0.633,/\=器工0.787.由f「f°?0.787-0.633=0.154可知,男

0和數(shù)學建模的核

生經(jīng)常鍛煉的比率比女生高出15.4個百分點.心素養(yǎng)。

所以該校的女生和男生在體育鍛等的經(jīng)常性方面有差異,而且男生更經(jīng)常

鍛煉.

用n表示該校全體學生構成的集合,這是我們所關心的對象的總體,考慮以

n為樣本空間的古典概型,并定義一對分類變量X和Y如下:對于Q中的

每一名學生,

0,該生為女生)_[0,該生不經(jīng)常鍛煉)

分別令X=.1,該生為男生J,=11,該生經(jīng)常鍛煉)

“性別對體育鍛煉的經(jīng)常性沒有影響”可以描述為

P(Y=1|X=O)=P(Y=1|X=1);

“性別對體育鍛煉的經(jīng)常性有影響”可以描述為

P(Y=1|X=O)^P(Y=1|X=1).

我們希望通過比較條件概率P(Y=1|X=0)和P(Y=11X=1)回答上面的問題.按

照條件本概率的直觀解釋,

如果從該校女生和男生中各隨機選取一名學生,那么該女生屬于經(jīng)常鍛煉

群體的概率是P(Y=1|X=O),

而該男生屬于經(jīng)常鍛煉群體的概率是P(Y=1|X=1).

為了清楚起見,我們用表格整理數(shù)據(jù)

鍛煉

性別合計

不經(jīng)常(Y=0)經(jīng)常(Y=l)

女生(X=0)192331523

男生(X=D128473601

合計3208041124

我們用{X=0,Y=l}表示事件{X=0}和{Y=l)的積事件,用{X=l,Y=l}表示事件

{X=l}和{Y=l}的積事件,根據(jù)古典概型和條件概率的計算公式,我們有

P(Y=l|X=0)=n(X=°-r=1)=—^0.633;P(Y=]]X=D=n(x=g)=a().787

n(X=O)523n(X=l)601

由P(Y=1|X=1)>P(Y=1|X=O)

可以作出判斷,在該校的學生中,性別對體育鍛煉的經(jīng)常性有影響,即該校

的女生和男生在體育鍛煉的經(jīng)常性方面存在差異,而且男生更經(jīng)常鍛煉。

在實踐中,由于保存原始數(shù)據(jù)的成本較高,人們經(jīng)常按研究問題的需要,將

數(shù)據(jù)分類統(tǒng)計,并做成表格加以保存,我們將下表這種形式的數(shù)據(jù)統(tǒng)計表稱

為2X2列聯(lián)表(contingencytable).

2X2列聯(lián)表給出了成對分類變量數(shù)據(jù)的交叉分類頻數(shù),以右表為例,它包

含了X和Y的如下信息:

最后一行的前兩個數(shù)分別是事件{Y=0}和{Y=l}中樣本點的個數(shù);

最后一列的前兩個數(shù)分別是事件{X=0}和{X=l}中樣本點的個數(shù);

中間的四個格中的數(shù)是表格的核心部分,給出了事件{X=x,Y=y}(x,y=0,1)

中樣本點的個數(shù);

右下角格中的數(shù)是樣本空間中樣本點的總數(shù)。

鍛煉

性別合計

不經(jīng)常(Y=0)經(jīng)常(Y=l)

女生(X=0)192331523

男生(X=l)128473601

合計3208041124

三典例解析

例1.為比較甲、乙兩所學校學生的數(shù)學水平,采用簡單隨機抽樣的方法抽

取88名學生.通過測驗得到了如下數(shù)據(jù):甲校43名學生中有10名數(shù)學成

通過問題分析,

績優(yōu)秀;乙校45名學生中有7名數(shù)學成績優(yōu)秀,試分析兩校學生中數(shù)學成

讓學生理解運獨

績優(yōu)秀率之間是否存在差異.

立性檢驗的統(tǒng)計

解:用Q表示兩所學校的全體學生構成的集合.考慮以Q為樣本空間的古

學原理。發(fā)展學

典概型.對于Q中每一名學生,定義分類變量X和Y如下:X=

生邏輯推理,直

(0,該生來自甲校'\該生數(shù)學成績不優(yōu)秀]

(1,該生來自乙校,卜11,該生數(shù)學成績優(yōu)秀/觀想象、數(shù)學抽

象和數(shù)學運算的

我們將

核心素養(yǎng)。

學校數(shù)學成績合計所給數(shù)

不優(yōu)秀(Y=o)優(yōu)秀(Y=l)據(jù)整理

成表

甲校(x=0)331043

(單

乙校(X=l)38745位:

合計711788人)

表是關

于分類變量X和Y的抽樣數(shù)據(jù)的2X2列聯(lián)表:最后一行的前兩個數(shù)分別是

事件(Y=0)和(Y=l)的頻數(shù);最后一列的前兩個數(shù)分別是事件(X=0)和(X=l)

的頻數(shù);中間的四個格中的數(shù)是事件(X=x,Y=y)(x,y=0,1)的頻數(shù);

甲校學生中數(shù)學成績不優(yōu)秀和數(shù)學成績優(yōu)秀的頻率分別為稱心0.7674和

詈《0.2326;

乙校學生中數(shù)學成績不優(yōu)秀和數(shù)學成績優(yōu)秀的頻率分別為駕Q0.8444和

45

—0.1556

45

我們可以用等高堆積條形圖直觀地展示上述計算結果,如圖所示

左邊的藍色和紅色條的高度分別是甲校學生中數(shù)學成績不優(yōu)秀和數(shù)學成績

優(yōu)秀的頻率;右邊的藍色和紅色條的高度分別是乙校學生中數(shù)學成績不優(yōu)

秀和數(shù)學成績優(yōu)秀的頻率,通過比較發(fā)現(xiàn),兩個學校學生抽樣數(shù)據(jù)中數(shù)學成

績優(yōu)秀的頻率存在差異,甲校的頻率明顯高于乙校的頻率,依據(jù)頻率穩(wěn)定于

概率的原理,我們可以推斷P(Y=11X=0)>P(Y=lIX=l).

也就是說,如果從甲校和乙校各隨機選取一名學生,那么甲校學生數(shù)學成績

優(yōu)秀的概率大于乙校學生數(shù)學成績優(yōu)秀的概率,因此,可以認為兩校學生的

數(shù)學成績優(yōu)秀率存在差異,甲校學生的數(shù)學成績優(yōu)秀率比乙校學生的高。

學校數(shù)學成績合計

不優(yōu)秀(Y=0)優(yōu)秀(Y=l)

甲校(x=o)331043

乙校(X=l)38745

合計711788

2.兩個分類變量之間關聯(lián)關系的定性分析的方法:

(1)頻率分析法:通過對樣本的每個分類變量的不同類別事件發(fā)生的頻率

大小進行比較來分析分類變量之間是否有關聯(lián)關系.如可以通過列聯(lián)表中

唉與三值的大小粗略地判斷分類變量x和Y之間有無關系.一般其值相

a+bc+d

差越大,分類變量有關系的可能性越大.

(2)圖形分析法:與表格相比,圖形更能直觀地反映出兩個分類變量間

是否互相影響,常用等高堆積條形圖展示列聯(lián)表數(shù)據(jù)的頻率特征.將列聯(lián)

表中的數(shù)據(jù)用高度相同的兩個條形圖表示出來,其中兩列的數(shù)據(jù)分別對應

不同的顏色,這就是等高堆積條形圖.

等高堆積條形圖可以展示列聯(lián)表數(shù)據(jù)的頻率特征,能夠直觀地反映出兩個

分類變量間是否相互影響.

問題2.你認為“兩校學生的數(shù)學成績優(yōu)秀率存在差異”這一結論是否有

可能是錯誤的?

有可能

“兩校學生的數(shù)學成績優(yōu)秀率存在差異”這個結論是根據(jù)兩個頻率間存在

差異推斷出來的.有可能出現(xiàn)這種情況:在隨機抽取的這個樣本中,兩個

頻率間確實存在差異,但兩校學生的數(shù)學成績優(yōu)秀率實際上是沒有差別

的.對于隨機樣本而言,因為頻率具有隨機性,頻率與概率之間存在誤

差,所以我們的推斷可能犯錯誤,而且在樣本容量較小時,犯錯誤的可能

性會較大.因此,需要找到一種更為合理的推斷方法,同時也希望能對出

現(xiàn)錯誤推斷的概率有一定的控制或估算.

“兩校學生的數(shù)學成績優(yōu)秀率存在差異”這個結論是根據(jù)兩個頻率間存在

差異推斷出來的.有可能出現(xiàn)這種情況:在隨機抽取的這個樣本中,兩個

頻率間確實存在差異,但兩校學生的數(shù)學成績優(yōu)秀率實際上是沒有差別

的.對于隨機樣本而言,因為頻率具有隨機性,頻率與概率之間存在誤

差,所以我們的推斷可能犯錯誤,而且在樣本容量較小時,犯錯誤的可能

性會較大.因此,需要找到一種更為合理的推斷方法,同時也希望能對出

現(xiàn)錯誤推斷的概率有一定的控制或估算.

考慮以Q為樣本空間的古典概型,設X和Y為定義在Q上,取值于{0,1}通過具體的問題

的成對分類變量,我們希望判斷事件{X=l}和{Y=l}之間是否有關聯(lián)。注意情境中的分析,

至IJ{X=0}和{X=l},{Y=0}和{Y=l}都是互對立事件,與前面的討論類似,我們深化對獨立性檢

需要判斷下面的假定關系H:P(Y=11X=0)=P(Y=l|X=l)是否成立,通常稱H驗的理解。發(fā)展

00

學生邏輯推理,

為零假設或原假設(nullhypothesis).

直觀想象、數(shù)學

P(Y=11X=0)表示從{X=0}中隨機選取一個樣本點,該樣本點屬于{X=0,Y=l}

抽象和數(shù)學運算

的概率;

的核心素養(yǎng)。

P(Y=1|X=1)表示從{X=l}中隨機選取一個樣本點,該樣本點屬于{X=1,Y=1}

的概率。

由條件概率的定義可知,零假設H等價于受曰=

oP(X=0)P(X=1)

或P(X=0,Y=1)P(X=1)=P(X=l,Y=l)P(X=0).①

考慮以Q為樣本空間的古典概型,設X和Y為定義在Q上,取值于{0,1}

的成對分類變量,我們希望判斷事件{X=l)和{Y=l}之間是否有關聯(lián)。注意

至|J{X=O}和{X=l},{Y=0}和{Y=l}都是互對立事件,與前面的討論類似,我們

需要判斷下面的假定關系H:P(Y=1|X=O)=P(Y=1|X=1)是否成立,通常稱H

00

為零假設或原假設(nullhypothesis).P(Y=11X=0)表示從{X=0}中隨機選

取一個樣本點,該樣本點屬于{X=0,Y=l}的概率;

P(Y=1]X=1)表示從{X=D中隨機選取一個樣本點,該樣本點屬于{X=l,Y=l}

的概率。

由條件概率的定義可知,零假設H等價于受曰=

oP(X=0)P(X=1)

或P(X=0,Y=1)P(X=1)=P(X=1,Y=1)P(X=0).①

注意到(X=0)和(X=l)為對立事件,于是P(X=O)=1-P(X=1).

再由概率的性質,我們有P(X=O,Y=1)=P(Y=1)-P(X=1,Y=l).

由此推得①式等價于P(X=1)P(Y=1)=P(X=1,Y=1).

因此,零假設II等價于{X=l}與{Y=l}獨立。

0

根據(jù)已經(jīng)學過的概率知識,下面的四條性質彼此等價:

{X=0}與{Y=0}獨立;{X=0}與{Y=l}獨立;{X=l}與{Y=0}獨立;{X=l}與{Y=l}

獨立。

以上性質成立,我們就稱分類變量X和Y獨立,這相當于下面四個等式成

立;

P(X=O,Y=O)=P(X=O)P(Y=O);P(X=O,Y=1)=P(X=O)P(Y=1);

P(X=1,Y=O)=P(X=l)P(Y=O);P(X=1,Y=1)=P(X=1)P(Y=1).②

我們可以用概率語言,將零假設改述為H。:分類變量X和Y獨立.

假定我們通過簡單隨機抽樣得到了X和Y的抽樣數(shù)據(jù)列聯(lián)表,如下表所

示。

表是關于分類變量X和Y的抽樣數(shù)據(jù)的2X2列聯(lián)表:最后一行的前兩個數(shù)

分別是事件{Y=0}和{Y=l}的頻數(shù);最后一列的前兩個數(shù)分別是事件{X=0}和

{X=l}的頻數(shù);中間的四個數(shù)a,b,c,d是事件{X=x,Y=y}(x,y=0,1)的頻數(shù);

右下角格中的數(shù)n是樣本容量。

Y

X合計

Y=0Y=1

x=oaba+b

X=1cdc+d

合計a+cb+dn=a+b+c+d

問題3:如何基于②中的四個等式及列聯(lián)表中的數(shù)據(jù),構造適當?shù)慕y(tǒng)計量,

對成對分類變量X和Y是否相互獨立作出推斷?

在零假設H成立的條件下,根據(jù)頻率穩(wěn)定于概率的原理,由②中的第一個

0

等式,我們可以用概率P(X=O)和P(Y=O)對應的頻率的乘積S+嗎"0估計概

n

率P(X=O,Y=0),而把(a+嗎a+c)視為事件{X=O.Y=0}發(fā)生的頻數(shù)的期望值(或

n

預期值).

這樣,該頻數(shù)的觀測值a和期望值婦”—應該比較接近.

n

綜合②中的四個式子,如果零假設H。成立,下面四個量的取值都不應該太

大:

.(a+b)(a+c)(a+b)(b+d)?,(c+d)(a+c)(c+d)(b+d),

n?,*ni,ijni,in

③反之,當這些量的取值較大時,就可以推斷11不成立。

0

分別考慮③中的四個差的絕對值很困難,我們需要找到一個既合理又能夠

計算分布的統(tǒng)計量,來推斷H是否成立.

0

一般來說,若頻數(shù)的期望值較大,則③中相應的差的絕對值也會較大;而若

頻數(shù)的期望值較小,則③中相應的差的絕對值也會較小.

為了合理地平衡這種影響,我們將四個差的絕對值取平方后分別除以相應

的期望值再求和,得到如下的統(tǒng)計量:

/_(a+b)(a+c))2(,_(a+b)(b+d))2

X~(a+b)(a+c)(a+b)(b+d)

nn

(c_(c+d)(a+c))2m_(c+d)(b+?))2

+(c+d)(a+c)1(c+d)(b+d)

nn

2

該表達式可化簡為:x2=,八、m

(Q+b)(c+d)(a+c)(b+d)

統(tǒng)計學家建議,用隨機變量*2取值的大小作為判斷零假設H。是否成立的依

據(jù),當它比較大時推斷II。不成立,

否則認為H成立.

0

問題4:那么,究竟Jr2大到什么程度,可以推斷不成立呢?或者說,怎樣確

定判斷%2大小的標準呢?

根據(jù)小概率事件在一次試驗中不大可能發(fā)生的規(guī)律,可以通過確定一個與

H相矛盾的小概率事件來實現(xiàn),在假定H的條件下,對于有放回簡單隨機

00

抽樣,當樣本容量n充分大時,統(tǒng)計學家得到了12的近似分布,忽略*2的實

際分布與該近似分布的誤差后,對于任何小概率值a,可以找到相應的正

實數(shù)xa,

使得下面關系成立:P(122x)=a@

a

我們稱x為a的臨界值,這個臨界值就可作為判斷12大小的標準,概率

a

值a越小,臨界值x越大,當總體很大時,抽樣有、無放回對%2的分布影

a

響較小.因此,在應用中往往不嚴格要求抽樣必須是有放回的.

由④式可知,只要把概率值a取得充分小,在假設H成立的情況下,事件

0

不大可能發(fā)生的.根據(jù)這個規(guī)律,如果該事件發(fā)生,我們就可以推斷H。不

成立.不過這個推斷有可能犯錯誤,但犯錯誤的概率不會超過a.

獨立性檢驗公式及定義:

提出零假設(原假設)H0:分類變量X和Y獨立,假定我們通過簡單隨機抽

樣得到了X和Y的抽樣數(shù)據(jù)列聯(lián)表,在列聯(lián)表中,如果零假設H成立,

0

則應滿足二a三,即ad-bc?O.因此|ad-bc|越小,說明兩個分類變量

之間關系越弱;Iad-bc|越大,說明兩個分類變量之間關系越強.

為了使不同樣本容量的數(shù)據(jù)有統(tǒng)一的評判標準,基于上述分析,我們構造一

2

個隨機變量/=晨制工2

X"獨立性檢驗中幾個常用的小概率值和相應的臨界值.

Y

X合計

Y=0Y=1

x=oaba+b

X=1cdc+d

合計a+cb+dn=a+b+c+d

a0.10.050.010.0050.001

X2.7063.8416.6357.87910.858

a

臨界值的定義:

對于任何小概率值a,可以找到相應的正實數(shù)x,使得P(x.》x)=a

aa

成立,我們稱x為a的臨界值,這個臨界值可作為判斷X”大小的標

a

準,概率值a越小,臨界值x越大.

a

基于小概率值a的檢驗規(guī)則:

2

當X》x時,我們就推斷H不成立,即認為X和Y不獨立,該推斷犯錯

a0

誤的概率不超過a;

當x\x時,我們沒有充分證據(jù)推斷H不成立,可以認為X和Y獨立.

a0

用X2取值的大小作為判斷零假設H是否成立的依據(jù),當它比較大時推斷

0

2

II不成立,否則認為H成立。這種利用x的取值推斷分類變量X和丫是

00

通過典型例題的

否獨立的方法稱為X“獨立性檢驗,讀作“卡方獨立性檢驗”,簡稱獨立

分析解決,提升

性檢驗.學生對獨立性檢

X2獨立性檢驗中幾個常用的小概率值和相應的臨界值驗的理解和運

用。發(fā)展學生邏

輯推理,直觀想

a0.10.050.010.0050.001

象、數(shù)學抽象和

X2.7063.8416.6357.87910.858

a數(shù)學運算的核心

素養(yǎng)。

例2:依據(jù)小概率值a=0.1的f獨立性檢驗,分析例1中的抽樣數(shù)據(jù),能

否據(jù)此推斷兩校學生的數(shù)學成績優(yōu)秀率有差異?

解:零假設為勺分類變量X與Y相互獨立,即兩校學生的數(shù)學成績優(yōu)秀

率無差異.因為

學校數(shù)學成績合計

不優(yōu)秀(Y=0)優(yōu)秀(Y=l)

甲校(X=0)331043

乙校(X=l)38745

合計711788

“=88黑:就黑;)?

所以;10.837<2.706=xai

根據(jù)小概率值a=0.1的f獨立性檢驗,沒有充分證據(jù)推斷H。不成立,因

此可以認為H成立,即認為兩校的數(shù)學成績優(yōu)秀率沒有差異。

0

問題5.例1和例2都是基于同一組數(shù)據(jù)的分析,但卻得出了不同的結論,

你能說明其中的原因嗎?

例1只是根據(jù)一個樣本的兩個頻率間存在差異得出兩校學生數(shù)學成績優(yōu)秀

率有差異的結論,并沒有考慮由樣本隨機性可能導致的錯誤,所以那里的推

斷依據(jù)不太充分,在本例中,我們用獨立性檢驗對零假設H。進行了檢驗,

通過計算,發(fā)現(xiàn)f40.837小于a=0.1所對應的臨界值2.706,因此認為

沒有充分證據(jù)推斷H不成立,所以接受H,推斷出兩校學生的數(shù)學優(yōu)秀率

00

沒有顯著差異的結論,

這個檢驗結果意味著,抽樣數(shù)據(jù)中兩個頻率的差異很有可能是由樣本隨機

性導致的,因此,只根據(jù)頻率的差異得出兩校學生的數(shù)學成績優(yōu)秀率有差異

的結論是不可靠的。

由此可見,相對于簡單比較兩個頻率的推斷,用爐獨立性檢驗得到的結果

更理性、更全面,理論依據(jù)也更充分。

當我們接受零假設H。時,也可能犯錯誤。我們不知道犯這類錯誤的概率p

的大小,但是知道,若a越大,則p越小

例3.某兒童醫(yī)院用甲、乙兩種療法治療小兒消化不良.采用有放回簡單隨

機抽樣的方法對治療情況進行檢查,得到了如下數(shù)據(jù):抽到接受甲種療法

的患兒67名,其中未治愈15名,治愈52名;抽到接受乙種療法的患兒

69名,其中未治愈6名,治愈63名.試根據(jù)小概率值a=0.005的獨立性

檢驗,分析乙種療法的效果是否比甲種療法好.

解:零假設為H:療法與療效獨立,即兩種療法效果沒有差異.

0

將所給數(shù)據(jù)進行整理,得到兩種療法治療數(shù)據(jù)的列聯(lián)表,

療效

療法合計

未治愈治愈

甲155267

乙66369

合計21115136

根據(jù)列聯(lián)表中的數(shù)據(jù),經(jīng)計算得到/=<啜6:-52:6>2,4g81<

八67x69x21x115

7.879=xQ005

根據(jù)小概率值a=0.005的/獨立性檢驗,沒有充分證據(jù)推斷H。不成立,

因此可以認為H。成立,即認為兩種療法效果沒有差異.

療效

療法合計

未治愈治愈

甲155267

乙66369

合計21115136

136x(15x63-52x6)

X29=-----------------------------------------?4.881

“67x69x21x115

療效

療法合計

未治愈治愈

乙66369

甲155267

合計21115136

9136X(52x6-15x63)?

y2=-----------------------------------------?4.881

z69x67x21x115

療效

療法合計

治愈未治愈

甲521567

乙63669

合計11521136

136X(52x6-15x63)

Xo2=-----------------------------------------?4.881

A67x69x21x115

不影響

問題6.若對調兩種療法的位置或對調兩種療效的位置,這樣做會影響X?

取值的計算結果嗎?

例4.為了調查吸煙是否對肺癌有影響,某腫瘤研究所采取有放回簡單隨

機抽樣,調查了9965人,得到如下結果(單位:人)依據(jù)小概率值

a=0.001的獨立性檢驗,分析吸煙是否會增加患肺癌的風險。

肺癌

吸煙合計

非肺癌患者肺癌患者

非吸煙者7775427817

吸煙者2099492148

合計9874919965

解:零假設為H0:吸煙和患肺癌之間沒有關系根據(jù)列聯(lián)表中的數(shù)據(jù),經(jīng)計

算的根據(jù)小概率值a=0.001的獨立性檢驗,推斷H0不成立,即認為吸

煙與患肺癌有關聯(lián),此推斷犯錯誤的概率不大于0.001,即我們有99.9%

的把握認為“吸煙與患肺癌有關系”.

2

,9965x(7775x49-42x2099)

Y2=----------------------------------------------------?56.632>10,858

入7817x2148x9874x91

根據(jù)表中的數(shù)據(jù)計算不吸煙者中不患肺癌和患肺癌的頻率分別為

吸煙者中不患肺癌和患肺癌的評率分別為

—77—75^?0.9946,-4^??0.0054,9772,」40-#0.0228

7817781721482148

工0.0228,

由-------?4.2

0.0054

可見,在被調查者中,吸煙者患肺癌的頻率是不吸煙者患肺癌頻率的4倍

以上。于是,根據(jù)頻率穩(wěn)定于概率的原理,我們可以認為吸煙者患肺癌的

概率明顯大于不吸煙者患肺癌概率,即吸煙更容易引發(fā)肺癌。

應用獨立性檢驗解決實際問題大致應包括以下幾個主要環(huán)節(jié):

(1)提出零假設H0:X和Y相互獨立,并給出在問題中的解釋.

(2)根據(jù)抽樣數(shù)據(jù)整理出2X2列聯(lián)表,計算X?的值,并與臨界值Xa比

較.

(3)根據(jù)檢驗規(guī)則得出推斷結論.

(4)在X和Y不獨立的情況下,根據(jù)需要,通過比較相應的頻率,分析

X和Y間的影響規(guī)律.

注意:上述幾個環(huán)節(jié)的內容可以根據(jù)不同情況進行調整,

例如,在有些時候,分類變量的抽樣數(shù)據(jù)列聯(lián)表是問題中給定的.

20.500.400.250.150.100.050.0250.010.0050.001

P(x)

0

X)

0

X0.450.701.322.072.7063.8415.0246.637.87910.82

0

583258

歸納總結

跟蹤訓練1.某校對學生的課外活動進行調查,結果整理成下表:

體育文娛總計

男生212344

女生62935

總計275279

試用你所學過的知識分析:能否在犯錯誤的概率不超過0.005的前提下,

認為“喜歡體育還是文娛與性別有關系”?

解:Va=21,b=23,c=6,d=29,n=79,

,n(ad-bc)279X21X29-23X62

?2_____“9"?______------------------------------------------1AC

??vX=(a+b)(c+d)(a+c)(b+d),44X35X27X52

且P(X227.879)比0.005,

P(xNx0.500.400.250.150.100.050.0250.010.0050.001

)0

X0.450.701.322.072.7063.8415.0246.637.87910.82

0

583258

即我們得到的X?的觀測值x?8.106超過7.879這就意味著:“喜歡體育

還是文娛與性別沒有關系”這一結論成立的可能性小于0.005,即在犯錯

誤的概率不超過0.005的前提下認為“喜歡體育還是喜歡文娛與性別有

關.”

三、達標檢測

L給出下列實際問題:通過練習鞏固本

①一種藥物對某種病的治愈率;②兩種藥物治療同一種病是否有區(qū)別;節(jié)所學知識,通

③吸煙者得肺病的概率;④吸煙是否與性別有關系;過學生解決問

⑤網(wǎng)吧與青少年的犯罪是否有關系.其中用獨立性檢驗可以解決的問題有題,發(fā)展學生的

()數(shù)學運算、邏輯

A.①②③B.②④⑤C.②③④⑤D.①②③④推理、直觀想

⑤象、數(shù)學建模的

解析:獨立性檢驗是判斷兩個分類變量是否有關系的方法,而①③都是概率核心素養(yǎng)。

問題,不能用獨立性檢驗解決.

答案:B

2.某班主任對全班50名學生進行了作業(yè)量多少的調查,數(shù)據(jù)如下表:

下列敘述中,正確的是()

認為作業(yè)多認為作業(yè)不多總數(shù)

喜歡玩電腦游戲18927

不喜歡玩電腦游戲81523

總數(shù)262450

A.有99%的把握認為“喜歡玩電腦游戲與認為作業(yè)量的多少有關系”

B.有95%的把握認為“喜歡玩電腦游戲與認為作業(yè)量的多少無關系”

C.有99%的把握認為“喜歡玩電腦游戲與認為作業(yè)量的多少無關系”

D.有95%的把握認為“喜歡玩電腦游戲與認為作業(yè)量的多少有關系”

計算得X2=50X(18X158X9)2^5.059>3,841.

27X23X26X24

答案:D

3.某高校《統(tǒng)計》課程的教師隨機調查了選該課的一些學生情況,具體數(shù)

據(jù)如下表:

為了判斷主修統(tǒng)計專業(yè)是否與性別有關系,根據(jù)表中的數(shù)據(jù),得到

//'也

非統(tǒng)計專業(yè)統(tǒng)計專業(yè)

性別

男1310

女720

因為4.844>3.841,所以有__________的把握判定主修統(tǒng)計專業(yè)與性別有

關系.

2

XV0X(13X20-1QX7)^4844.

23X27X20X30

答案:95%

4.在500人身上試驗某種血清預防感冒作用,把他們一年中的感冒記錄與

另外500名未用血清的人的感冒記錄作比較,結果如表所示。問:該種血

清能否起到預防感冒的作用?

未感冒感冒’合計

使用血清258242500

未使用血清216284500

合計4745261000

解:設H:感冒與是否使用該血清沒有關系。

0

1000(258x284—242x216)2

29______________________________a7075

Ay474x526x500x500

因當H成立時,x’26.635的概率約為0.01,故有99%的把握認為該血

0

清能起到預防感冒的作用。

p(x0.500.400.250.150.100.050.025).0103.0050.(101

0

)

X0.4550.7081.3232.0722.7063.8415.0246.6357.87910.82

0

8

5.隨著工業(yè)化以及城市車輛的增加,城市的空氣污染越來越嚴重,空氣質量

指數(shù)API一直居高不下,對人體的呼吸系統(tǒng)造成了嚴重的影響.現(xiàn)調查了某

市500名居民的工作場所和呼吸系統(tǒng)健康情況,得到2X2列聯(lián)表如下:

室外工作室內工作總計

有呼吸系統(tǒng)疾病150

無呼吸系統(tǒng)疾病100

總計200

⑴補全2X2列聯(lián)表;

(2)能否在犯錯誤的概率不超過0.05的前提下認為感染呼吸系統(tǒng)疾病與工

作場所有關?

(3)現(xiàn)采用分層抽樣從室內工作的居民中抽取一個容量為6的樣本,將該樣

本看成一個總體,從中隨機地抽取兩人,求兩人都有呼吸系統(tǒng)疾病的概率.

解:(1)列聯(lián)表如下:

室外工作室內工作總計

有呼吸系統(tǒng)疾病150200350

無呼吸系統(tǒng)疾病50100150

總計200300500

所以能在犯錯誤的概率不超過0.05的前提下認為感染呼吸系統(tǒng)疾病與工

作場所有關.

25OOX(150x100-200x50)2

⑵x亡3.968>3.841.

350X150X200X300

(3)采用分層抽樣從室內工作的居民中抽取6名,其中有呼吸系統(tǒng)疾病的抽

4人,無呼吸系統(tǒng)疾病的抽2人,設A為“從中隨機地抽取兩人,兩人都有

呼吸系統(tǒng)疾病”,則

P(A)號.

二、小結

通過總結,讓學

獨生進一步鞏固本

性節(jié)所學內容,提

高概括能力。

【教學反思】

課后通過對教學過程的反思與研究,才能不斷完善教學設計中的不足,才能提升教材分析

的能力和課堂教學實效.

1.多元展示,多方評價.在教學過程中我借問題牽引,保證了課堂教學的順利實施;而在

整個過程中,我對學生所作練習、疑問及時解析評價;學生之間、小組之間的互相評價補

充,使學生共享成果分享喜悅,堅定了學好數(shù)學的信念,實現(xiàn)了預期目標.

2.創(chuàng)造性的使用教材.有別于教材,我在教學中,讓學生考察了分別考察了兩類題型之后

再引導學生進行歸納,這樣更貼近學生的認知水平,學生課后反饋,效果較為理想.

《8.3分類變量與列聯(lián)表》導學案

【學習目標】

1.通過對典型案例的探究,了解獨立性檢驗(只要求2X2列聯(lián)表)的基本思想、方法

及初步應用.

2.通過對數(shù)據(jù)的收集、整理和分析,增強學生的社會實踐能力,培養(yǎng)學生分析問題、

解決問題的能力.

【重點與難點】

重點:了解獨立性檢驗(只要求2X2列聯(lián)表)的應用.

難點:獨立性檢驗(只要求2X2列聯(lián)表)的基本思想、方法

【知識梳理】

1.分類變量

為了表述方便,我們經(jīng)常會使用一種特殊的隨機變量,以區(qū)別不同的現(xiàn)象或性質,這類隨機變

量稱為分類變量.分類變量的取值可以用實數(shù)表示,例如,學生所在的班級可以用1,2,3等表

示,男性、女性可以用1,0表示,等等.

2.2X2列聯(lián)表

表是關于分類變量X和Y的抽樣數(shù)據(jù)的2X2列聯(lián)表:最后一行的前兩個數(shù)分別是事件{Y=0}

和{Y=l}的頻數(shù);最后一列的前兩個數(shù)分別是事件{X=0}和{X=l}的頻數(shù);中間的四個數(shù)

a,b,c,d是事件{X=x,Y=y}(x,y=0,1)的頻數(shù);右下角格中的數(shù)n是樣本容量。

Y

X合計

Y=0Y=1

x=oaba+b

X=1cdc+d

合計a+cb+dn=a+b+c+d

3.兩個分類變量之間關聯(lián)關系的定性分析的方法:

(1)頻率分析法:通過對樣本的每個分類變量的不同類別事件發(fā)生的頻率大小進行比較來分

析分類變量之間是否有關聯(lián)關系.如可以通過列聯(lián)表中啖與三值的大小粗略地判斷分類變

a+bc+d

量X和Y之間有無關系.一般其值相差越大,分類變量有關系的可能性越大.

(2)圖形分析法:與表格相比,圖形更能直觀地反映出兩個分類變量間是否互相影響,

常用等高堆積條形圖展示列聯(lián)表數(shù)據(jù)的頻率特征.將列聯(lián)表中的數(shù)據(jù)用高度相同的兩個條形

圖表示出來,其中兩列的數(shù)據(jù)分別對應不同的顏色,這就是等高堆積條形圖.

等高堆積條形圖可以展示列聯(lián)表數(shù)據(jù)的頻率特征,能夠直觀地反映出兩個分類變量間是否

相互影響.

4.獨立性檢驗公式及定義:

提出零假設(原假設)H。:分類變量X和Y獨立,假定我們通過簡單隨機抽樣得到了X和Y的

抽樣數(shù)據(jù)列聯(lián)表,在列聯(lián)表中,如果零假設H。成立,則應滿足后,即ad-bc七。.因

此:ad-bc1越小,說明兩個分類變量之間關系越弱;|ad-bc|越大,說明兩個分類變量之間關

系越強.

為了使不同樣本容量的數(shù)據(jù)有統(tǒng)一的評判標準,基于上述分析,我們構造一個隨機變量X2=

2

n(ad-bc)

(a+b)(c+d)(a+c)(b+d)'

Y

X合計

Y=0Y=1

x=oaba+b

X=1cdc+d

合計a+cb+dn=a+b+c+d

5.臨界值的定義:

對于任何小概率值a,可以找到相應的正實數(shù)x,使得P(x-2x)=a成立,我們稱x

aaa

為a的臨界值,這個臨界值可作為判斷大小的標準,概率值a越小,臨界值x越大.

a

基于小概率值a的檢驗規(guī)則:

2

當x2x時,我們就推斷H不成立,即認為X和Y不獨立,該推斷犯錯誤的概率不超過

a0

a;

2

當x<X時,我們沒有充分證據(jù)推斷H不成立,可以認為X和Y獨立.

a0

2

用X取值的大小作為判斷零假設

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論