統(tǒng)計(jì)學(xué)9課件教學(xué)講義_第1頁(yè)
統(tǒng)計(jì)學(xué)9課件教學(xué)講義_第2頁(yè)
統(tǒng)計(jì)學(xué)9課件教學(xué)講義_第3頁(yè)
統(tǒng)計(jì)學(xué)9課件教學(xué)講義_第4頁(yè)
統(tǒng)計(jì)學(xué)9課件教學(xué)講義_第5頁(yè)
已閱讀5頁(yè),還剩36頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第九章方差分析

analysisofvariance,ANOVA√9.1方差分析引論√9.2單因素方差分析9.3方差分析中的多重比較9.4雙因素方差分析重點(diǎn):方差分析的概念、思路、步驟難點(diǎn):方差分析的思想、誤差平方和分解19.1方差分析引論1.方差分析及有關(guān)術(shù)語2.方差分析的基本思想和原理3.方差分析中的基本假定4.假設(shè)問題的一般提法29.1.1什么是方差分析(ANOVA)?

方差分析是通過檢驗(yàn)多個(gè)總體的均值是否相等來判斷分類型自變量對(duì)數(shù)值型因變量是否有顯著影響的統(tǒng)計(jì)方法。

有單因素方差分析和雙因素方差分析單因素方差分析:涉及一個(gè)分類的自變量雙因素方差分析:涉及兩個(gè)分類的自變量3什么是方差分析?(例題分析)消費(fèi)者對(duì)四個(gè)行業(yè)的投訴次數(shù)行業(yè)觀測(cè)值零售業(yè)旅游業(yè)航空公司家電制造業(yè)12345675766494034534468392945565131492134404451657758【例】為了對(duì)幾個(gè)行業(yè)的服務(wù)質(zhì)量進(jìn)行評(píng)價(jià),消費(fèi)者協(xié)會(huì)在四個(gè)行業(yè)分別抽取了不同的企業(yè)作為樣本。最近一年中消費(fèi)者對(duì)總共23家企業(yè)投訴的次數(shù)如下表一個(gè)分類變量4方差分析中的其他有關(guān)概念p3101.因素或因子(factor)所要檢驗(yàn)的對(duì)象要分析行業(yè)對(duì)投訴次數(shù)是否有影響,行業(yè)是要檢驗(yàn)的因素或因子2.水平或處理(treatment)因子的不同表現(xiàn)零售業(yè)、旅游業(yè)、航空公司、家電制造業(yè)就是因子的水平3.觀察值在每個(gè)因素水平下得到的樣本數(shù)據(jù)每個(gè)行業(yè)被投訴的次數(shù)就是觀察值64.試驗(yàn)這里只涉及一個(gè)因素,因此稱為單因素四水平的試驗(yàn)5.總體因素的每一個(gè)水平可以看作是一個(gè)總體比如零售業(yè)、旅游業(yè)、航空公司、家電制造業(yè)可以看作是四個(gè)總體6.樣本數(shù)據(jù)被投訴次數(shù)可以看作是從這四個(gè)總體中抽取的樣本數(shù)據(jù)79.1.2.方差分析的基本思想和原理零售業(yè)旅游業(yè)航空公司家電制造8從散點(diǎn)圖上可以看出不同行業(yè)被投訴的次數(shù)是有明顯差異的同一個(gè)行業(yè),不同企業(yè)被投訴的次數(shù)也明顯不同家電制造被投訴的次數(shù)較高,航空公司被投訴的次數(shù)較低行業(yè)與被投訴次數(shù)之間有一定的關(guān)系如果行業(yè)與被投訴次數(shù)之間沒有關(guān)系,那么它們被投訴的次數(shù)應(yīng)該差不多相同,在散點(diǎn)圖上所呈現(xiàn)的模式也就應(yīng)該很接近方差分析的基本思想和原理(圖形分析)93僅從散點(diǎn)圖上觀察還不能提供充分的證據(jù)證明不同行業(yè)被投訴的次數(shù)之間有顯著差異這種差異可能是由于抽樣的隨機(jī)性所造成的,也有可能是系統(tǒng)性影響因素造成的。4需要有更準(zhǔn)確的方法來檢驗(yàn)這種差異是否顯著,也就是進(jìn)行方差分析所以叫方差分析,因?yàn)殡m然我們感興趣的是均值,但在判斷均值之間是否有差異時(shí)則需要借助于方差這個(gè)名字也表示:它是通過對(duì)數(shù)據(jù)誤差來源的分析判斷不同總體的均值是否相等。因此,進(jìn)行方差分析時(shí),需要考察數(shù)據(jù)誤差的來源101. 比較兩類誤差(系統(tǒng)性誤差、隨機(jī)誤差),以檢驗(yàn)均值是否相等2. 比較的基礎(chǔ)是方差比3. 如果系統(tǒng)(處理)誤差明顯地不同于隨機(jī)誤差,則均值就是不相等的;反之,均值就是相等的4. 誤差是由各部分的誤差占總誤差的比例來測(cè)度的9.1.2方差分析的基本思想和原理11方差分析的基本思想和原理(兩類誤差)組內(nèi)誤差因素的同一水平(總體)下,樣本內(nèi)部各觀察值之間的差異比如,同一行業(yè)下不同企業(yè)被投訴次數(shù)是不同的這種差異可以看成是隨機(jī)因素的影響,是隨機(jī)誤差。組內(nèi)誤差只含有隨機(jī)誤差。組間誤差因素的不同水平(不同總體)下,各觀察值之間的差異比如,不同行業(yè)之間的被投訴次數(shù)之間的差異這種差異可能是由于抽樣的隨機(jī)性所造成的,也可能是由于行業(yè)本身所造成的,后者所形成的誤差是由系統(tǒng)性因素造成的,稱為系統(tǒng)誤差。12方差分析的基本思想和原理(兩類誤差)數(shù)據(jù)的誤差用平方和(sumofsquares)表示SS反映組內(nèi)誤差大小的平方和稱為組內(nèi)平方和,記為SSE反映組間誤差大小的平方和稱為組間平方和,記為SSA反映全部數(shù)據(jù)誤差大小的平方和稱為總平方和,記為SST13方差分析的基本思想和原理(方差的比較)若不同行業(yè)對(duì)投訴次數(shù)沒有影響,則組間誤差中只包含隨機(jī)誤差,沒有系統(tǒng)誤差。這時(shí),組間誤差與組內(nèi)誤差經(jīng)過平均后的數(shù)值就應(yīng)該很接近,它們的比值就會(huì)接近1若不同行業(yè)對(duì)投訴次數(shù)有影響,在組間誤差中除了包含隨機(jī)誤差外,還會(huì)包含有系統(tǒng)誤差,這時(shí)組間誤差平均后的數(shù)值就會(huì)大于組內(nèi)誤差平均后的數(shù)值,它們之間的比值就會(huì)大于1當(dāng)這個(gè)比值大到某種程度時(shí),就可以說不同水平之間存在著顯著差異,也就是自變量對(duì)因變量有影響判斷行業(yè)對(duì)投訴次數(shù)是否有顯著影響,實(shí)際上也就是檢驗(yàn)被投訴次數(shù)的差異主要是由于什么原因所引起的。如果這種差異主要是系統(tǒng)誤差,說明不同行業(yè)對(duì)投訴次數(shù)有顯著影響149.1.3方差分析的基本假定

每個(gè)總體都應(yīng)服從正態(tài)分布對(duì)于因素的每一個(gè)水平,其觀察值是來自服從正態(tài)分布總體的簡(jiǎn)單隨機(jī)樣本比如,每個(gè)行業(yè)被投訴的次數(shù)必需服從正態(tài)分布各個(gè)總體的方差必須相同各組觀察數(shù)據(jù)是從具有相同方差的總體中抽取的比如,四個(gè)行業(yè)被投訴次數(shù)的方差都相等觀察值是獨(dú)立的比如,每個(gè)行業(yè)被投訴的次數(shù)與其他行業(yè)被投訴的次數(shù)獨(dú)立15方差分析中的基本假定在上述假定條件下,判斷行業(yè)對(duì)投訴次數(shù)是否有顯著影響,實(shí)際上也就是檢驗(yàn)具有同方差的四個(gè)正態(tài)總體的均值是否相等如果四個(gè)總體的均值相等,可以期望四個(gè)樣本的均值也會(huì)很接近四個(gè)樣本的均值越接近,推斷四個(gè)總體均值相等的證據(jù)也就越充分樣本均值越不同,推斷總體均值不同的證據(jù)就越充分16方差分析中基本假定

如果原假設(shè)成立,即H0:

m1=m2=m3=m4四個(gè)行業(yè)被投訴次數(shù)的均值都相等意味著每個(gè)樣本都來自均值為

、方差為

2的同一正態(tài)總體

Xf(X)

1

2

3

4

17方差分析中基本假定

若備擇假設(shè)成立,即H1:mj

(j=1,2,3,4)不全相等至少有一個(gè)總體的均值是不同的四個(gè)樣本分別來自均值不同的四個(gè)正態(tài)總體

Xf(X)

3

1

2

4

189.1.4問題的一般提法設(shè)因素有k個(gè)水平,每個(gè)水平的均值分別用

1,

2,,

k

表示要檢驗(yàn)k個(gè)水平(總體)的均值是否相等,需要提出如下假設(shè):H0:

1

2

k

H1:

1,

2,,

k

不全相等設(shè)

1為零售業(yè)被投訴次數(shù)的均值,

2為旅游業(yè)被投訴次數(shù)的均值,

3為航空公司被投訴次數(shù)的均值,

4為家電制造業(yè)被投訴次數(shù)的均值,提出的假設(shè)為H0:

1

2

3

4

H1:

1,

2,

3,

4

不全相等199.2單因素方差分析

9.2.1數(shù)據(jù)結(jié)構(gòu)9.2.2分析步驟9.2.3關(guān)系強(qiáng)度的測(cè)量9.2.4用Excel進(jìn)行方差分析209.2.1單因素方差分析的數(shù)據(jù)結(jié)構(gòu)

(one-wayanalysisofvariance)

觀察值(i)因素(A)j

水平A1水平A2

…水平Ak12:n

x11

x21

xk1x12

x22

xk2::

:

:::

:

:x1n

x2n

xkn21一、提出假設(shè):一般提法H0

m1=m2=…=

mk

自變量對(duì)因變量沒有顯著影響

H1:

m1

,m2

,…

,mk不全相等自變量對(duì)因變量有顯著影響

注意:拒絕原假設(shè),只表明至少有兩個(gè)總體的均值不相等,并不意味著所有的均值都不相等9.2.2方差分布的基本步驟22二、構(gòu)造檢驗(yàn)的統(tǒng)計(jì)量構(gòu)造統(tǒng)計(jì)量需要計(jì)算①因素各水平的均值②全部觀察值的總均值③誤差平方和(sumofsquares記為SS)SS④誤差均方(MS)

23①計(jì)算因素各水平的均值假定從第j個(gè)總體中抽取一個(gè)容量為ni的簡(jiǎn)單隨機(jī)樣本,第j個(gè)總體的樣本均值為該樣本的全部觀察值總和除以觀察值的個(gè)數(shù)計(jì)算公式為式中:ni為第i個(gè)總體的樣本觀察值個(gè)數(shù)

xij為第i個(gè)總體的第j個(gè)觀察值

24②計(jì)算全部觀察值的總均值全部觀察值的總和除以觀察值的總個(gè)數(shù)計(jì)算公式為:25例題分析26③計(jì)算總誤差平方和

SST:sumofsquaresfortotal(1)全部觀察值與總平均值的離差平方和(2)反映全部觀察值的離散狀況其計(jì)算公式為前例的計(jì)算結(jié)果:

SST=(57-47.869565)2+…+(58-47.869565)2=115.929527計(jì)算組間(水平項(xiàng))平方和SSASSA:SumofsquaresforfactorA各組平均值與總平均值的離差平方和反映各總體的樣本均值之間的差異程度,又稱組間平方和該平方和既包括隨機(jī)誤差,也包括系統(tǒng)誤差計(jì)算公式為前例的計(jì)算結(jié)果:SSA=1456.60869628計(jì)算誤差項(xiàng)平方和SSESSE:Sumofsquaresforerror(1)每個(gè)水平或組的各樣本數(shù)據(jù)與其組平均值的離差平方和(2)反映每個(gè)樣本各觀察值的離散狀況,又稱組內(nèi)平方和(3)該平方和反映的是隨機(jī)誤差的大小計(jì)算公式為:前例的計(jì)算結(jié)果:SSE=270829三個(gè)平方和的關(guān)系

總離差平方和(SST)、誤差項(xiàng)離差平方和(SSE)、水平項(xiàng)離差平方和(SSA)之間的關(guān)系SST=SSA+SSE總離差平方和=組間離差平方和+組內(nèi)離差平方和

前例的計(jì)算結(jié)果:

4164.608696=1456.608696+270830三個(gè)平方和的作用

SST反映全部數(shù)據(jù)總的誤差程度;SSE反映隨機(jī)誤差的大小;SSA反映隨機(jī)誤差和系統(tǒng)誤差的大小如果原假設(shè)成立,則表明沒有系統(tǒng)誤差,組間平方和SSA除以自由度后的均方與組內(nèi)平方和SSE除以自由度后的均方差異就不會(huì)太大;如果組間均方顯著地大于組內(nèi)均方,說明各水平(總體)之間的差異不僅有隨機(jī)誤差,還有系統(tǒng)誤差判斷因素的水平是否對(duì)其觀察值有影響,實(shí)際上就是比較組間方差與組內(nèi)方差之間差異的大小31④計(jì)算均方

MS各誤差平方和的大小與觀察值的多少有關(guān),為消除觀察值多少對(duì)誤差平方和大小的影響,需要將其平均,這就是均方,也稱為方差計(jì)算方法是用誤差平方和除以相應(yīng)的自由度三個(gè)平方和對(duì)應(yīng)的自由度分別是SST的自由度為n-1,其中n為全部觀察值的個(gè)數(shù)SSA的自由度為k-1,其中k為總體的個(gè)數(shù)SSE

的自由度為n-k注意32計(jì)算均方MS

組間均方:SSA的均方,記為MSA,計(jì)算公式為組內(nèi)均方:SSE的均方,記為MSE,計(jì)算公式為33四計(jì)算檢驗(yàn)統(tǒng)計(jì)量F將MSA和MSE進(jìn)行對(duì)比,即得到所需要的檢驗(yàn)統(tǒng)計(jì)量F當(dāng)H0為真時(shí),二者的比值服從分子自由度為k-1、分母自由度為n-k的F分布,即記住34F分布與拒絕域如果均值相等,F(xiàn)=MSA/MSE

1aF分布F

(k-1,n-k)0拒絕H0不能拒絕H0F35五、統(tǒng)計(jì)決策

將統(tǒng)計(jì)量的值F與給定的顯著性水平

的臨界值F

進(jìn)行比較,作出對(duì)原假設(shè)H0的決策根據(jù)給定的顯著性水平

,在F分布表中查找與第一自由度df1=k-1、第二自由度df2=n-k相應(yīng)的臨界值F

若F>F

,則拒絕原假設(shè)H0

,表明均值之間的差異是顯著的,所檢驗(yàn)的因素對(duì)觀察值有顯著影響若F<F

,則不能拒絕原假設(shè)H0

,表明所檢驗(yàn)的因素對(duì)觀察值沒有顯著影響36單因素方差分析表(基本結(jié)構(gòu))P256看懂記住37例題分析P257389.2.3關(guān)系強(qiáng)度的測(cè)量拒絕原假設(shè)表明因素(自變量)與觀測(cè)值之間有關(guān)系組間平方和(SSA)度量了自變量(行業(yè))對(duì)因變量(投訴次數(shù))的影響效應(yīng)只要組間平方和SSA不等于0,就表明兩個(gè)變量之間有關(guān)系(只是是否顯著的問題)當(dāng)組間平方和比組內(nèi)平方和(SSE)大,而且大到一定程度時(shí),就意味著兩個(gè)變量之間的關(guān)系顯著,大得越多,表明它們之間的關(guān)系就越強(qiáng)。反之,就意味著兩個(gè)變量之間的關(guān)系不顯著,小得越多,表明它們之間的關(guān)系就越弱399.2.3關(guān)系強(qiáng)度的測(cè)量

變量間關(guān)系的強(qiáng)度用自組間平方和(SSA)及殘差平方和(SSE)占總平方和(SST)的比例大小來反映自變量平方和占總平方和的比例記為R2,即其平方根R就可以用來測(cè)量?jī)蓚€(gè)變量之間的關(guān)系強(qiáng)度

40關(guān)系強(qiáng)度的測(cè)量(例題分析)

R=0.591404

結(jié)論:行業(yè)(自變量)對(duì)投訴次數(shù)(因變量)的影響效應(yīng)占總效應(yīng)的34.9759%,而殘差效應(yīng)則占65.0241%。即行業(yè)對(duì)投訴次數(shù)差異解釋的比例達(dá)到近35%,而其他因素(殘差變量)所解釋的比例近為65%以上

R=0.591404,表明行業(yè)與投訴次數(shù)之間有中等以上的關(guān)系

419.4雙因素方差分析9.4.1雙因素方差分析及其類型9.4.2無交互作用的雙因素方差分析9.4.3有交互作用的雙因素方差分析42P261雙因素方差分析(two-wayanalysisofvariance)

分析兩個(gè)因素(行因素Row和列因素Column)對(duì)試驗(yàn)結(jié)果的影響如果兩個(gè)因素對(duì)試驗(yàn)結(jié)果的影響是相互獨(dú)立的,分別判斷行因素和列因素對(duì)試驗(yàn)數(shù)據(jù)的影響,這時(shí)的雙因素方差分析稱為無交互作用的雙因素方差分析或無重復(fù)雙因素方差分析(Two-factorwithoutreplication)如果除了行因素和列因素對(duì)試驗(yàn)數(shù)據(jù)的單獨(dú)影響外,兩個(gè)因素的搭配還會(huì)對(duì)結(jié)果產(chǎn)生一種新的影響,這時(shí)的雙因素方差分析稱為有交互作用的雙因素方差分析或可重復(fù)雙因素方差分析

(Two-factorwithreplication)43雙因素方差分析的基本假定每個(gè)總體都服從正態(tài)分布對(duì)于因素的每一個(gè)水平,其觀察值是來自正態(tài)分布總體的簡(jiǎn)單隨機(jī)樣本各個(gè)總體的方差必須相同對(duì)于各組觀察數(shù)據(jù),是從具有相同方差的總體中抽取的觀察值是獨(dú)立的44雙因素方差分析

(例題分析)不同品牌的彩電在各地區(qū)的銷售量數(shù)據(jù)品牌因素地區(qū)因素地區(qū)1地區(qū)2地區(qū)3地區(qū)4地區(qū)5品牌1品牌2品牌3品牌4365345358288350368323280343363353298340330343260323333308298【例】有4個(gè)品牌的彩電在5個(gè)地區(qū)銷售,為分析彩電的品牌(品牌因素)和銷售地區(qū)(地區(qū)因素)對(duì)銷售量是否有影響,對(duì)每種品牌在各地區(qū)的銷售量取得以下數(shù)據(jù)。試分析品牌和銷售地區(qū)對(duì)彩電的銷售量是否有顯著影響?(=0.05)45數(shù)據(jù)結(jié)構(gòu)

46數(shù)據(jù)結(jié)構(gòu)

是行因素的第i個(gè)水平下各觀察值的平均值

是列因素的第j個(gè)水平下的各觀察值的均值

是全部

kr個(gè)樣本數(shù)據(jù)的總平均值47分析步驟(提出假設(shè))1提出假設(shè)對(duì)行因素提出的假設(shè)為H0:m1=m2

=

…=mi=…=

mk(mi為第i個(gè)水平的均值)H1:mi

(i=1,2,…,k)

不全相等對(duì)列因素提出的假設(shè)為H0:m1=m2

=

…=mj=…=

mr(mj為第j個(gè)水平的均值)H1:mj

(j=1,2,…,r)

不全相等48分析步驟

計(jì)算平方和(SS)總誤差平方和行因素誤差平方和列因素誤差平方和隨機(jī)誤差項(xiàng)平方和2構(gòu)造檢驗(yàn)的統(tǒng)計(jì)量49分析步驟

總離差平方和(SST)、水平項(xiàng)離差平方和

(SSR和SSC)

、誤差項(xiàng)離差平方和(SSE)

之間的關(guān)系SST=SSR+SSC+SSE3構(gòu)造檢驗(yàn)的統(tǒng)計(jì)量50分析步驟

計(jì)算均方(MS)誤差平方和除以相應(yīng)的自由度三個(gè)平方和的自由度分別是總離差平方和SST的自由度為kr-1行因素的離差平方和SSR的自由度為k-1列因素的離差平方和SSC的自由度為r-1隨機(jī)誤差

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論