《應用統(tǒng)計學(第六版)(微課版)》 課件 第7、8章 方差分析;相關(guān)分析與回歸分析_第1頁
《應用統(tǒng)計學(第六版)(微課版)》 課件 第7、8章 方差分析;相關(guān)分析與回歸分析_第2頁
《應用統(tǒng)計學(第六版)(微課版)》 課件 第7、8章 方差分析;相關(guān)分析與回歸分析_第3頁
《應用統(tǒng)計學(第六版)(微課版)》 課件 第7、8章 方差分析;相關(guān)分析與回歸分析_第4頁
《應用統(tǒng)計學(第六版)(微課版)》 課件 第7、8章 方差分析;相關(guān)分析與回歸分析_第5頁
已閱讀5頁,還剩166頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

第7章方差分析7.1方差分析引論7.2單因素方差分析7.3雙因素方差分析學習內(nèi)容學習目標解釋方差分析的概念解釋方差分析的基本思想和原理掌握單因素方差分析的方法及應用理解多重比較的意義掌握雙因素方差分析的方法及應用掌握試驗設計的基本原理和方法7.1方差分析引論7.1.1方差分析及其有關(guān)術(shù)語7.1.2方差分析的基本思想和原理7.1.3方差分析的基本假定7.1.4問題的一般提法為什么不做兩兩比較?設有四個總體的均值分別為m1、

m2、m3

、m4

,要檢驗四個總體的均值是否相等,每次檢驗兩個的作法共需要進行6次不同的檢驗,每次檢驗犯第一類錯誤的概率為,連續(xù)作6次檢驗犯第Ⅰ類錯誤的概率增加到1-(1-)6=0.265,大于0.05。相應的置信水平會降低到0.956=0.735一般來說,隨著增加個體顯著性檢驗的次數(shù),偶然因素導致差別的可能性也會增加,(并非均值真的存在差別)方差分析方法則是同時考慮所有的樣本,因此排除了錯誤累積的概率,從而避免拒絕一個真實的原假設方差分析及其有關(guān)術(shù)語什么是方差分析(ANOVA)?

(analysisofvariance)

檢驗多個總體均值是否相等通過分析數(shù)據(jù)的誤差判斷各總體均值是否相等研究分類型自變量對數(shù)值型因變量的影響

一個或多個分類型自變量兩個或多個(k個)處理水平或分類一個數(shù)值型因變量有單因素方差分析和雙因素方差分析單因素方差分析:涉及一個分類的自變量雙因素方差分析:涉及兩個分類的自變量什么是方差分析?

(例題分析)消費者對四個行業(yè)的投訴次數(shù)行業(yè)觀測值零售業(yè)旅游業(yè)航空公司家電制造業(yè)12345675766494034534468392945565131492134404451657758【例】為了對幾個行業(yè)的服務質(zhì)量進行評價,消費者協(xié)會在4個行業(yè)分別抽取了不同的企業(yè)作為樣本。最近一年中消費者對總共23家企業(yè)投訴的次數(shù)如下表什么是方差分析?

(例題分析)分析4個行業(yè)之間的服務質(zhì)量是否有顯著差異,也就是要判斷“行業(yè)”對“投訴次數(shù)”是否有顯著影響作出這種判斷最終被歸結(jié)為檢驗這四個行業(yè)被投訴次數(shù)的均值是否相等若它們的均值相等,則意味著“行業(yè)”對投訴次數(shù)是沒有影響的,即它們之間的服務質(zhì)量沒有顯著差異;若均值不全相等,則意味著“行業(yè)”對投訴次數(shù)是有影響的,它們之間的服務質(zhì)量有顯著差異方差分析中的有關(guān)術(shù)語因素或因子(factor)所要檢驗的對象分析行業(yè)對投訴次數(shù)的影響,行業(yè)是要檢驗的因子水平或處理(treatment)因子的不同表現(xiàn)零售業(yè)、旅游業(yè)、航空公司、家電制造業(yè)觀察值在每個因素水平下得到的樣本數(shù)據(jù)每個行業(yè)被投訴的次數(shù)方差分析中的有關(guān)術(shù)語試驗這里只涉及一個因素,因此稱為單因素4水平的試驗總體因素的每一個水平可以看作是一個總體零售業(yè)、旅游業(yè)、航空公司、家電制造業(yè)是4個總體樣本數(shù)據(jù)被投訴次數(shù)可以看作是從這4個總體中抽取的樣本數(shù)據(jù)方差分析的基本思想和原理方差分析的基本思想和原理

(圖形分析—散點圖)

零售業(yè)旅游業(yè)航空公司家電制造從散點圖上可以看出不同行業(yè)被投訴的次數(shù)有明顯差異同一個行業(yè),不同企業(yè)被投訴的次數(shù)也明顯不同家電制造被投訴的次數(shù)較高,航空公司被投訴的次數(shù)較低行業(yè)與被投訴次數(shù)之間有一定的關(guān)系如果行業(yè)與被投訴次數(shù)之間沒有關(guān)系,那么它們被投訴的次數(shù)應該差不多相同,在散點圖上所呈現(xiàn)的模式也就應該很接近方差分析的基本思想和原理

(圖形分析)散點圖觀察不能提供充分的證據(jù)證明不同行業(yè)被投訴的次數(shù)之間有顯著差異這種差異可能是由于抽樣的隨機性造成的需要有更準確的方法來檢驗這種差異是否顯著,也就是進行方差分析所以叫方差分析,因為雖然我們感興趣的是均值,但在判斷均值之間是否有差異時則需要借助于方差這個名字也表示:它是通過對數(shù)據(jù)誤差來源的分析判斷不同總體的均值是否相等。因此,進行方差分析時,需要考察數(shù)據(jù)誤差的來源方差分析的基本思想和原理方差分析的基本思想和原理

(兩類誤差)隨機誤差因素的同一水平(總體)下,樣本各觀察值之間的差異比如,同一行業(yè)下不同企業(yè)被投訴次數(shù)之間的差異這種差異可以看成是隨機因素的影響,稱為隨機誤差

系統(tǒng)誤差因素的不同水平(不同總體)之間觀察值的差異比如,不同行業(yè)之間的被投訴次數(shù)之間的差異這種差異可能是由于抽樣的隨機性所造成的,也可能是由于行業(yè)本身所造成的,后者所形成的誤差是由系統(tǒng)性因素造成的,稱為系統(tǒng)誤差方差分析的基本思想和原理

(誤差平方和—SS)數(shù)據(jù)的誤差用平方和(sumofsquares)表示組內(nèi)平方和(withingroups)因素的同一水平下數(shù)據(jù)誤差的平方和比如,零售業(yè)被投訴次數(shù)的誤差平方和只包含隨機誤差組間平方和(betweengroups)因素的不同水平之間數(shù)據(jù)誤差的平方和比如,4個行業(yè)被投訴次數(shù)之間的誤差平方和既包括隨機誤差,也包括系統(tǒng)誤差方差分析的基本思想和原理

(均方—MS)平方和除以相應的自由度若原假設成立,組間均方與組內(nèi)均方的數(shù)值就應該很接近,它們的比值就會接近1若原假設不成立,組間均方會大于組內(nèi)均方,它們之間的比值就會大于1當這個比值大到某種程度時,就可以說不同水平之間存在著顯著差異,即自變量對因變量有影響判斷行業(yè)對投訴次數(shù)是否有顯著影響,也就是檢驗被投訴次數(shù)的差異主要是由于什么原因所引起的。如果這種差異主要是系統(tǒng)誤差,說明不同行業(yè)對投訴次數(shù)有顯著影響方差分析的基本假定方差分析的基本假定每個總體都應服從正態(tài)分布對于因素的每一個水平,其觀察值是來自服從正態(tài)分布總體的簡單隨機樣本比如,每個行業(yè)被投訴的次數(shù)必須服從正態(tài)分布各個總體的方差必須相同各組觀察數(shù)據(jù)是從具有相同方差的總體中抽取的比如,4個行業(yè)被投訴次數(shù)的方差都相等觀察值是獨立的比如,每個行業(yè)被投訴的次數(shù)與其他行業(yè)被投訴的次數(shù)獨立方差分析中的基本假定在上述假定條件下,判斷行業(yè)對投訴次數(shù)是否有顯著影響,實際上也就是檢驗具有同方差的4個正態(tài)總體的均值是否相等如果4個總體的均值相等,可以期望4個樣本的均值也會很接近4個樣本的均值越接近,推斷4個總體均值相等的證據(jù)也就越充分樣本均值越不同,推斷總體均值不同的證據(jù)就越充分方差分析中的基本假定

如果原假設成立,即H0:

m1=m2=m3=m44個行業(yè)被投訴次數(shù)的均值都相等意味著每個樣本都來自均值為

、方差為

2的同一正態(tài)總體

Xf(X)

1

2

3

4

方差分析中的基本假定

若備擇假設成立,即H1:

mi(i=1,2,3,4)不全相等至少有一個總體的均值是不同的4個樣本分別來自均值不同的4個正態(tài)總體Xf(X)

3

1

2

4

問題的一般提法問題的一般提法設因素有k個水平,每個水平的均值分別用

1,

2,,

k

表示要檢驗k個水平(總體)的均值是否相等,需要提出如下假設:H0:

1

2

k

H1:

1,

2,,

k

不全相等設

1為零售業(yè)被投訴次數(shù)的均值,

2為旅游業(yè)被投訴次數(shù)的均值,

3為航空公司被投訴次數(shù)的均值,

4為家電制造業(yè)被投訴次數(shù)的均值,提出的假設為H0:

1

2

3

4

H1:

1,

2,

3,

4不全相等7.2單因素方差分析7.2.1數(shù)據(jù)結(jié)構(gòu)7.2.2分析步驟7.2.3關(guān)系強度的測量7.2.4方差分析中的多重比較單因素方差分析的數(shù)據(jù)結(jié)構(gòu)

(one-wayanalysisofvariance)

觀察值(j)因素(A)i

水平A1水平A2

水平Ak12::n

x11

x21

xk1x12

x22

xk2::

:

:::

:

:x1n

x2n

xkn分析步驟提出假設構(gòu)造檢驗統(tǒng)計量統(tǒng)計決策提出假設一般提法H0

:m1=m2=…=

mk

自變量對因變量沒有顯著影響H1:m1

,m2

,…

,mk不全相等自變量對因變量有顯著影響注意:拒絕原假設,只表明至少有兩個總體的均值不相等,并不意味著所有的均值都不相等構(gòu)造檢驗的統(tǒng)計量構(gòu)造統(tǒng)計量需要計算水平的均值全部觀察值的總均值誤差平方和均方(MS)構(gòu)造檢驗的統(tǒng)計量

(計算水平的均值)假定從第i個總體中抽取一個容量為ni的簡單隨機樣本,第i個總體的樣本均值為該樣本的全部觀察值總和除以觀察值的個數(shù)計算公式為

式中:ni為第i個總體的樣本觀察值個數(shù)

xij為第i個總體的第j個觀察值

構(gòu)造檢驗的統(tǒng)計量

(計算全部觀察值的總均值)全部觀察值的總和除以觀察值的總個數(shù)計算公式為構(gòu)造檢驗的統(tǒng)計量

(例題分析)構(gòu)造檢驗的統(tǒng)計量

(計算總誤差平方和SST)全部觀察值與總平均值的離差平方和反映全部觀察值的離散狀況其計算公式為

前例的計算結(jié)果

SST=(57-47.869565)2+…+(58-47.869565)2=115.9295構(gòu)造檢驗的統(tǒng)計量

(計算組間平方和SSA)各組平均值與總平均值的離差平方和反映各總體的樣本均值之間的差異程度該平方和既包括隨機誤差,也包括系統(tǒng)誤差計算公式為

前例的計算結(jié)果SSA=1456.608696構(gòu)造檢驗的統(tǒng)計量

(計算組內(nèi)平方和SSE)每個水平或組的各樣本數(shù)據(jù)與其組平均值的離差平方和反映每個樣本各觀察值的離散狀況該平方和反映的是隨機誤差的大小計算公式為

前例的計算結(jié)果SSE=2708構(gòu)造檢驗的統(tǒng)計量

(三個平方和的關(guān)系)

總離差平方和(SST)、誤差項離差平方和(SSE)、水平項離差平方和(SSA)之間的關(guān)系SST=SSA+SSE

前例的計算結(jié)果

4164.608696=1456.608696+2708構(gòu)造檢驗的統(tǒng)計量

(計算均方MS)各誤差平方和的大小與觀察值的多少有關(guān),為消除觀察值多少對誤差平方和大小的影響,需要將其平均,這就是均方,也稱為方差由誤差平方和除以相應的自由度求得三個平方和對應的自由度分別是SST的自由度為n-1,其中n為全部觀察值的個數(shù)SSA的自由度為k-1,其中k為因素水平(總體)的個數(shù)SSE的自由度為n-k構(gòu)造檢驗的統(tǒng)計量

(計算均方MS)組間方差:SSA的均方,記為MSA,計算公式為組內(nèi)方差:SSE的均方,記為MSE,計算公式為構(gòu)造檢驗的統(tǒng)計量

(計算檢驗統(tǒng)計量F)將MSA和MSE進行對比,即得到所需要的檢驗統(tǒng)計量F當H0為真時,二者的比值服從分子自由度為k-1、分母自由度為n-k的F分布,即構(gòu)造檢驗的統(tǒng)計量

(F分布與拒絕域)如果均值相等,F(xiàn)=MSA/MSE

1aF分布F

(k-1,n-k)0拒絕H0不能拒絕H0F統(tǒng)計決策

將統(tǒng)計量的值F與給定的顯著性水平

的臨界值F

進行比較,作出對原假設H0的決策根據(jù)給定的顯著性水平

,在F分布表中查找與第一自由度df1=k-1、第二自由度df2=n-k相應的臨界值F

若F>F

,則拒絕原假設H0

,表明均值之間的差異是顯著的,所檢驗的因素對觀察值有顯著影響若F<F

,則不拒絕原假設H0

,無證據(jù)表明所檢驗的因素對觀察值有顯著影響單因素方差分析表

(基本結(jié)構(gòu))誤差來源平方和(SS)自由度(df)均方(MS)F值P值F臨界值組間(因素影響)SSAk-1MSAMSAMSE組內(nèi)(誤差)SSEn-kMSE總和SSTn-1單因素方差分析

(例題分析)用Excel進行方差分析

(Excel分析步驟)

第1步:選擇“工具”下拉菜單第2步:選擇【數(shù)據(jù)分析】選項第3步:在分析工具中選擇【單因素方差分析】

,然后選擇【確定】第4步:當對話框出現(xiàn)時

在【輸入?yún)^(qū)域】方框內(nèi)鍵入數(shù)據(jù)單元格區(qū)域在【】方框內(nèi)鍵入0.05(可根據(jù)需要確定)

在【輸出選項】中選擇輸出區(qū)域關(guān)系強度的測量關(guān)系強度的測量

拒絕原假設表明因素(自變量)與觀測值之間有顯著關(guān)系組間平方和(SSA)度量了自變量(行業(yè))對因變量(投訴次數(shù))的影響效應只要組間平方和SSA不等于0,就表明兩個變量之間有關(guān)系(只是是否顯著的問題)當組間平方和比組內(nèi)平方和(SSE)大,而且大到一定程度時,就意味著兩個變量之間的關(guān)系顯著,大得越多,表明它們之間的關(guān)系就越強。反之,就意味著兩個變量之間的關(guān)系不顯著,小得越多,表明它們之間的關(guān)系就越弱關(guān)系強度的測量

變量間關(guān)系的強度用自變量平方和(SSA)占總平方和(SST)的比例大小來反映自變量平方和占總平方和的比例記為R2,即3.其平方根R就可以用來測量兩個變量之間的關(guān)系強度關(guān)系強度的測量

(例題分析)

R=0.591404結(jié)論行業(yè)(自變量)對投訴次數(shù)(因變量)的影響效應占總效應的34.9759%,而殘差效應則占65.0241%。即行業(yè)對投訴次數(shù)差異解釋的比例達到近35%,而其他因素(殘差變量)所解釋的比例近65%以上

R=0.591404,表明行業(yè)與投訴次數(shù)之間有中等以上的關(guān)系

方差分析中的多重比較

(multiplecomparisonprocedures)多重比較的意義通過對總體均值之間的配對比較來進一步檢驗到底哪些均值之間存在差異可采用Fisher提出的最小顯著差異方法,簡寫為LSDLSD方法是對檢驗兩個總體均值是否相等的t檢驗方法的總體方差估計加以修正(用MSE來代替)而得到的多重比較的步驟提出假設H0:mi=mj(第i個總體的均值等于第j個總體的均值)H1:mi

mj(第i個總體的均值不等于第j個總體的均值)計算檢驗的統(tǒng)計量:計算LSD決策:若,拒絕H0;若

,不拒絕H0多重比較分析

(例題分析)第1步:提出假設檢驗1:檢驗2:檢驗3:檢驗4:檢驗5:檢驗6:方差分析中的多重比較

(例題分析)第2步:計算檢驗統(tǒng)計量檢驗1:檢驗2:檢驗3:檢驗4:檢驗5:檢驗6:方差分析中的多重比較

(例題分析)第3步:計算LSD檢驗1:檢驗2:檢驗3:檢驗4:檢驗5:檢驗6:方差分析中的多重比較

(例題分析)第4步:作出決策不能認為零售業(yè)與旅游業(yè)均值之間有顯著差異

不能認為零售業(yè)與航空公司均值之間有顯著差異不能認為零售業(yè)與家電業(yè)均值之間有顯著差異不能認為旅游業(yè)與航空業(yè)均值之間有顯著差異不能認為旅游業(yè)與家電業(yè)均值之間有顯著差異航空業(yè)與家電業(yè)均值有顯著差異7.3雙因素方差分析7.3.1雙因素方差分析及其類型7.3.2無交互作用的雙因素方差分析7.3.3有交互作用的雙因素方差分析雙因素方差分析

(two-wayanalysisofvariance)

分析兩個因素(行因素row和列因素column)對試驗結(jié)果的影響如果兩個因素對試驗結(jié)果的影響是相互獨立的,分別判斷行因素和列因素對試驗數(shù)據(jù)的影響,這時的雙因素方差分析稱為無交互作用的雙因素方差分析或無重復雙因素方差分析(two-factorwithoutreplication)如果除了行因素和列因素對試驗數(shù)據(jù)的單獨影響外,兩個因素的搭配還會對結(jié)果產(chǎn)生一種新的影響,這時的雙因素方差分析稱為有交互作用的雙因素方差分析或可重復雙因素方差分析

(two-factorwithreplication)雙因素方差分析的基本假定每個總體都服從正態(tài)分布對于因素的每一個水平,其觀察值是來自正態(tài)分布總體的簡單隨機樣本各個總體的方差必須相同對于各組觀察數(shù)據(jù),是從具有相同方差的總體中抽取的觀察值是獨立的無交互作用的雙因素方差分析

(無重復雙因素分析)雙因素方差分析

(例題分析)不同品牌的彩電在5個地區(qū)的銷售量數(shù)據(jù)品牌因素地區(qū)因素地區(qū)1地區(qū)2地區(qū)3地區(qū)4地區(qū)5品牌1品牌2品牌3品牌4365345358288350368323280343363353298340330343260323333308298【例】有4個品牌的彩電在5個地區(qū)銷售,為分析彩電的品牌(品牌因素)和銷售地區(qū)(地區(qū)因素)對銷售量的影響,對每個品牌在各地區(qū)的銷售量取得以下數(shù)據(jù)。試分析品牌和銷售地區(qū)對彩電的銷售量是否有顯著影響?(=0.05)數(shù)據(jù)結(jié)構(gòu)

數(shù)據(jù)結(jié)構(gòu)

是行因素的第i個水平下各觀察值的平均值

是列因素的第j個水平下各觀察值的平均值

是全部kr個樣本數(shù)據(jù)的總平均值分析步驟

(提出假設)

提出假設對行因素提出的假設為H0:m1=m2

=

…=mi=…=

mk(mi為第i個水平的均值)H1:mi

(i=1,2,…,k)不全相等對列因素提出的假設為H0:m1=m2

=

…=mj=…=

mr(mj為第j個水平的均值)H1:mj

(j=1,2,…,r)不全相等分析步驟

(構(gòu)造檢驗的統(tǒng)計量)

計算平方和(SS)總誤差平方和行因素誤差平方和列因素誤差平方和隨機誤差項平方和分析步驟

(構(gòu)造檢驗的統(tǒng)計量)

總誤差平方和(SST)、行因素平方和(SSR)、列因素平方和(SSC)、誤差項平方和(SSE)之間的關(guān)系SST=SSR+SSC+SSE分析步驟

(構(gòu)造檢驗的統(tǒng)計量)

計算均方(MS)誤差平方和除以相應的自由度四個平方和的自由度分別是總誤差平方和SST的自由度為kr-1行因素平方和SSR的自由度為k-1列因素平方和SSC的自由度為r-1誤差項平方和SSE的自由度為(k-1)×(r-1)

分析步驟

(構(gòu)造檢驗的統(tǒng)計量)

計算均方(MS)行因素的均方,記為MSR,計算公式為列因素的均方,記為MSC

,計算公式為誤差項的均方,記為MSE

,計算公式為分析步驟

(構(gòu)造檢驗的統(tǒng)計量)

計算檢驗統(tǒng)計量(F)檢驗行因素的統(tǒng)計量檢驗列因素的統(tǒng)計量分析步驟

(統(tǒng)計決策)

將統(tǒng)計量的值F與給定的顯著性水平

的臨界值F

進行比較,作出對原假設H0的決策根據(jù)給定的顯著性水平

在F分布表中查找相應的臨界值F

若FR>F

,拒絕原假設H0

,表明均值之間的差異是顯著的,即所檢驗的行因素對觀察值有顯著影響若FC

>F

,拒絕原假設H0

,表明均值之間有顯著差異,即所檢驗的列因素對觀察值有顯著影響雙因素方差分析表

(基本結(jié)構(gòu))誤差來源平方和(SS)自由度(df)均方(MS)F值P值F臨界值行因素SSRk-1MSRMSRMSE列因素SSCr-1MSCMSCMSE誤差SSE(k-1)(r-1)MSE總和SSTkr-1雙因素方差分析

(例題分析)

提出假設對品牌因素提出的假設為H0:m1=m2=m3=m4(品牌對銷售量無顯著影響)H1:mi

(i=1,2,…,4)不全相等(有顯著影響)對地區(qū)因素提出的假設為H0:m1=m2=m3=m4=m5(地區(qū)對銷售量無顯著影響)H1:mj

(j=1,2,…,5)不全相等(有顯著影響)雙因素方差分析

(例題分析)

結(jié)論:

FR=18.10777>F

=3.4903,拒絕原假設H0,說明彩電的品牌對銷售量有顯著影響

FC=2.100846<F

=3.2592,不拒絕原假設H0,無證據(jù)表明銷售地區(qū)對彩電的銷售量有顯著影響雙因素方差分析

(關(guān)系強度的測量)行平方和(SSR)度量了品牌這個自變量對因變量(銷售量)的影響效應列平方和(SSC)度量了地區(qū)這個自變量對因變量(銷售量)的影響效應這兩個平方和加在一起則度量了兩個自變量對因變量的聯(lián)合效應聯(lián)合效應與總平方和的比值定義為R2其平方根R反映了這兩個自變量合起來與因變量之間的關(guān)系強度雙因素方差分析

(關(guān)系強度的測量)

例題分析品牌因素和地區(qū)因素合起來總共解釋了銷售量差異的83.94%其他因素(殘差變量)只解釋了銷售量差異的16.06%R=0.9162,表明品牌和地區(qū)兩個因素合起來與銷售量之間有較強的關(guān)系有交互作用的雙因素方差分析

(可重復雙因素分析)可重復雙因素分析

(例題)【例】城市道路交通管理部門為研究不同的路段和不同的時間段對行車時間的影響,讓一名交通警察分別在兩個路段和高峰期與非高峰期親自駕車進行試驗,通過試驗共獲得了20個行車時間(單位:min)的數(shù)據(jù),如下表。試分析路段、時段以及路段和時段的交互作用對行車時間的影響交互作用的圖示

(interaction)路段與時段對行車時間的影響交互作用無交互作用行車時間路段1路段2高峰期非高峰期行車時間路段1路段2高峰期非高峰期可重復雙因素方差分析表

(基本結(jié)構(gòu))誤差來源平方和(SS)自由度(df)均方(MS)F值P值F臨界值行因素SSRk-1MSRFR列因素SSCr-1MSCFC交互作用SSRC(k-1)(r-1)MSRCFRC誤差SSEKr(m-1)MSE總和SSTn-1m為樣本的行數(shù)可重復雙因素分析

(平方和的計算)

設:

為對應于行因素的第i個水平和列因素的第j個水平的第l行的觀察值為行因素的第i個水平的樣本均值為列因素的第j個水平的樣本均值對應于行因素的第i個水平和列因素的第j個水平組合的樣本均值為全部n個觀察值的總均值可重復雙因素分析

(平方和的計算)總平方和:行變量平方和:列變量平方和:交互作用平方和:誤差項平方和:SST=SSR+SSC+SSRC+SSE可重復雙因素分析

(Excel檢驗步驟)第1步:選擇“工具”下拉菜單,并選擇【數(shù)據(jù)分析】選項第2步:在分析工具中選擇【方差分析:可重復雙因素分析】,然后選擇【確定】第3步:當對話框出現(xiàn)時

在【輸入?yún)^(qū)域】方框內(nèi)鍵入數(shù)據(jù)區(qū)域(A1:C11)

在【】方框內(nèi)鍵入0.05(可根據(jù)需要確定)

在【每一樣本的行數(shù)】方框內(nèi)鍵入重復試驗次數(shù)(5)

在【輸出選項】中選擇輸出區(qū)域選擇【確定】

本章小結(jié)方差分析(ANOVA)的概念方差分析的思想和原理方差分析中的基本假設單因素方差分析雙因素方差分析84第8章相關(guān)分析和回歸分析

相關(guān)分析與回歸分析是研究現(xiàn)象的相互關(guān)系、測定它們聯(lián)系的密切程度,揭示其變化的具體形式和規(guī)律性的統(tǒng)計方法,是構(gòu)造各種經(jīng)濟模型、進行經(jīng)濟分析、政策評價、預測和控制的重要工具。相關(guān)分析(掌握)線性回歸分析(掌握)回歸模型的統(tǒng)計檢驗和預測(掌握)非線性回歸模型(了解)86

主要內(nèi)容和學習目標

函數(shù)關(guān)系:變量間的確定性數(shù)量依存關(guān)系相關(guān)關(guān)系:變量間的非確定性數(shù)量依存關(guān)系變量之間的關(guān)系

銀行存款中,本利和(S)與本金(A)之間的關(guān)系可表示為S=A(1+r)n某種商品的銷售額(y)與銷售量(x)之間的關(guān)系可表示為y=px(p為單價)企業(yè)的原材料消耗額(y)與產(chǎn)量(x1)、單位產(chǎn)量消耗(x2)、原材料價格(x3)之間的關(guān)系可表示為

y=x1x2x3

函數(shù)關(guān)系的例子函數(shù)關(guān)系的特點當變量x取某個數(shù)值時,變量y

依確定的對應關(guān)系取相應的值表現(xiàn)形式:y=f(x)

各觀測點落在一條線上

相關(guān)關(guān)系的例子父親身高(y)與子女身高(x)之間的關(guān)系收入水平(y)與受教育程度(x)之間的關(guān)系商品的消費量(y)與居民收入(x)之間的關(guān)系商品銷售額(y)與廣告費支出(x)之間的關(guān)系糧食畝產(chǎn)量(y)與施肥量(x1)、降雨量(x2)、溫度(x3)之間的關(guān)系相關(guān)關(guān)系的特點當變量x取某個值時,變量y的取值可能有幾個表現(xiàn)形式:y=f(x)+μ各觀測點在一條線的周圍8.1.1相關(guān)關(guān)系的概念和種類

1.相關(guān)關(guān)系的概念在社會經(jīng)濟發(fā)展變化中,客觀現(xiàn)象總是普遍聯(lián)系和相互依存的,客觀現(xiàn)象(變量)之間的數(shù)量依存關(guān)系可分為兩種類型:確定性關(guān)系和相關(guān)關(guān)系。相關(guān)關(guān)系是指現(xiàn)象之間客觀存在的非確定性的數(shù)量依存關(guān)系。928.1相關(guān)分析93如:商品的消費量(y)與居民收入(x)之間的關(guān)系

變量間關(guān)系是不能用函數(shù)關(guān)系精確表達的,一個變量的取值不能由另一個變量唯一確定。各觀測點分布在直線周圍。2.相關(guān)關(guān)系的種類(1)按相關(guān)的方向可以分為正相關(guān)和負相關(guān)。(2)按相關(guān)的程度可分為完全相關(guān)、不完全相關(guān)和不相關(guān)。(3)按涉及的變量或因素的個數(shù)可以分為單相關(guān)與復相關(guān)。(4)按相關(guān)的表現(xiàn)形式可分為線性相關(guān)與非線性相關(guān)。94相關(guān)關(guān)系的種類按變量個數(shù)按表現(xiàn)形式按密切程度單相關(guān)復相關(guān)線性相關(guān)非線性相關(guān)完全相關(guān)不完全相關(guān)不相關(guān)相關(guān)關(guān)系的分類

線性相關(guān):按其變化方向可分為正相關(guān)與負相關(guān)

函數(shù)關(guān)系96相關(guān)關(guān)系單相關(guān)線性相關(guān)正相關(guān)負相關(guān)非線性相關(guān)復相關(guān)多元線性相關(guān)多元非線性相關(guān)相關(guān)關(guān)系的種類的關(guān)系圖相關(guān)分析的主要內(nèi)容與方法判斷變量之間是否存在相關(guān)關(guān)系(定性分析法)分析變量間相關(guān)關(guān)系的形態(tài)特征(制作散點圖)分析變量間相關(guān)關(guān)系的密切程度(計算相關(guān)系數(shù))對總體相關(guān)關(guān)系進行顯著性檢驗(假設檢驗法)相關(guān)分析的概念研究兩個或兩個以上的變量之間相關(guān)關(guān)系的形態(tài)和程度的一種統(tǒng)計方法。簡單線性相關(guān)關(guān)系

定性分析

相關(guān)圖分析

相關(guān)系數(shù)分析

相關(guān)分析的方法定性分析相關(guān)圖分析相關(guān)系數(shù)分析計算相關(guān)系數(shù)繪制相關(guān)圖進行定性分析相關(guān)系數(shù)檢驗簡單線性相關(guān)分析的基本程序

定性分析

是指對事物的質(zhì)的規(guī)定性的認識和分析要借助相關(guān)的社會經(jīng)濟理論、專業(yè)知識、實踐經(jīng)驗和判斷能力如果定性分析判斷現(xiàn)象之間沒有相關(guān)關(guān)系,就不需要進行定量的描述和測度了

美國印第安納州的地區(qū)教會想要籌款興建新教堂,提出教堂能潔凈人們的心靈,減少犯罪,降低監(jiān)獄服刑人數(shù)的口號。為了增進民眾參與的熱誠和信心,教會的神父收集了近15年的教堂數(shù)與在監(jiān)獄服刑的人數(shù)進行統(tǒng)計分析。結(jié)果卻令教會大吃一驚。最近15年教堂數(shù)與監(jiān)獄服刑人數(shù)呈顯著的正相關(guān)。那么是否可以由此得出,教堂建得越多,就可能帶來更多的犯罪呢?經(jīng)過統(tǒng)計學家和教會神父深入討論,發(fā)現(xiàn)監(jiān)獄服刑人數(shù)的增加和教堂數(shù)的增加都與人口的增加有關(guān)。教堂數(shù)的增加并非監(jiān)獄服刑人數(shù)增加的原因。至此,教會人士總算松了一口氣。案例:教堂數(shù)與監(jiān)獄服刑人數(shù)同步增長8.1.2

相關(guān)分析的圖表和意義

1、相關(guān)圖表相關(guān)表和相關(guān)圖可直觀地表達變量之間的相關(guān)關(guān)系的程度。相關(guān)表是將具有相關(guān)關(guān)系的原始數(shù)據(jù),按某一順序平行排列在一張表上,以觀察它們之間的相互關(guān)系。103表8-1高校人數(shù)和周邊飯店季營業(yè)額飯店學生人數(shù)(千人)x季營業(yè)額(千元)y飯店學生人數(shù)(千人)x季營業(yè)額(千元)y1258616137261057201573888820169481189221495121171026202104相關(guān)圖也稱為分布圖或散點圖,它是在平面直角坐標中把相關(guān)關(guān)系的原始數(shù)據(jù)用點描繪出來,通常以直角坐標的橫軸代表自變量x,縱軸代表因變量y。相關(guān)圖所反映的變量之間的相關(guān)關(guān)系的方向和程序比相關(guān)表更為清晰,也更為直觀。105圖8-1學生人數(shù)和季營業(yè)額相關(guān)圖

1061078.1.3簡單線性相關(guān)1.相關(guān)系數(shù)相關(guān)系數(shù)是描述相關(guān)的兩個變量之間相關(guān)關(guān)系密切程度的數(shù)量指標。早在1890年,英國著名統(tǒng)計學家KarlPearson便提出了一個測定兩個變量線性相關(guān)的計算方法,通常稱為積差相關(guān)系數(shù)或簡單相關(guān)系數(shù)。1082.相關(guān)分析的意義(1)相關(guān)分析可以確定變量之間相關(guān)關(guān)系的方向和程度(2)相關(guān)分析可以衡量回歸估計的精確程度109

相關(guān)系數(shù)是對變量之間相關(guān)關(guān)系密切程度的度量對兩個變量之間線性相關(guān)程度的度量稱為簡單相關(guān)系數(shù)若相關(guān)系數(shù)是根據(jù)總體全部數(shù)據(jù)計算的,則稱為總體相關(guān)系數(shù),記為

若相關(guān)系數(shù)是根據(jù)樣本數(shù)據(jù)計算的,則稱為樣本相關(guān)系數(shù),記為r

相關(guān)系數(shù)分析

111總體相關(guān)系數(shù):式中:——是變量X和Y的協(xié)方差——是變量X的標準差——是變量Y的標準差樣本相關(guān)系數(shù):

樣本相關(guān)系數(shù)的計算公式113Excel在相關(guān)系數(shù)計算中的應用方法一:利用統(tǒng)計函數(shù)中的“CORREL”函數(shù)計算;方法二:利用統(tǒng)計函數(shù)中的“PEARSON”函數(shù)計算;方法三:利用分析工具庫中的“相關(guān)系數(shù)”工具計算。取值意義線性正相關(guān)關(guān)系線性負相關(guān)關(guān)系完全線性正相關(guān)關(guān)系完全線性負相關(guān)關(guān)系沒有線性相關(guān)關(guān)系線性相關(guān)程度越高線性相關(guān)程度越低相關(guān)系數(shù)的性質(zhì)116取值范圍相關(guān)程度高度相關(guān)中度相關(guān)低度相關(guān)弱度相關(guān)相關(guān)程度的劃分118根據(jù)給定的顯著性水平和自由度n-2,查找t分布中的相應臨界值。如果,就否定原假設,認為r在統(tǒng)計上是顯著的,即總體相關(guān)系數(shù)不為零,總體變量間存在線性相關(guān)關(guān)系。3.相關(guān)系數(shù)的顯著性檢驗提出假設:計算t檢驗統(tǒng)計量:

計算學生人數(shù)和季營業(yè)額的相關(guān)系數(shù)119

【例8.2】利用表8-1的數(shù)據(jù),計算學生人數(shù)x(萬人)和季營業(yè)額y(萬元)的相關(guān)系數(shù)。檢驗高校學生人數(shù)與周邊飯店季營業(yè)額之間的相關(guān)系數(shù)是否顯著,顯著性水平

=0.05。第一步:提出假設第二步:構(gòu)造并計算檢驗統(tǒng)計量120第三步:確定臨界值。根據(jù)給定的顯著性水平

=0.05和自由度10-2=8,查找t分布表或利用Excel計算,得到臨界值。第四步:決策。由于所以拒絕原假設,說明高校學生人數(shù)與周邊飯店季營業(yè)額之間存在著顯著的正線性相關(guān)關(guān)系。1218.2.1回歸分析

回歸分析是根據(jù)已知變量估計未知變量的一種統(tǒng)計方法,它是以對未知變量(因變量)同其他變量(自變量)相互關(guān)系的觀察為基礎,在某種精確度下,預測未知變量的數(shù)值。1228.2

線性回歸分析回歸分析的內(nèi)容和步驟:①選擇適當?shù)幕貧w模型。②進行參數(shù)估計。③進行模型的檢驗。④進行預測。即根據(jù)回歸方程進行適當?shù)慕?jīng)濟預測,這是回歸分析的最終目的。1231.總體回歸方程與樣本回歸方程例:研究家庭消費支出與家庭收入之間的關(guān)系,一個總體由50戶家庭組成,并按人均月收入水平劃分成組內(nèi)收入水平大致相同的10個組。124圖8-4不同收入水平的家庭消費支出散點分布圖125總體回歸線PRL隨機試驗所有可能結(jié)果的集合稱為總體或樣本空間由圖中看出總體回歸直線是線性的,用函數(shù)的形式來表示:

(1)

這是直線的數(shù)學表達式,在式(1)中,

E(Y|Xi)表示給定X值相應的(或條件的)Y的均值,稱為Y的條件期望或條件均值下標i代表第i個子總體。如,x=2時,y的條件均值為即收入水平為2000元的4個家庭的平均消費支出為1500元。第一節(jié)古典回歸模型注意:

E(Y|Xi)是Xi的函數(shù)(在此例中是線性函數(shù))。這意味著Y依賴于Xi,一般稱之為Y對X的回歸?;貧w可簡單地定義為在給定X值的條件下Y值分布的均值。換句話說,總體回歸直線經(jīng)過Y的條件期望值。式(1)是總體回歸函數(shù)(PopulationRegressionFunction,PRF)的數(shù)學形式。在本例中,總體回歸函數(shù)是線性函數(shù)。第一節(jié)古典回歸模型

為參數(shù)(parameters),也稱回歸系數(shù)(regressioncoefficients)。

又稱為截距(intercept),是當X為0時Y的均值

又稱為斜率(slope),斜率度量了X每變動一單位,Y

的均值的變化率。

例,如果斜率為0.5,那么,當收入x每增加1單位(千元),Y的(期望)均值將增加0.5個單位(千元);即,平均而言,消費支出將增加0.5千元。

第一節(jié)古典回歸模型模型的隨機設定從圖中可看出單個家庭的消費支出與平均消費支出之間存在著一定的離差,即

(2)

其中,表示隨機誤差項(stochastic,randomerrorterm)或簡稱為誤差項。第一節(jié)古典回歸模型表8-4從表8-3的總體中抽取一個隨機樣本

130XYXY10.7763.2021.1074.0031.7084.3041.6594.5052.50106.00圖8-5總體回歸線與樣本回歸線131得到一條很好地“擬合”了樣本數(shù)據(jù)的直線,稱之為樣本回歸線(sampleregressionlines,SRL)??赡軓腒個不同的樣本中得到K條不同的樣本回歸直線,所有的這些樣本回歸線不可能都相同。每一條直線也最多是對真實總體回歸線的近似。第一節(jié)古典回歸模型用樣本回歸函數(shù)(sampleregressionfunction,SRF)來表示樣本回歸線。

(3)

表示總體條件均值,E(Y|Xi)的估計量;

表示

的估計量;

表示

的估計量;第一節(jié)古典回歸模型建立隨機的樣本回歸函數(shù):

(4)其中ei為殘差項(residualterm),或簡稱為殘差(residual)。第一節(jié)古典回歸模型回歸分析的主要目的是根據(jù)樣本回歸函數(shù)來估計總體回歸函數(shù),第一節(jié)古典回歸模型2.相關(guān)分析與回歸分析的聯(lián)系與區(qū)別(1)相關(guān)分析與回歸分析的聯(lián)系①相關(guān)分析和回歸分析具有共同的研究對象②相關(guān)分析和回歸分析需要相互補充③相關(guān)分析是回歸分析的前提④回歸分析是相關(guān)分析的拓展136(2)相關(guān)分析與回歸分析的區(qū)別①變量的地位不同②變量的性質(zhì)不同③研究的目的不同④研究的方法不同⑤所起的作用不同1378.2.2一元線性回歸模型1.回歸模型的基本假定回歸模型是描述因變量如何依賴自變量和隨機誤差項的方程。一元線性回歸模型只涉及一個自變量,可表述為:138回歸模型的基本假定隨機誤差項是服從正態(tài)分布的實隨機變量。零均值假定。即,同方差假定,即對于自變量所有觀察值,隨機誤差項

的方差都相同。非自相關(guān)假定,即與自變量不同觀察值對應的隨機誤差項之間是互不相關(guān)、互不影響的自變量變量與隨機誤差項不相關(guān)假定。無多重共線性假定。第一節(jié)古典回歸模型2.最小二乘估計(OLS)

殘差是Yi的真實值與估計值之差,即普通最小二乘法(ordinaryleastsquares,OLS),即選擇參數(shù)

和,使得全部觀察值的殘差平方和最小。用數(shù)學形式表示為:最小二乘原理就是所選樣本回歸函數(shù)使得所有Y的估計值與真實值差的平方和最小。求解聯(lián)立方程解得

參數(shù)估計誤差和置信區(qū)間(1)估計誤差:估計值和真值的偏差。的估計誤差為:

的估計誤差為:142(2)置信區(qū)間對于給定的置信度1-

,參數(shù)的置信區(qū)間為:即以100(1-

)%的概率回歸系數(shù)屬于該區(qū)間內(nèi)。同理,參數(shù)的置信區(qū)間為1438.2.3多元線性回歸模型1.多元線性回歸模型的參數(shù)估計利用最小二乘法估計模型的參數(shù)144參數(shù)估計值應該是下列方程組的解:145定義矩陣:方程組可以用矩陣表示成:參數(shù)的最小二乘估計為1462.參數(shù)的估計誤差和置信區(qū)間參數(shù)估計值的標準差為

為矩陣對角線上的第i個元素對于給定的置信度1-

,參數(shù)的100(1-

)%置信區(qū)間為:1473.多元回歸模型中的相關(guān)分析多元回歸分析中,由于變量總數(shù)不止兩個,因變量與多個自變量的組合產(chǎn)生一定的依存關(guān)系;同時任何兩個變量之間的相關(guān)關(guān)系都可能受到其余變量的影響。為此需要對已建立的多元回歸模型進行相關(guān)分析,包括復相關(guān)和偏相關(guān)。148149(1)復相關(guān)在多變量情況下,復相關(guān)系數(shù)是用來測定因變量與一組自變量之間相關(guān)程度的指標。其計算公式為:復相關(guān)系數(shù)的值域在0到1之間,它的值為1,表明與之間存在嚴密的線性關(guān)系;它的值為0,則表明與之間不存在任何線性相關(guān)關(guān)系;它的取值在0和1之間時,表明變量之間存在一定的線性相關(guān)關(guān)系。150(2)偏相關(guān)

在多變量情況下,偏相關(guān)系數(shù)是用來測定當其他變量保持不變的情況下,任意兩個變量之間相關(guān)程度的指標。它主要考察兩個變量之間的凈相關(guān)關(guān)系,從而反映現(xiàn)象之間的真實聯(lián)系。以兩個自變量的情形為例:

x1和y偏相關(guān)系數(shù):

x2和y偏相關(guān)系數(shù):回歸分析是要通過樣本所估計的參數(shù)來代替總體的真實參數(shù)。在一次抽樣中,參數(shù)的估計值與真值的差異有多大,是否顯著,這就需要進一步進行統(tǒng)計檢驗。主要包括擬合優(yōu)度檢驗、模型的顯著性檢驗和變量的顯著性檢驗,以及預測。1518.3回歸模型的統(tǒng)計檢驗和預測8.3.1模型的擬合優(yōu)度檢驗

擬合優(yōu)度檢驗:對樣本回歸直線與樣本觀測值之間擬合程度的檢驗。度量擬合優(yōu)度的指標:判定系數(shù)(可決系數(shù))R2152問題:采用普通最小二乘估計方法,已經(jīng)保證了模型最好地擬合了樣本觀測值,為什么還要檢驗擬合程度?153

如果Yi=?i即實際觀測值落在樣本回歸“線”上,則擬合最好。可認為,“離差”全部來自回歸線,而與“殘差”無關(guān)。154

對于所有樣本點,則

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論