《統(tǒng)計(jì)學(xué)》課件 第7、8章 方差分析、相關(guān)與回歸分析_第1頁
《統(tǒng)計(jì)學(xué)》課件 第7、8章 方差分析、相關(guān)與回歸分析_第2頁
《統(tǒng)計(jì)學(xué)》課件 第7、8章 方差分析、相關(guān)與回歸分析_第3頁
《統(tǒng)計(jì)學(xué)》課件 第7、8章 方差分析、相關(guān)與回歸分析_第4頁
《統(tǒng)計(jì)學(xué)》課件 第7、8章 方差分析、相關(guān)與回歸分析_第5頁
已閱讀5頁,還剩176頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第7章方差分析PowerPoint統(tǒng)計(jì)學(xué)統(tǒng)計(jì)應(yīng)用

某飲料生產(chǎn)企業(yè)研制一種新型飲料。飲料的顏色共有四種,分為桔黃色、粉色、綠色和無色透明。隨機(jī)從五家超市收集了該種飲料上月銷量,問不同顏色是否對(duì)飲料的銷量產(chǎn)生影響?超市無色粉色桔黃色綠色126.531.227.930.8228.728.325.129.6325.130.828.532.4429.127.924.231.7527.229.626.532.8學(xué)習(xí)目標(biāo)與重難點(diǎn)提示解釋方差分析的基本概念理解方差分析的基本思想和原理※

掌握單因素方差分析的方法及應(yīng)用※

理解無交互作用的雙因素方差分析用Excel進(jìn)行方差分析※目的:為回歸分析提供方法理論基礎(chǔ)。主要章節(jié)

7.1方差分析的引論※

7.3雙因素方差分析

7.2單因素方差分析※7.1方差分析引論7.1.1方差分析及其有關(guān)術(shù)語7.1.2方差分析的基本思想和原理※7.1.3問題的一般提法內(nèi)容提示7.1.1

方差分析及其有關(guān)術(shù)語什么是方差分析(ANOVA)?

(analysisofvariance)檢驗(yàn)多個(gè)總體均值是否相等※通過分析數(shù)據(jù)的誤差判斷各總體均值是否相等(通過方差的比較)

※研究分類型自變量對(duì)數(shù)值型因變量的影響一個(gè)或多個(gè)分類型自變量?jī)蓚€(gè)或多個(gè)(k個(gè))處理水平或分類一個(gè)數(shù)值型因變量有單因素方差分析和雙因素方差分析單因素方差分析:涉及一個(gè)分類的自變量雙因素方差分析:涉及兩個(gè)分類的自變量什么是方差分析?

(例題分析)【例】某飲料生產(chǎn)企業(yè)研制一種新型飲料。飲料的顏色共有四種,分為桔黃色、粉色、綠色和無色。隨機(jī)從10家超市收集了不同顏色飲料上月銷售量,銷售量情況如下表所示,試檢驗(yàn)不同顏色飲料對(duì)銷量是否有顯著性影響?例7.1超市四個(gè)顏色的飲料銷量情況超市四個(gè)顏色的飲料銷量表顏色觀測(cè)值無色粉色桔黃色綠色1234567891040656020503055706545305055403530307060255580605565506070804545706050605055707550例7.1什么是方差分析?

(例題分析)分析四個(gè)顏色之間的銷量是否有顯著差異,也就是要判斷“顏色對(duì)“銷量”是否有顯著影響。作出這種判斷最終被歸結(jié)為檢驗(yàn)這四個(gè)顏色銷量的均值是否相等。若它們的均值相等,則意味著“顏色”對(duì)銷量是沒有影響的,即不同顏色對(duì)銷量沒有顯著差異;若均值不全相等,則意味著“顏色”對(duì)銷量是有影響的,顏色對(duì)銷量有顯著影響。方差分析中的有關(guān)術(shù)語因素或因子(factor)所要檢驗(yàn)的對(duì)象要分析顏色對(duì)銷量是否有影響,顏色是要檢驗(yàn)的因素或因子水平或處理(treatment)因子的不同表現(xiàn)桔黃色、粉色、綠色、無色就是因子的水平觀察值在每個(gè)因素水平下得到的樣本數(shù)據(jù)每個(gè)顏色中的銷量就是觀察值方差分析中的有關(guān)術(shù)語試驗(yàn)這里只涉及一個(gè)因素,因此稱為單因素四水平的試驗(yàn)總體因素的每一個(gè)水平可以看作是一個(gè)總體比如桔黃色、粉色、綠色、無色可以看作是四個(gè)總體樣本數(shù)據(jù)銷量可以看作是從這四個(gè)總體中抽取的樣本數(shù)據(jù)7.1.2

方差分析的基本思想

和原理※方差分析的基本思想和原理

(圖形分析)從散點(diǎn)圖上可以看出顏色對(duì)銷量是有明顯差異的同一個(gè)顏色,不同銷量也明顯不同桔黃色平均銷量較高,粉色平均銷量較低顏色與銷量之間有一定的關(guān)系如果顏色與銷量之間沒有關(guān)系,那么它們銷量是差不多相同,在散點(diǎn)圖上所呈現(xiàn)的模式也就應(yīng)該很接近方差分析的基本思想和原理

(圖形分析)僅從散點(diǎn)圖上觀察還不能提供充分的證據(jù)證明不同顏色銷量之間有顯著差異。這種差異也可能是由于抽樣的隨機(jī)性所造成的需要有更準(zhǔn)確的方法來檢驗(yàn)這種差異是否顯著,也就是進(jìn)行方差分析。所以叫方差分析,因?yàn)殡m然我們感興趣的是均值,但在判斷均值之間是否有差異時(shí)則需要借助于方差這個(gè)名字也表示:它是通過對(duì)數(shù)據(jù)誤差來源的分析判斷不同總體的均值是否相等。因此,進(jìn)行方差分析時(shí),需要考察數(shù)據(jù)誤差的來源。方差分析的基本思想和原理1. 比較兩類誤差,以檢驗(yàn)均值是否相等2. 比較的基礎(chǔ)是方差比3. 如果系統(tǒng)(處理)誤差明顯地不同于隨機(jī)誤差,則均值就是不相等的;反之,均值就是相等的4. 誤差是由各部分的誤差占總誤差的比例來測(cè)度的方差分析的基本思想和原理方差分析的基本思想和原理

(兩類誤差)隨機(jī)誤差因素的同一水平(總體)下,樣本各觀察值之間的差異比如,同一顏色下銷量是不同的這種差異可以看成是隨機(jī)因素的影響,稱為隨機(jī)誤差

系統(tǒng)誤差因素的不同水平(不同總體)下,各觀察值之間的差異比如,不同顏色之間的銷量之間的差異這種差異可能是由于抽樣的隨機(jī)性所造成的,也可能是由于顏色本身所造成的,后者所形成的誤差是由系統(tǒng)性因素造成的,稱為系統(tǒng)誤差方差分析的基本思想和原理

(誤差平方和)數(shù)據(jù)的誤差用平方和(sumofsquares)表示組內(nèi)平方和(withingroups)因素的同一水平(同一個(gè)總體)下樣本數(shù)據(jù)的平方和比如,桔黃色銷量的誤差平方和組內(nèi)平方和只包含隨機(jī)誤差組間平方和(betweengroups)因素的不同水平(不同總體)下各樣本之間的平方和比如,四個(gè)顏色銷量之間的誤差平方和組間平方和既包括隨機(jī)誤差,也包括系統(tǒng)誤差方差分析的基本思想和原理

(誤差的比較)若原假設(shè)成立,組間平方和與組內(nèi)平方和經(jīng)過平均后的數(shù)值就應(yīng)該很接近,它們的比值就會(huì)接近1。若原假設(shè)不成立,組間平方和平均后的數(shù)值就會(huì)大于組內(nèi)平方和平均后的數(shù)值,它們之間的比值就會(huì)大于1。當(dāng)這個(gè)比值大到某種程度時(shí),就可以說不同水平之間存在著顯著差異,也就是自變量對(duì)因變量有影響判斷顏色對(duì)銷量是否有顯著影響,也就是檢驗(yàn)銷量的差異主要是由于什么原因所引起的。如果這種差異主要是系統(tǒng)誤差,說明不同顏色對(duì)銷量有顯著影響。7.1.3問題的一般提法問題的一般提法設(shè)因素有k個(gè)水平,每個(gè)水平的均值分別用

1,

2,,

k

表示要檢驗(yàn)k個(gè)水平(總體)的均值是否相等,需要提出如下假設(shè):H0:

1

2

k

H1:

1,

2,,

k

不全相等設(shè)

1為無色銷量的均值,

2為粉色銷量的均值,

3為桔黃色銷量的均值,

4為綠色銷量的均值,提出的假設(shè)為H0:

1

2

3

4

顏色與銷量沒有顯著影響H1:

1,

2,

3,

4

不全相等顏色與銷量有顯著影響7.2單因素方差分析※

7.2.1數(shù)據(jù)結(jié)構(gòu)7.2.2分析步驟7.2.3關(guān)系強(qiáng)度的測(cè)量※

7.2.4用Excel進(jìn)行方差分析※內(nèi)容提示7.2.1

單因素方差分析的數(shù)據(jù)結(jié)構(gòu)

7.2.1

單因素方差分析的數(shù)據(jù)結(jié)構(gòu)

(one-wayanalysisofvariance)

觀察值(j)因素(A)i

水平A1水平A2

…水平Ak12::n

x11

x21

xk1x12

x22

xk2::

:

:::

:

:x1n

x2n

xkn分析步驟※提出假設(shè)構(gòu)造檢驗(yàn)統(tǒng)計(jì)量(給出臨界值)統(tǒng)計(jì)決策(決策與結(jié)論)7.2.2單因素方差分析步驟提出假設(shè)一般提法H0

:m1=m2=…=

mk

自變量對(duì)因變量沒有顯著影響

H1:m1

,m2

,…

,mk不全相等自變量對(duì)因變量有顯著影響

注意:拒絕原假設(shè),只表明至少有兩個(gè)總體的均值不相等,并不意味著所有的均值都不相等構(gòu)造檢驗(yàn)的統(tǒng)計(jì)量構(gòu)造統(tǒng)計(jì)量需要計(jì)算:水平的均值全部觀察值的總均值誤差平方和(SS)

SST=SSA+SSE均方差(MS)

MST=MSA+MSE構(gòu)造檢驗(yàn)的統(tǒng)計(jì)量

(計(jì)算水平的均值)假定從第i個(gè)總體中抽取一個(gè)容量為ni的簡(jiǎn)單隨機(jī)樣本,第i個(gè)總體的樣本均值為該樣本的全部觀察值總和除以觀察值的個(gè)數(shù)(組內(nèi)均值-水平均值)計(jì)算公式為式中:ni為第i個(gè)總體的樣本觀察值個(gè)數(shù)

xij為第i個(gè)總體的第j個(gè)觀察值

構(gòu)造檢驗(yàn)的統(tǒng)計(jì)量

(計(jì)算全部觀察值的總均值)全部觀察值的總和除以觀察值的總個(gè)數(shù)計(jì)算公式為

(總平均值)構(gòu)造檢驗(yàn)的統(tǒng)計(jì)量(例題分析)

超市4個(gè)顏色飲料銷量及其均值超市顏色無色粉色桔黃色綠色1403055452655080703605560604204055505503565606303050507553060558707070709656080751045254550構(gòu)造檢驗(yàn)的統(tǒng)計(jì)量

(計(jì)算總誤差平方和SST)全部觀察值

與總平均值

的離差平方和反映全部觀察值的離散狀況其計(jì)算公式為

前例的計(jì)算結(jié)果:

SST=(40-53.25)2+…+(50-53.25)2=9027.5構(gòu)造檢驗(yàn)的統(tǒng)計(jì)量

(計(jì)算水平項(xiàng)平方和SSA)各組平均值與總平均值

的離差平方和反映各總體的樣本均值之間的差異程度,又稱組間平方和該平方和既包括隨機(jī)誤差,也包括系統(tǒng)誤差計(jì)算公式為

前例的計(jì)算結(jié)果:SSA=2302.5構(gòu)造檢驗(yàn)的統(tǒng)計(jì)量

(計(jì)算誤差項(xiàng)平方和SSE)每個(gè)水平或組的各樣本數(shù)據(jù)與其組平均值的離差平方和反映每個(gè)樣本各觀察值的離散狀況,又稱組內(nèi)平方和該平方和反映的是隨機(jī)誤差的大小計(jì)算公式為

前例的計(jì)算結(jié)果:SSE=6725構(gòu)造檢驗(yàn)的統(tǒng)計(jì)量

(三個(gè)平方和的關(guān)系)

總離差平方和(SST)、誤差項(xiàng)離差平方和(SSE)、水平項(xiàng)離差平方和(SSA)之間的關(guān)系SST=SSA+SSE

前例的計(jì)算結(jié)果:

9027.5=2302.5+6725構(gòu)造檢驗(yàn)的統(tǒng)計(jì)量

(三個(gè)平方和的作用)

SST反映全部數(shù)據(jù)總的誤差程度;SSE(組內(nèi)平方和)反映隨機(jī)誤差的大??;SSA(組間平方和)反映隨機(jī)誤差和系統(tǒng)誤差的大小如果原假設(shè)成立,則表明沒有系統(tǒng)誤差,組間平方和SSA除以自由度后的均方與組內(nèi)平方和SSE除以自由度后的均方差異就不會(huì)太大;如果組間均方顯著地大于組內(nèi)均方,說明各水平(總體)之間的差異不僅有隨機(jī)誤差,還有系統(tǒng)誤差判斷因素的水平是否對(duì)其觀察值有影響,實(shí)際上就是比較組間方差與組內(nèi)方差之間差異的大小構(gòu)造檢驗(yàn)的統(tǒng)計(jì)量

(計(jì)算均方MS)各誤差平方和的大小與觀察值的多少有關(guān),為消除觀察值多少對(duì)誤差平方和大小的影響,需要將其平均,這就是均方,也稱為方差計(jì)算方法是用誤差平方和除以相應(yīng)的自由度三個(gè)平方和對(duì)應(yīng)的自由度分別是SST(總誤差平方和)

的自由度為n-1,其中n為全部觀察值的個(gè)數(shù)SSA(組間平方和)的自由度為k-1,其中k為因素水平(總體)的個(gè)數(shù)SSE(組內(nèi)平方和)的自由度為n-k構(gòu)造檢驗(yàn)的統(tǒng)計(jì)量

(計(jì)算均方MS)

組間方差:SSA的均方,記為MSA,計(jì)算公式為:

組內(nèi)方差:SSE的均方,記為MSE,計(jì)算公式為:構(gòu)造檢驗(yàn)的統(tǒng)計(jì)量

(計(jì)算檢驗(yàn)統(tǒng)計(jì)量F)將MSA和MSE進(jìn)行對(duì)比,即得到所需要的檢驗(yàn)統(tǒng)計(jì)量F當(dāng)H0為真時(shí),二者的比值服從分子自由度為k-1、分母自由度為n-k的

F分布,即構(gòu)造檢驗(yàn)的統(tǒng)計(jì)量

(F分布與拒絕域)如果均值相等,F(xiàn)=MSA/MSE

1a

F分布F

(k-1,n-k)0拒絕H0不能拒絕H0F統(tǒng)計(jì)決策

將統(tǒng)計(jì)量的值F與給定的顯著性水平

的臨界值F

進(jìn)行比較,作出對(duì)原假設(shè)H0的決策。根據(jù)給定的顯著性水平

,在F分布表中查找與第一自由度(分子)df1=k-1、第二自由度(分母)df2=n-k相應(yīng)的臨界值

F

。若F>F

,則拒絕原假設(shè)H0

,表明均值之間的差異是顯著的,所檢驗(yàn)的因素對(duì)觀察值有顯著影響。若F<F

,則不能拒絕原假設(shè)H0

,無證據(jù)支持表明所檢驗(yàn)的因素對(duì)觀察值有顯著影響。統(tǒng)計(jì)量F的抽樣分布

F

(k-1,n-k)0拒絕H0不能拒絕H0F例題7.1分析1.提出假設(shè)2.根據(jù)數(shù)據(jù)計(jì)算結(jié)果3.顯著性水平

,在F分布表中查找與分子自由度df1=k-1=3、分母自由度df2=n-k=36,相應(yīng)的臨界值

F

4.決策:5.結(jié)論:由樣本提供的信息表明:顏色之間的銷量均值有顯著性差異,即不同顏色對(duì)銷量有顯著性影響。單因素方差分析表

(基本結(jié)構(gòu))

7.2.4

用Excel進(jìn)行方差分析※用Excel進(jìn)行方差分析

(Excel檢驗(yàn)步驟)第1步:選擇“工具”下拉菜單第2步:選擇“數(shù)據(jù)分析”選項(xiàng)第3步:在分析工具中選擇“單因素方差分析”

,然后選擇“確定”第4步:當(dāng)對(duì)話框出現(xiàn)時(shí)

在“輸入?yún)^(qū)域”方框內(nèi)鍵入數(shù)據(jù)單元格區(qū)域在

方框內(nèi)鍵入0.05(可根據(jù)需要確定)在“輸出選項(xiàng)”中選擇輸出區(qū)域

用Excel進(jìn)行方差分析單因素方差分析

4個(gè)顏色飲料銷量的方差分析表7.2.3關(guān)系強(qiáng)度的測(cè)量※關(guān)系強(qiáng)度的測(cè)量

拒絕原假設(shè)表明因素(自變量)與觀測(cè)值(因變量)之間有關(guān)系組間平方和(SSA)度量了自變量(顏色)對(duì)因變量(銷量)的影響效應(yīng)只要組間平方和SSA不等于0,就表明兩個(gè)變量之間有關(guān)系(只是是否顯著的問題)當(dāng)組間平方和比組內(nèi)平方和(SSE)大,而且大到一定程度時(shí),就意味著兩個(gè)變量之間的關(guān)系顯著,大得越多,表明兩變量之間的關(guān)系就越強(qiáng)。反之,就意味著兩個(gè)變量之間的關(guān)系不顯著,小得越多,表明它們之間的關(guān)系就越弱。關(guān)系強(qiáng)度的測(cè)量

變量間關(guān)系的強(qiáng)度用自變量平方和(SSA)及殘差平方和(SSE)占總平方和(SST)的比例大小來反映自變量平方和占總平方和的比例記為R2,即其平方根R就可以用來測(cè)量?jī)蓚€(gè)變量之間的關(guān)系強(qiáng)度關(guān)系強(qiáng)度的測(cè)量

(例題分析)

R=0.505029結(jié)論:顏色(自變量)對(duì)銷量(因變量)的影響效應(yīng)占總效應(yīng)的25.5054%,而殘差效應(yīng)則占74.49496%。即顏色對(duì)銷量差異解釋的比例達(dá)到近26%,而其他因素(殘差變量)所解釋的比例近為74%以上。

R=0.505029,表明顏色與銷量之間有中等的相關(guān)關(guān)系。課堂練習(xí)某企業(yè)準(zhǔn)備用3種方法組裝一種新的產(chǎn)品,為確定哪種方法每小時(shí)生產(chǎn)的產(chǎn)品數(shù)量最多,隨機(jī)抽取了32名工人,并指定每個(gè)人使用其中的一種方法,通過對(duì)每個(gè)工人生產(chǎn)的產(chǎn)品數(shù)進(jìn)行方差分析得到下面的結(jié)果(1)完成方差分析表(2)若顯著性水平為0.05,檢驗(yàn)3種方法組裝的產(chǎn)品數(shù)量之間是否有顯著性差異?課堂練習(xí)差異源SSdfMSFPFcrit組間2100.24593.35組內(nèi)3836---總計(jì)31----2294204256132.31.59(1)完成方差分析表(2)若顯著性水平α=0.05,因?yàn)閜>α,所以不拒絕原假設(shè),沒有足夠證據(jù)表明三種方法對(duì)產(chǎn)量有顯著性影響。

(3)關(guān)系強(qiáng)度R2=420/4256=0.0987

R=0.317.3雙因素方差分析7.3.1雙因素方差分析及其類型7.3.2無交互作用的雙因素方差分析內(nèi)容提示7.3.1

雙因素方差分析及其類型雙因素方差分析

(two-wayanalysisofvariance)

分析兩個(gè)因素(行因素Row和列因素Column)對(duì)試驗(yàn)結(jié)果的影響如果兩個(gè)因素對(duì)試驗(yàn)結(jié)果的影響是相互獨(dú)立的,分別判斷行因素和列因素對(duì)試驗(yàn)數(shù)據(jù)的影響,這時(shí)的雙因素方差分析稱為無交互作用的雙因素方差分析或無重復(fù)雙因素方差分析(Two-factorwithoutreplication)如果除了行因素和列因素對(duì)試驗(yàn)數(shù)據(jù)的單獨(dú)影響外,兩個(gè)因素的搭配還會(huì)對(duì)結(jié)果產(chǎn)生一種新的影響,這時(shí)的雙因素方差分析稱為有交互作用的雙因素方差分析或可重復(fù)雙因素方差分析

(Two-factorwithreplication)雙因素方差分析的基本假定每個(gè)總體都服從正態(tài)分布對(duì)于因素的每一個(gè)水平,其觀察值是來自正態(tài)分布總體的簡(jiǎn)單隨機(jī)樣本各個(gè)總體的方差必須相同對(duì)于各組觀察數(shù)據(jù),是從具有相同方差的總體中抽取的觀察值是獨(dú)立的7.3.2

無交互作用的雙因素方差分析

(無重復(fù)雙因素分析)數(shù)據(jù)結(jié)構(gòu)

雙因素方差分析

(例題分析)不同品牌的彩電在各地區(qū)的銷售量數(shù)據(jù)品牌因素地區(qū)因素地區(qū)1地區(qū)2地區(qū)3地區(qū)4地區(qū)5品牌1品牌2品牌3品牌4365345358288350368323280343363353298340330343260323333308298【例】有4個(gè)品牌的彩電在5個(gè)地區(qū)銷售,為分析彩電的品牌(品牌因素)和銷售地區(qū)(地區(qū)因素)對(duì)銷售量是否有影響,對(duì)每種品牌在各地區(qū)的銷售量取得以下數(shù)據(jù)。試分析品牌和銷售地區(qū)對(duì)彩電的銷售量是否有顯著影響?(=0.05)數(shù)據(jù)結(jié)構(gòu)

是行因素的第i個(gè)水平下各觀察值的平均值

是列因素的第j個(gè)水平下的各觀察值的均值

是全部kr個(gè)樣本數(shù)據(jù)的總平均值分析步驟

(提出假設(shè))

提出假設(shè)對(duì)行因素提出的假設(shè)為H0:m1=m2

=

…=mi=…=

mk(mi為第i個(gè)水平的均值)H1:mi

(i=1,2,…,k)

不全相等對(duì)列因素提出的假設(shè)為H0:m1=m2

=

…=mj=…=

mr(mj為第j個(gè)水平的均值)H1:mj

(j=1,2,…,r)

不全相等分析步驟

(構(gòu)造檢驗(yàn)的統(tǒng)計(jì)量)

計(jì)算平方和(SS)總誤差平方和行因素誤差平方和列因素誤差平方和隨機(jī)誤差項(xiàng)平方和分析步驟

(構(gòu)造檢驗(yàn)的統(tǒng)計(jì)量)

總離差平方和(SST)、水平項(xiàng)離差平方和(SSR和SSC)、誤差項(xiàng)離差平方和(SSE)之間的關(guān)系SST=SSR+SSC+SSE

分析步驟

(構(gòu)造檢驗(yàn)的統(tǒng)計(jì)量)

計(jì)算均方(MS)誤差平方和除以相應(yīng)的自由度三個(gè)平方和的自由度分別是總離差平方和SST的自由度為

kr-1行因素的離差平方和SSR的自由度為

k-1列因素的離差平方和SSC的自由度為

r-1隨機(jī)誤差平方和SSE的自由度為

(k-1)×(r-1)

分析步驟

(構(gòu)造檢驗(yàn)的統(tǒng)計(jì)量)

計(jì)算均方(MS)行因素的均方,記為MSR,計(jì)算公式為列因素的均方,記為MSC

,計(jì)算公式為隨機(jī)誤差項(xiàng)的均方,記為MSE

,計(jì)算公式為分析步驟

(構(gòu)造檢驗(yàn)的統(tǒng)計(jì)量)

計(jì)算檢驗(yàn)統(tǒng)計(jì)量(F)檢驗(yàn)行因素的統(tǒng)計(jì)量檢驗(yàn)列因素的統(tǒng)計(jì)量分析步驟

(統(tǒng)計(jì)決策)

將統(tǒng)計(jì)量的值F與給定的顯著性水平

的臨界值F

進(jìn)行比較,作出對(duì)原假設(shè)H0的決策根據(jù)給定的顯著性水平

在F分布表中查找相應(yīng)的臨界值F

若FR>F

,則拒絕原假設(shè)H0

,表明均值之間的差異是顯著的,即所檢驗(yàn)的行因素對(duì)觀察值有顯著影響。若FC

>F

,則拒絕原假設(shè)H0

,表明均值之間有顯著差異,即所檢驗(yàn)的列因素對(duì)觀察值有顯著影響。雙因素方差分析表

(基本結(jié)構(gòu))雙因素方差分析

(例題分析)

提出假設(shè)對(duì)品牌因素提出的假設(shè)為H0:

m1=m2=m3=m4(品牌對(duì)銷售量無顯著影響)H1:

mi

(i=1,2,…,4)

不全相等(有顯著影響)對(duì)地區(qū)因素提出的假設(shè)為H0:m1=m2=m3=m4=m5(地區(qū)對(duì)銷售量無顯著影響)H1:mj

(j=1,2,…,5)

不全相等(有顯著影響)

用Excel進(jìn)行無重復(fù)雙因素分析※雙因素方差分析

(例題分析)

結(jié)論:

FR=18.10777>F

=3.4903,拒絕原假設(shè)H0,說明彩電的品牌對(duì)銷售量有顯著影響。

FC=2.100846<F

=3.2592,不拒絕原假設(shè)H0,無證據(jù)表明銷售地區(qū)對(duì)彩電的銷售量有顯著影響。雙因素方差分析

(關(guān)系強(qiáng)度的測(cè)量)行平方和(行SS)度量了品牌這個(gè)自變量對(duì)因變量(銷售量)的影響效應(yīng)列平方和(列SS)度量了地區(qū)這個(gè)自變量對(duì)因變量(銷售量)的影響效應(yīng)這兩個(gè)平方和加在一起則度量了兩個(gè)自變量對(duì)因變量的聯(lián)合效應(yīng)聯(lián)合效應(yīng)與總平方和的比值定義為R2其平方根R反映了這兩個(gè)自變量合起來與因變量之間的關(guān)系強(qiáng)度雙因素方差分析

(關(guān)系強(qiáng)度的測(cè)量)

例題分析品牌因素和地區(qū)因素合起來總共解釋了銷售量差異的83.94%其他因素(殘差變量)只解釋了銷售量差異的16.06%R=0.9162,表明品牌和地區(qū)兩個(gè)因素合起來與銷售量之間有較強(qiáng)的關(guān)系.※本章小結(jié)方差分析(ANOVA)的概念※

方差分析的思想和原理※

方差分析中的基本假設(shè)※

單因素方差分析※

用Excel進(jìn)行檢驗(yàn)※

(上機(jī)操作)無交互作用雙因素方差分析通過方差比較,檢驗(yàn)多個(gè)總體均值是否相等.結(jié)束THANKS預(yù)習(xí)相關(guān)關(guān)系及其測(cè)定方法一元線性回歸模型與最小二乘法的基本思想3.

回歸直線的擬合優(yōu)度和顯著性檢驗(yàn)4.

利用回歸方程進(jìn)行估計(jì)和預(yù)測(cè)課前復(fù)習(xí)思考題11.什么是方差分析?方差分析的基本原理是什么?什么是因素?什么是水平?2.方差分析中有哪三個(gè)誤差?它們之間有什么關(guān)系?3.單因素方差分析關(guān)系強(qiáng)度指標(biāo)如何測(cè)定?有何意義?第8章相關(guān)與回歸分析

任課教師:黃

統(tǒng)計(jì)學(xué)子代與父代一樣嗎?3Galton被譽(yù)為現(xiàn)代回歸和相關(guān)技術(shù)的創(chuàng)始人。1875年,Galton利用豌豆實(shí)驗(yàn)來確定尺寸的遺傳規(guī)律。他挑選了7組不同尺寸的豌豆,并說服他在英國不同地區(qū)的朋友每一組種植10粒種子,最后把原始的豌豆種子(父代)與新長(zhǎng)的豌豆種子(子代)進(jìn)行尺寸比較當(dāng)結(jié)果被繪制出來之后,他發(fā)現(xiàn)并非每一個(gè)子代都與父代一樣,不同的是,尺寸小的豌豆會(huì)得到更大的子代,而尺寸大的豌豆卻得到較小的子代。Galton把這一現(xiàn)象叫做“返祖”(趨向于祖先的某種平均類型),后來又稱之為“向平均回歸”。一個(gè)總體中在某一時(shí)期具有某一極端特征(低于或高于總體均值)的個(gè)體在未來的某一時(shí)期將減弱它的極端性(或者是單個(gè)個(gè)體或者是整個(gè)子代),這一趨勢(shì)現(xiàn)在被稱作“回歸效應(yīng)”。人們發(fā)現(xiàn)它的應(yīng)用很廣,而不僅限于從一代到下一代豌豆大小問題子代與父代一樣嗎?4正如Galton進(jìn)一步發(fā)現(xiàn)的那樣,平均來說,非常矮小的父輩傾向于有偏高的子代;而非常高大的父輩則傾向于有偏矮的子代。在第一次考試中成績(jī)最差的那些學(xué)生在第二次考試中傾向于有更好的成績(jī)(比較接近所有學(xué)生的平均成績(jī)),而第一次考試中成績(jī)最好的那些學(xué)生在第二次考試中則傾向于有較差的成績(jī)(同樣比較接近所有學(xué)生的平均成績(jī))。同樣,平均來說,第一年利潤(rùn)最低的公司第二年不會(huì)最差,而第一年利潤(rùn)最高的公司第二年則不會(huì)是最好的如果把父代和子代看作兩個(gè)變量,找出這兩個(gè)變量的關(guān)系,并根據(jù)這種關(guān)系建立適當(dāng)?shù)臄?shù)學(xué)模型,就可以根據(jù)父代的數(shù)值預(yù)測(cè)子代的取值,這就是經(jīng)典的回歸方法要解決的問題。學(xué)完本章的內(nèi)容你會(huì)對(duì)回歸問題有更深入的理解學(xué)習(xí)目標(biāo)與重難點(diǎn)提示51. 掌握一元線性相關(guān)系數(shù)的計(jì)算與分析※

理解線性回歸的基本原理和參數(shù)的最小二乘估計(jì)掌握一元線性回歸直線的擬合優(yōu)度※

掌握一元線性回歸方程的顯著性檢驗(yàn)※

利用回歸方程進(jìn)行估計(jì)和預(yù)測(cè)用

Excel

進(jìn)行回歸分析※

目的:為“動(dòng)態(tài)分析”打基礎(chǔ)。目

錄CONTENTS8.1變量間關(guān)系的度量※

8.2

一元線性回歸分析※8.3

利用回歸方程進(jìn)行估計(jì)和預(yù)測(cè)※變量間關(guān)系的度量|8.1.1變量間的關(guān)系|8.1.2相關(guān)關(guān)系的描述與測(cè)度|8.1.3相關(guān)關(guān)系的顯著性檢驗(yàn)|變量間的關(guān)系|點(diǎn)擊輸入單元/小節(jié)一級(jí)標(biāo)題|點(diǎn)擊輸入單元/小節(jié)一級(jí)標(biāo)題|8.1.1

變量間的關(guān)系

函數(shù)關(guān)系(幾個(gè)例子)9

函數(shù)關(guān)系的例子某種商品的銷售額(y)與銷售量(x)之間的關(guān)系可表示為y=px

(p為單價(jià))圓的面積(S)與半徑之間的關(guān)系可表示為S=R2

企業(yè)的原材料消耗額(y)與產(chǎn)量(x1)、單位產(chǎn)量消耗(x2)、原材料價(jià)格(x3)之間的關(guān)系可表示為y=x1x2x3

8.1.1

變量間的關(guān)系

函數(shù)關(guān)系10是一一對(duì)應(yīng)的確定關(guān)系。設(shè)有兩個(gè)變量x和y,變量y隨變量x一起變化,并完全依賴于x,當(dāng)變量x取某個(gè)數(shù)值時(shí),

y依確定的關(guān)系取相應(yīng)的值,則稱y是x的函數(shù),記為y=f(x),其中x稱為自變量,y稱為因變量。各觀測(cè)點(diǎn)落在一條線上。

xy8.1.1

變量間的關(guān)系

相關(guān)關(guān)系(correlation)11變量間關(guān)系不能用函數(shù)關(guān)系精確表達(dá)一個(gè)變量的取值不能由另一個(gè)變量唯一確定當(dāng)變量x取某個(gè)值時(shí),變量y的取值可能有幾個(gè)各觀測(cè)點(diǎn)分布在直線周圍

xy8.1.1

變量間的關(guān)系

相關(guān)關(guān)系(幾個(gè)例子)12

相關(guān)關(guān)系的例子父親身高(y)與子女身高(x)之間的關(guān)系收入水平(y)與受教育程度(x)之間的關(guān)系糧食畝產(chǎn)量(y)與施肥量(x1)、降雨量(x2)、溫度(x3)之間的關(guān)系商品的消費(fèi)量(y)與居民收入(x)之間的關(guān)系商品銷售額(y)與廣告費(fèi)支出(x)之間的關(guān)系8.1.1

變量間的關(guān)系

相關(guān)關(guān)系(類型)13散點(diǎn)圖相關(guān)系數(shù)※相關(guān)分析要解決的問題相關(guān)關(guān)系的描述與測(cè)度|散點(diǎn)圖|相關(guān)系數(shù)|8.1.2

相關(guān)關(guān)系的描述與測(cè)度

相關(guān)關(guān)系--散點(diǎn)圖(scatterdiagram)15

不相關(guān)

負(fù)線性相關(guān)

正線性相關(guān)

非線性相關(guān)

完全負(fù)線性相關(guān)完全正線性相關(guān)

8.1.2

相關(guān)關(guān)系的描述與測(cè)度

散點(diǎn)圖

(例題分析)例8.616【例】一家投資公司在多個(gè)地區(qū)設(shè)有分行,其業(yè)務(wù)主要是進(jìn)行基礎(chǔ)設(shè)施建設(shè)、國家重點(diǎn)項(xiàng)目建設(shè)、固定資產(chǎn)投資等項(xiàng)目的貸款投資。近年來,該銀行的貸款額平穩(wěn)增長(zhǎng),但不良貸款額也有較大比例的增長(zhǎng),這給銀行業(yè)務(wù)的發(fā)展帶來較大壓力。為弄清楚不良貸款形成的原因,希望利用銀行業(yè)務(wù)的有關(guān)數(shù)據(jù)做些定量分析,以便找出控制不良貸款的辦法。下面是該銀行所屬的25家分公司2015年的有關(guān)業(yè)務(wù)數(shù)據(jù)8.1.2

相關(guān)關(guān)系的描述與測(cè)度

散點(diǎn)圖

(例題分析)P192表8-1

178.1.2

相關(guān)關(guān)系的描述與測(cè)度

散點(diǎn)圖

(例題分析)18圖8-2~圖8-5

思考

8.1.2

相關(guān)關(guān)系的描述與測(cè)度

相關(guān)系數(shù)

(correlationcoefficient)19對(duì)變量之間關(guān)系密切程度的度量對(duì)兩個(gè)變量之間線性相關(guān)程度的度量稱為簡(jiǎn)單相關(guān)系數(shù)若相關(guān)系數(shù)是根據(jù)總體全部數(shù)據(jù)計(jì)算的,稱為總體相關(guān)系數(shù),記為

若是根據(jù)樣本數(shù)據(jù)計(jì)算的,則稱為樣本相關(guān)系數(shù),記為

r8.1.2

相關(guān)關(guān)系的描述與測(cè)度

相關(guān)系數(shù)(計(jì)算公式)20

樣本相關(guān)系數(shù)的計(jì)算公式或化簡(jiǎn)為8.1.2

相關(guān)關(guān)系的描述與測(cè)度

相關(guān)系數(shù)(取值及其意義)21-1.0+1.00-0.5+0.5完全負(fù)相關(guān)無線性相關(guān)完全正相關(guān)負(fù)相關(guān)程度增加r正相關(guān)程度增加r

=0,不存在線性相關(guān)關(guān)系相關(guān)-1

r<0,為負(fù)相關(guān)0<r

1,為正相關(guān)r

的取值范圍是[-1,1]8.1.2

相關(guān)關(guān)系的描述與測(cè)度

相關(guān)系數(shù)

(取值及其意義)22

r

的取值范圍是[-1,1]|r|=1,為完全相關(guān)r

=1,為完全正相關(guān)r

=-1,為完全負(fù)相關(guān)

r

=0,不存在線性相關(guān)關(guān)系相關(guān)

-1

r<0,為負(fù)相關(guān)

0<r

1,為正相關(guān)

|r|越趨于1表示關(guān)系越密切;|r|越趨于0表示關(guān)系越不密切相關(guān)系數(shù)的性質(zhì)8.1.2

相關(guān)關(guān)系的描述與測(cè)度

相關(guān)系數(shù)的經(jīng)驗(yàn)解釋231.

|r|

0.8時(shí),可視為兩個(gè)變量之間高度線性相關(guān)2.

0.5

|r|<0.8時(shí),可視為中度線性相關(guān)3.

0.3

|r|<0.5時(shí),視為低度線性相關(guān)4.

|r|<0.3時(shí),說明兩個(gè)變量之間的相關(guān)程度極弱,可視為不相關(guān)5.

上述解釋必須建立在對(duì)相關(guān)系數(shù)的顯著性進(jìn)行檢驗(yàn)的基礎(chǔ)之上8.1.2

相關(guān)關(guān)系的描述與測(cè)度

相關(guān)系數(shù)

(例題分析)248.1.2

相關(guān)關(guān)系的描述與測(cè)度

相關(guān)系數(shù)的經(jīng)驗(yàn)解釋251.

|r|

0.8時(shí),可視為兩個(gè)變量之間高度線性相關(guān)2.

0.5

|r|<0.8時(shí),可視為中度線性相關(guān)3.

0.3

|r|<0.5時(shí),視為低度線性相關(guān)4.

|r|<0.3時(shí),說明兩個(gè)變量之間的相關(guān)程度極弱,可視為不相關(guān)5.

上述解釋必須建立在對(duì)相關(guān)系數(shù)的顯著性進(jìn)行檢驗(yàn)的基礎(chǔ)之上相關(guān)關(guān)系的顯著性檢驗(yàn)|點(diǎn)擊輸入單元/小節(jié)一級(jí)標(biāo)題|點(diǎn)擊輸入單元/小節(jié)一級(jí)標(biāo)題|8.1.3

相關(guān)關(guān)系的顯著性檢驗(yàn)

相關(guān)系數(shù)的顯著性檢驗(yàn)(檢驗(yàn)的步驟)271. 檢驗(yàn)兩個(gè)變量之間是否存在線性相關(guān)關(guān)系等價(jià)于對(duì)回歸系數(shù)β1的檢驗(yàn)采用R.A.Fisher提出的

t

檢驗(yàn)檢驗(yàn)的步驟為提出假設(shè):H0:

;H1:

0

計(jì)算檢驗(yàn)的統(tǒng)計(jì)量:

確定顯著性水平,并作出決策若t>t

,拒絕H0

表明存在線性相關(guān)關(guān)系若t<t

,不能拒絕H0

表明兩變量之間沒有線性相關(guān)關(guān)系(8.3)8.1.3

相關(guān)關(guān)系的顯著性檢驗(yàn)

相關(guān)系數(shù)的顯著性檢驗(yàn)(例題分析)28

對(duì)不良貸款與貸款余額之間的相關(guān)系數(shù)進(jìn)行顯著性檢(0.05)8.1.3

相關(guān)關(guān)系的顯著性檢驗(yàn)

相關(guān)系數(shù)

(例題分析)298.1.3

相關(guān)關(guān)系的顯著性檢驗(yàn)

相關(guān)系數(shù)的顯著性檢驗(yàn)(例題分析)30

對(duì)不良貸款與貸款余額之間的相關(guān)系數(shù)進(jìn)行顯著性檢(0.05)提出假設(shè):H0:

;H1:

0計(jì)算檢驗(yàn)的統(tǒng)計(jì)量:3.根據(jù)顯著性水平

=0.05,查t分布表得:

t

(n-2)=2.0687由于t=7.5344>t

(25-2)=2.0687,拒絕H0,表明“不良貸款”與“貸款余額”之間存在著顯著的正線性相關(guān)關(guān)系。8.1.3

相關(guān)關(guān)系的顯著性檢驗(yàn)

相關(guān)系數(shù)的顯著性檢驗(yàn)(例題分析)31各相關(guān)系數(shù)檢驗(yàn)的統(tǒng)計(jì)量(t值)8.1.3

相關(guān)關(guān)系的顯著性檢驗(yàn)

課堂練習(xí)32某企業(yè)生產(chǎn)甲產(chǎn)品1-5月份產(chǎn)量與總成本資料如下:月份產(chǎn)量(萬件)成本(萬元)13.811025.011533.18046.113257.2135合計(jì)25.2572產(chǎn)量與成本的相關(guān)系數(shù)為0.923145,請(qǐng)對(duì)產(chǎn)量與成本樣本相關(guān)系數(shù)的顯著性進(jìn)行檢驗(yàn)(

0.05

)8.1.3

相關(guān)關(guān)系的顯著性檢驗(yàn)

參考答案33根據(jù)顯著性水平=0.05,查t分布表得:

t

(n-2)=3.1824由于t=4.16>t

(5-2)=3.1824,拒絕H0,表明“產(chǎn)量”與“成本”之間存在著顯著的正線性相關(guān)關(guān)系。

解:

;H1:

0一元線性回歸分析|8.2.1一元線性回歸模型|8.2.2參數(shù)的最小二乘估計(jì)||8.2.3回歸直線的擬合優(yōu)度|8.2.4顯著性檢驗(yàn)|8.2一元線性回歸分析

什么是回歸分析?(Regression)35從一組樣本數(shù)據(jù)出發(fā),確定變量之間的數(shù)學(xué)關(guān)系式對(duì)這些關(guān)系式的可信程度進(jìn)行各種統(tǒng)計(jì)檢驗(yàn),并從影響某一特定變量的諸多變量中找出哪些變量的影響顯著,哪些不顯著利用所求的關(guān)系式,根據(jù)一個(gè)或幾個(gè)變量的取值來預(yù)測(cè)或控制另一個(gè)特定變量的取值,并給出這種預(yù)測(cè)或控制的精確程度回歸分析要解決的問題8.2一元線性回歸分析

回歸分析與相關(guān)分析的區(qū)別36相關(guān)分析中,變量

x變量

y

處于平等的地位;回歸分析中,變量y稱為因變量,處在被解釋的地位,x稱為自變量,用于預(yù)測(cè)因變量的變化相關(guān)分析中所涉及的變量x和y都是隨機(jī)變量;回歸分析中,因變量y是隨機(jī)變量,自變量x可以是隨機(jī)變量,也可以是非隨機(jī)的確定變量相關(guān)分析主要是描述兩個(gè)變量之間線性關(guān)系的密切程度;回歸分析不僅可以揭示變量x對(duì)變量y的影響大小,還可以由回歸方程進(jìn)行預(yù)測(cè)和控制如:工資依勞動(dòng)生產(chǎn)率的方程:

y=50+80x8.2一元線性回歸分析

回歸模型的類型37一元線性回歸模型|點(diǎn)擊輸入單元/小節(jié)一級(jí)標(biāo)題|點(diǎn)擊輸入單元/小節(jié)一級(jí)標(biāo)題|8.2.1

一元線性回歸模型

一元線性回歸39涉及一個(gè)自變量的回歸因變量y與自變量x之間為線性關(guān)系被預(yù)測(cè)或被解釋的變量稱為因變量(dependentvariable),用y表示用來預(yù)測(cè)或用來解釋因變量的一個(gè)或多個(gè)變量稱為自變量(independentvariable),用x表示因變量與自變量之間的關(guān)系用一條線性方程來表示8.2.1

一元線性回歸模型

回歸模型(regressionmodel)40回答“變量之間是什么樣的關(guān)系?”方程中運(yùn)用1個(gè)數(shù)值的因變量(響應(yīng)變量)被預(yù)測(cè)的變量1個(gè)或多個(gè)數(shù)值的或分類的自變量

(解釋變量)用于預(yù)測(cè)的變量3. 主要用于預(yù)測(cè)和估計(jì)8.2.1

一元線性回歸模型

回歸方程(regressionequation)41描述y的平均值或期望值如何依賴于x的方程稱為回歸方程一元線性回歸方程的形式如下:E(y)=

0+

1x

方程的圖示是一條直線,也稱為直線回歸方程

0是回歸直線在y軸上的截距,是當(dāng)x=0時(shí)y的期望值

1是直線的斜率,稱為回歸系數(shù),表示當(dāng)x每變動(dòng)一個(gè)單位時(shí),y的平均變動(dòng)值8.2.1

一元線性回歸模型

估計(jì)的回歸方程(estimatedregressionequation)42一元線性回歸中估計(jì)的回歸方程為用樣本統(tǒng)計(jì)量和代替回歸方程中的未知參數(shù)和,就得到了估計(jì)的回歸方程總體回歸參數(shù)和

是未知的,必需利用樣本數(shù)據(jù)去估計(jì)其中:是估計(jì)的回歸直線在y

軸上的截距,是直線的斜率,它表示對(duì)于一個(gè)給定的x

的值,是y

的估計(jì)值,也表示x

每變動(dòng)一個(gè)單位時(shí),y的平均變動(dòng)值(8.6)8.2.1

一元線性回歸模型

歸納與小結(jié)43一元線性回歸方程:E(y)=

0+

1x

8.5一元線性回歸中估計(jì)的回歸方程:

8.6

參數(shù)的最小二乘估計(jì)|點(diǎn)擊輸入單元/小節(jié)一級(jí)標(biāo)題|點(diǎn)擊輸入單元/小節(jié)一級(jí)標(biāo)題|8.2.2

參數(shù)的最小二乘估計(jì)

最小二乘估計(jì)45使因變量的觀察值與估計(jì)值之間的離差平方和達(dá)到最小來求得和的方法。即用最小二乘法擬合的直線來代表x與y之間的關(guān)系與實(shí)際數(shù)據(jù)的誤差比其他任何直線都小8.2.2

參數(shù)的最小二乘估計(jì)

最小二乘估計(jì)

(圖示)46xy(xn,yn)(x1,y1)

(x2,y2)(xi,yi)}ei

=yi-yi^8.2.2

參數(shù)的最小二乘估計(jì)

最小二乘法(和的計(jì)算公式)47

根據(jù)最小二乘法的要求,可得求解和的公式如下:8.2.2

參數(shù)的最小二乘估計(jì)

估計(jì)方程的求法(例題分析)48【例】求不良貸款對(duì)貸款余額的回歸方程回歸估計(jì)方程為:y=-0.8295+0.037895x回歸系數(shù)

=0.037895表示,貸款余額每增加1億元,不良貸款平均增加0.037895億元.8.2.2

參數(shù)的最小二乘估計(jì)

用Excel進(jìn)行回歸分析49第1步:選擇“工具”下拉菜單第2步:選擇“數(shù)據(jù)分析”選項(xiàng)第3步:在分析工具中選擇“回歸”,然后選擇“確定”第4步:當(dāng)對(duì)話框出現(xiàn)時(shí)

在“Y值輸入?yún)^(qū)域”方框內(nèi)鍵入Y的數(shù)據(jù)區(qū)域在“X值輸入?yún)^(qū)域”方框內(nèi)鍵入X的數(shù)據(jù)區(qū)域

在“置信度”選項(xiàng)中給出所需的數(shù)值在“輸出選項(xiàng)”中選擇輸出區(qū)域在“殘差”分析選項(xiàng)中選擇所需的選項(xiàng)用Excel進(jìn)行回歸分析8.2.2

參數(shù)的最小二乘估計(jì)

估計(jì)方程的求法(例題分析)50不良貸款對(duì)貸款余額回歸方程的圖示回歸直線的擬合優(yōu)度|點(diǎn)擊輸入單元/小節(jié)一級(jí)標(biāo)題|點(diǎn)擊輸入單元/小節(jié)一級(jí)標(biāo)題|8.2.3

回歸直線的擬合優(yōu)度

變差52因變量y的取值是不同的,y取值的這種波動(dòng)稱為變差。變差來源于兩個(gè)方面由于自變量x的取值不同造成的除x以外的其他因素(如x對(duì)y的非線性影響、測(cè)量誤差等)的影響對(duì)一個(gè)具體的觀測(cè)值來說,變差的大小可以通過該實(shí)際觀測(cè)值與其均值之差

來表示8.2.3

回歸直線的擬合優(yōu)度

變差的分解(圖示)53xyy{}}

8.2.3

回歸直線的擬合優(yōu)度

離差平方和的分解(三個(gè)平方和的關(guān)系)54SST=SSR+SSE總平方和(SST){回歸平方和(SSR)殘差平方和(SSE){{p204(8.16)8.2.3

回歸直線的擬合優(yōu)度

離差平方和的分解(三個(gè)平方和的意義)55總平方和(SST)反映因變量的n個(gè)觀察值與其均值的總離差回歸平方和(SSR)反映自變量x的變化對(duì)因變量y取值變化的影響,或者說,是由于x與y之間的線性關(guān)系引起的y的取值變化,也稱為可解釋的平方和殘差平方和(SSE)反映除x以外的其他因素對(duì)y取值的影響,也稱為不可解釋的平方和或剩余平方和8.2.3

回歸直線的擬合優(yōu)度

判定系數(shù)R2

(coefficientofdetermination)56回歸平方和占總(離差)平方和的比例反映回歸直線的擬合程度取值范圍在[0,1]之間

R21,說明回歸方程擬合的越好;R20,說明回歸方程擬合的越差判定系數(shù)等于相關(guān)系數(shù)的平方,即R2=(r)28.2.3

回歸直線的擬合優(yōu)度

判定系數(shù)r2

(例題分析)57【例】計(jì)算不良貸款對(duì)貸款余額回歸的判定系數(shù),并解釋其意義判定系數(shù)的實(shí)際意義是:在不良貸款取值的變差中,有71.16%可以由不良貸款與貸款余額之間的線性關(guān)系來解釋,或者說,在不良貸款取值的變動(dòng)中,有71.16%是由貸款余額所決定的。也就是說,不良貸款取值的差異有2/3以上是由貸款余額決定的。可見不良貸款與貸款余額之間有較強(qiáng)的線性關(guān)系。8.2.3

回歸直線的擬合優(yōu)度

估計(jì)標(biāo)準(zhǔn)誤差(standarderrorofestimate)58實(shí)際觀察值與回歸估計(jì)值離差平方和的均方根反映實(shí)際觀察值在回歸直線周圍的分散狀況對(duì)誤差項(xiàng)

的標(biāo)準(zhǔn)差

的估計(jì),是在排除了x對(duì)y的線性影響后,y隨機(jī)波動(dòng)大小的一個(gè)估計(jì)量反映用估計(jì)的回歸方程預(yù)測(cè)y時(shí)預(yù)測(cè)誤差的大小計(jì)算公式為:注:例題的計(jì)算結(jié)果為1.9799(億元)8.2.3

回歸直線的擬合優(yōu)度

歸納與小結(jié)59回歸方程的擬合優(yōu)度判定系數(shù)估計(jì)標(biāo)準(zhǔn)誤差無量綱系數(shù)(正)平均殘差有名數(shù)(逆)前次課程復(fù)習(xí)61一元線性回歸方程:E(y)=

0+

1x

一元線性回歸中估計(jì)的回歸方程:

xy(xn,yn)(x1,y1)

(x2,y2)(xi,yi)}ei=yi-yi^最小二乘估計(jì)

(圖示)最小二乘估計(jì)使因變量的觀察值與估計(jì)值之間的離差平方和達(dá)到最小來求得

的方法。即用最小二乘法擬合的直線來代表x與y之間的關(guān)系與實(shí)際數(shù)據(jù)的誤差比其他任何直線都小p294變差因變量

y的取值是不同的,y取值的這種波動(dòng)稱為變差。對(duì)一個(gè)具體的觀測(cè)值來說,變差的大小可以通過該實(shí)際觀測(cè)值與其均值之差

來表示.xyy{}}

變差的分解

(圖示)

離差平方和的分解

(三個(gè)平方和的關(guān)系)SST=SSR+SSE總平方和(SST){回歸平方和(SSR)殘差平方和(SSE){{判定系數(shù)R2

(coefficientofdetermination)回歸平方和占總(離差)平方和的比例反映回歸直線的擬合程度(解釋)取值范圍在[0,1]之間

R2

1,說明回歸方程擬合的越好;R2

0,說明回歸方程擬合的越差判定系數(shù)等于相關(guān)系數(shù)的平方,即R2=(r)2估計(jì)標(biāo)準(zhǔn)誤差

(standarderrorofestimate)實(shí)際觀察值與回歸估計(jì)值離差平方和的均方根反映實(shí)際觀察值在回歸直線周圍的分散狀況對(duì)誤差項(xiàng)

的標(biāo)準(zhǔn)差

的估計(jì),是在排除了x對(duì)y的線性影響后,y隨機(jī)波動(dòng)大小的一個(gè)估計(jì)量反映用估計(jì)的回歸方程預(yù)測(cè)y時(shí)預(yù)測(cè)誤差的大小

計(jì)算公式為:注:例題的計(jì)算結(jié)果為1.9799(億元)(8.20)課堂練習(xí)

成本Y(萬元)列2列11

產(chǎn)量X(萬件)0.9231451要求:1、計(jì)算判定系數(shù),分析在成本的變差中有多少是由于產(chǎn)量的變動(dòng)引起的?

2、根據(jù)回歸方程,解釋回歸系數(shù)的實(shí)際意義。參考答案

成本(萬元)列2列11

產(chǎn)量(萬件)0.92314511、表明在成本的變差中有85.21%是由于產(chǎn)量的變動(dòng)引起的。

2、

,表明當(dāng)產(chǎn)量每增加1萬件時(shí),總成本平均增加12.2萬元,8.2.4顯著性檢驗(yàn)顯著性檢驗(yàn)線性關(guān)系的檢驗(yàn)回歸系數(shù)的檢驗(yàn)線性關(guān)系的檢驗(yàn)檢驗(yàn)自變量與因變量之間的線性關(guān)系是否顯著將回歸均方(MSR)同殘差均方(MSE)加以比較,應(yīng)用F檢驗(yàn)來分析二者之間的差別是否顯著回歸均方:回歸平方和SSR除以相應(yīng)的自由度(自變量的個(gè)數(shù)p)殘差均方:殘差平方和SSE除以相應(yīng)的自由度(n-p-1)線性關(guān)系的檢驗(yàn)

(檢驗(yàn)的步驟)

提出假設(shè)H0:

1=0(線性關(guān)系不顯著)H1:

1≠0(線性關(guān)系顯著)2.計(jì)算檢驗(yàn)統(tǒng)計(jì)量F確定顯著性水平,并根據(jù)分子自由度1和分母自由度n-2找出臨界值F

作出決策:若F>F

,拒絕H0;若F<F

,不能拒絕H0(8.21)線性關(guān)系的檢驗(yàn)

(例題分析)提出假設(shè)H0:

1=0

(不良貸款與貸款余額之間的線性關(guān)系不顯著)H1:

1≠0(不良貸款與貸款余額之間的線性關(guān)系顯著)計(jì)算檢驗(yàn)統(tǒng)計(jì)量F確定顯著性水平

=0.05,并根據(jù)分子自由度1和分母自由度25-2找出臨界值F

=4.279作出決策:若F>F

,拒絕H0,表明不良貸款與貸款余額之間線性關(guān)系顯著。線性關(guān)系的檢驗(yàn)

(方差分析表)

Excel

輸出的方差分析表p值8.2.4顯著性檢驗(yàn)顯著性檢驗(yàn)線性關(guān)系的檢驗(yàn)回歸系數(shù)的檢驗(yàn)回歸系數(shù)的檢驗(yàn)2.在一元線性回歸中,

等價(jià)于線性關(guān)系的顯著性檢驗(yàn)檢驗(yàn)x與y之間是否具有線性關(guān)系,或者說,檢驗(yàn)自變量x

對(duì)因變量y的影響是否顯著回歸系數(shù)的檢驗(yàn)

(檢驗(yàn)步驟)提出假設(shè)H0:b1=0(沒有線性關(guān)系)H1:b1

0(有線性關(guān)系)計(jì)算檢驗(yàn)的統(tǒng)計(jì)量

確定顯著性水平,并進(jìn)行決策

t>t

,拒絕H0;t<t

,不能拒絕H0(8.25)回歸系數(shù)的檢驗(yàn)

(例題分析)

對(duì)例題的回歸系數(shù)進(jìn)行顯著性檢驗(yàn)(

=0.05)提出假設(shè)H0:b1=0H1:b1

0計(jì)算檢驗(yàn)的統(tǒng)計(jì)量3.

t=7.533>t

=2.0687,拒絕H0,表明不良貸款與貸款余額之間有線性關(guān)系p297表10.5回歸系數(shù)的檢驗(yàn)

(例題分析)

P值的應(yīng)用P=0.000000<=0.05,拒絕原假設(shè),不良貸款與貸款余額之間有線性關(guān)系.p值歸納與小結(jié)顯著性檢驗(yàn)回歸方程檢驗(yàn)回歸系數(shù)檢驗(yàn)檢驗(yàn)自變量與因變量之間的線性關(guān)系是否顯著檢驗(yàn)自變量x

對(duì)因變量y

的影響是否顯著F檢驗(yàn)t檢驗(yàn)本章小結(jié)相關(guān)系數(shù)度量與作用※一元線性回歸模型、回歸方程與估計(jì)的回歸方程及其最小二乘法回歸方程的擬合優(yōu)度:判定系數(shù)與估計(jì)標(biāo)準(zhǔn)誤差※

回歸分析中的顯著性檢驗(yàn)(F檢驗(yàn)與t檢驗(yàn))用Excel進(jìn)行相關(guān)與回歸分析※Excel輸出的部分回歸結(jié)果課堂練習(xí):課后練習(xí)題1根據(jù)excel輸出結(jié)果,檢驗(yàn)產(chǎn)量與生產(chǎn)費(fèi)用兩變量之間的線性關(guān)系是否顯著?根據(jù)excel輸出結(jié)果知,因?yàn)镕=55.2859631094004或SF=0.0000222204005023555<0.05,所以產(chǎn)量與生產(chǎn)費(fèi)用兩變量之間的線性關(guān)系顯著。8.3利用回歸方程進(jìn)行估計(jì)和預(yù)測(cè)8.3.1點(diǎn)估計(jì)8.3.2區(qū)間估計(jì)內(nèi)容提示利用回歸方程進(jìn)行估計(jì)和預(yù)測(cè)根據(jù)自變量

x

的取值估計(jì)或預(yù)測(cè)因變量

y的取值估計(jì)或預(yù)測(cè)的類型點(diǎn)估計(jì)y

的平均值的點(diǎn)估計(jì)y

的個(gè)別值的點(diǎn)估計(jì)區(qū)間估計(jì)y

的平均值的置信區(qū)間

估計(jì)y

的個(gè)別值的預(yù)測(cè)區(qū)間

估計(jì)8.3.1點(diǎn)估計(jì)點(diǎn)

計(jì)點(diǎn)估計(jì)2.點(diǎn)估計(jì)值有y的平均值的點(diǎn)估計(jì)y的個(gè)別值的點(diǎn)估計(jì)在點(diǎn)估計(jì)條件下,平均值的點(diǎn)估計(jì)和個(gè)別值的的點(diǎn)估計(jì)是一樣的,但在區(qū)間估計(jì)中則不同.對(duì)于自變量x的一個(gè)給定值x0

,根據(jù)回歸方程得到因變量y的一個(gè)估計(jì)值y的平均值的點(diǎn)估計(jì)

利用估計(jì)的回歸方程,對(duì)于自變量x的一個(gè)給定值x0

,求出因變量y

的平均值的一個(gè)估計(jì)值E(y0),就是平均值的點(diǎn)估計(jì).在前面的例子中,假如我們要估計(jì)貸款余額為100億元時(shí),所有分行不良貸款的平均值,就是平均值的點(diǎn)估計(jì)。根據(jù)估計(jì)的回歸方程得:y的個(gè)別值的點(diǎn)估計(jì)

利用估計(jì)的回歸方程,對(duì)于自變量x的一個(gè)給定值x0

,求出因變量y

的一個(gè)個(gè)別值的估計(jì)值,就是個(gè)別值的點(diǎn)估計(jì)比如,如果我們只是想知道貸款余額為72.8億元的那個(gè)分行(這里是編號(hào)為10的那個(gè)分行)的不良貸款是多少,則屬于個(gè)別值的點(diǎn)估計(jì)。根據(jù)估計(jì)的回歸方程得:8.3.2區(qū)間估計(jì)區(qū)間估計(jì)區(qū)間估計(jì)點(diǎn)估計(jì)不能給出估計(jì)的精度,點(diǎn)估計(jì)值與實(shí)際值之間是有誤差的,因此需要進(jìn)行區(qū)間估計(jì)對(duì)于自變量x

的一個(gè)給定值x0,根據(jù)回歸方程得到因變量y的一個(gè)估計(jì)區(qū)間區(qū)間估計(jì)有兩種類型置信區(qū)間估計(jì)(confidenceintervalestimate)預(yù)測(cè)區(qū)間估計(jì)(confidenceintervalestimate)置信區(qū)間估計(jì)1.利用估計(jì)的回歸方程,對(duì)于自變量x的一個(gè)給定值x0

,求出因變量y

的平均值的估計(jì)區(qū)間,這一估計(jì)區(qū)間稱為置信區(qū)間2.E(y0)

在1-

置信水平下的置信區(qū)間為:(8.27)式中:sy為估計(jì)標(biāo)準(zhǔn)誤差置信區(qū)間估計(jì)

(例題分析)【例】求出貸款余額

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論