工程科技多元線性回歸課件_第1頁
工程科技多元線性回歸課件_第2頁
工程科技多元線性回歸課件_第3頁
工程科技多元線性回歸課件_第4頁
工程科技多元線性回歸課件_第5頁
已閱讀5頁,還剩95頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

多元回歸和相關(guān)1、多元線性回歸的意義多元線性回歸是一個(gè)變量與多個(gè)其它變量之間發(fā)生的線性關(guān)系(一般稱為一對多的關(guān)系)。在農(nóng)業(yè)和工業(yè)及其它領(lǐng)域中應(yīng)用十分廣泛。

一、多元線性回歸(multiplelinearRegression)分析的特點(diǎn)和應(yīng)用

e.g.作物產(chǎn)量的高低,與播種期、密度、施肥等人為因素有關(guān),也與氣溫、雨量、輻射量等自然因素有關(guān);某種害蟲的發(fā)生,與其生態(tài)因素溫度、溫度、雨量等有關(guān),也與上代遺留因素、食物的多少、繁殖率等有關(guān)。食品中某種飲料質(zhì)量,與內(nèi)容物含量(果汁、蛋白質(zhì)含量),水質(zhì)、支撐劑、甜味劑等有關(guān)。多元回歸由于引進(jìn)了多個(gè)自變量,則依變量對回歸估計(jì)值的離散程度將進(jìn)一步縮小,精度進(jìn)一步提高。

我們在多元分析中需要解決的問題包括:①確定各個(gè)自變量對某一依變量的各自效應(yīng),即分別算出某一自變量(在其它自變量皆保持一定數(shù)量水平時(shí))對依變量的效應(yīng)。這個(gè)效應(yīng)叫做偏回歸系數(shù)(partialregressioncoefficient)。②確定各自變量對于某一依變量的綜合效應(yīng),即建立由各自變量描述和預(yù)測依變量反應(yīng)量的多元回歸方程,并求得該方程的標(biāo)準(zhǔn)誤。③在大量的自變量中,選擇僅對依變量有顯著效應(yīng)的自變量,建立最優(yōu)的多元回歸方程(逐步回歸)。④評定各個(gè)自變量對依變量的反應(yīng)量的相對重要性,以利于抓住關(guān)鍵因素,達(dá)到調(diào)整和控制依變數(shù)反應(yīng)量的目的。(通徑分析)2、多元線性回歸模型=其中,μy,μ1,μ2…μm,依次為y,

x1,x2,…,xm的總體平均數(shù)。若有m個(gè)自變量(m≥2)x1,x2,…,xm,皆與依變量y具有線性回歸關(guān)系。則m元線性回歸模型可以給定為:α為當(dāng)x1,x2,…,

xm皆取值為0時(shí),依變數(shù)y的點(diǎn)估計(jì)值(這里是總體理論值)

β1為當(dāng)x2,…,xm皆保持一定時(shí),x1每增加一個(gè)單位對于y總體的平均效應(yīng),叫做x2,x3,…,xm皆固定時(shí),x1對y的偏回歸系數(shù)(樣本為b1)。

同理:β2為x1,x3,…,xm皆保持一定時(shí),x2每增加一個(gè)單位對y總體的平均效應(yīng)。叫做x1,x3,…,xm皆固定時(shí)x2對y的偏回歸系數(shù),(樣本為b2)。βm叫做x1,x2,…,xm-1皆固定時(shí),xm對y的偏回歸系數(shù)。(bm)。因此,把前式改為樣本模型:則=a+b1x1+b2x2+…+bmxm“*”稱為m元線性回歸方程或復(fù)回歸方程。εj為m

元離回歸誤差,一般仍假定εj~N(0,σ2

y/x1,x2,…,x)3、多元線性回歸正規(guī)方程組的解根據(jù)回歸的定義,要滿足前式“*”,求出統(tǒng)計(jì)數(shù)bi(i=1,2,…,m),則需滿足殘差平方和=最小引進(jìn)新變量,令Y=y-,xi

=xi

-

(i=1,2,…,m)則上式變?yōu)?最小根據(jù)極值原理,令對b1,b2,…,bm的偏導(dǎo)數(shù)為0,得:

整理上式,可得解m元回歸統(tǒng)計(jì)數(shù)的正規(guī)方程組…………

實(shí)際上這個(gè)方程組等號左側(cè)的系數(shù)共m行m列,是以左上角到右下角的主對角線為軸線而對稱的,現(xiàn)在令這種m元線性回歸的正規(guī)方程組的系數(shù)為下列矩陣;A為一個(gè)m行m列方陣,并定義:B和K為一個(gè)m列矩陣

則前面m元線性回歸的正規(guī)方程組可以記為矩陣形式:AB=K我們的目的,是要解出矩陣B中的m個(gè)元素b1,b2,…,bm,要達(dá)到此目的,一般解法是先求出A的逆矩陣A-1,假定為C′,

A-1=C′=(Cij)mxm=在這個(gè)矩陣中Cij=Cji,所以A-1也是一個(gè)以Cii為軸對稱的對稱矩陣。一般可把Cij叫高斯乘數(shù)。逆矩陣A-1滿足A-1A=AA-1=I,I是一個(gè)m階單位矩陣,也可記為Im

求出了A-1后,即可得:

即A-1左乘K。逆陣A-1各值的作用較大,在今后的多元回歸假設(shè)測驗(yàn)和逐步回歸中剔除自變量等,都要用到。求逆矩陣A-1可使用A-1=C′=

一般稱為A的伴隨矩陣A*,

其中Aij是aij的代數(shù)余子式,|A|是矩陣A的系數(shù)行列式(須滿足|A|≠0,即滿秩,這樣A-1才存在)。

例:四元四歸方程,小麥的每株穗數(shù)(x1),每穗小穗數(shù)(x2),百粒重(x3,克),株高(x4,厘米)與每株籽粒產(chǎn)量(y,克)的關(guān)系,如表,試作出y依xi的線性回歸方程。x1x2x3x4y10233.611315.79203.610614.510223.711117.513213.710922.510223.611015.510233.510316.98233.31008.610243.411417.010203.410413.710213.411013.410233.910420.38213.510910.26233.21147.48213.711311.69223.610512.39.421.933333.54108.3333314.47333

根據(jù)資料,算出四元線性回歸分析所需的20個(gè)及數(shù)據(jù)。即矩陣A和K中的元素:|A|=33.6×20.93333×0.456×273.3333387666.77537+1.96×9.33333×1.96×9.33333334.64581+(-3.6)×(-0.46)×(-0.4)×(-9)5.9616+(-9)×(-3.6)×(-0.46)×(-0.4)5.9616-(-9)2×(-0.46)217.1396-(9.33333)2×0.456×33.6-1334.68065-1.962×20.93333×273.33333-21980.77774-(-3.6)2×(-0.4)2-2.0736=64678.67278≠0則A-1存在則A-1=Cij

=

a=14.47333-1.93935×9.4-0.66323×21.93333-7.3137×3.54-0.048152×108.33333=-49.410364多元線性回歸方程?=-49.4104+1.9394x1+0.6632x2+7.3137x3+0.0482x4三、多元回歸的假設(shè)測驗(yàn)

多元回歸的假設(shè)測驗(yàn)就是:計(jì)算機(jī)現(xiàn)有樣本抽自沒有多元回歸關(guān)系的總體的概率,這與一元回歸的情況相同。其無效假設(shè)H0:β1=β2=…=βm=0,對HA:β1,β2,…,βm不完全相等,一般仍以α=0.05作為否定H0的標(biāo)準(zhǔn)。由此

其中線性回歸平方和Uy/1,2…m的自由度為m,離回歸平方和Q的自由度為n-m-1或n-(m+1)。變因平方和SS自由度DF方差MSF回歸

UmU/m

F剩余

Qn-m-1Q/(n-m-1)總變異SSyy=U+Qn-1方差分析表

多元線性回歸方程的假設(shè)測驗(yàn),實(shí)質(zhì)是檢驗(yàn)各個(gè)自變數(shù)的綜合效應(yīng)對y是否有其真實(shí)的線性回歸關(guān)系。F顯著,說明y與x1,x2,…,xm之間有線性回歸關(guān)系,但這里有一個(gè)危險(xiǎn),即多元線性回歸關(guān)系顯著并不排斥其中存在著與y線性無關(guān)的自變數(shù)xi

的可能性。正如方差分析中F顯著并不排斥其中有不顯著的平均數(shù)存在一樣。實(shí)際上,在全部自變量中,當(dāng)某些自變量與y有極顯著回歸關(guān)系時(shí),就掩蓋了另一些自變數(shù)和y沒有回歸關(guān)系的可能性。但這時(shí)使用F測驗(yàn)無法將以上情況區(qū)別開來。

因此,要正確地評定各自變數(shù)xi對y是否有真實(shí)的回歸關(guān)系,還必須逐一地對偏回歸系數(shù)作顯著性測驗(yàn),去發(fā)現(xiàn)βi

=0的自變量。一般來說,只有當(dāng)多元回歸方程中包含的自變量的偏回歸系數(shù)都顯著時(shí),多元回歸關(guān)系測驗(yàn)的F值才有實(shí)際意義。

四、偏回歸系數(shù)的假設(shè)測驗(yàn)

如上所述,偏回歸系數(shù)的假設(shè)測驗(yàn)即計(jì)算各偏回歸系數(shù)bi來自βi=0總體的概率。所作無效假設(shè)為H0:βi=0,i=1,2,…,m,對HA:βi≠0測驗(yàn)方法有t測驗(yàn)與F測驗(yàn)兩種。

1、t測驗(yàn)偏回歸系數(shù)的標(biāo)準(zhǔn)誤Sbi=Sy/12…m·

符合V=n-(m+1)的t分布(在H0:βi=0的前提下,t=bi/Sbi)2、F測驗(yàn)由于多元回歸計(jì)算中最小平方法的作用,線性回歸平方和Uy/12…m總是隨著xi的增多有所增大,而決不會(huì)減少,如果去掉一個(gè)自變數(shù)xi,則回歸平方和Uy/12…(m-1)≤Uy/12…m,這里的Upi,Upi=bi2/cii

叫做Y在xi上的偏回歸平方和,也就是在Y的變異中,由于添入xi而增加的回歸部分平方和,具有一個(gè)自由度,由

即可測定bi來自于βi

=0總體的概率。

逐步回歸分析1、逐步回歸分析的主要思路在實(shí)際問題中,人們總是希望從對因變量y有影響的許多變量xi中選擇有顯著影響的自變量,而不選擇對y不顯著的自變量。從而建立起“最優(yōu)”回歸方程以便對因變量進(jìn)行預(yù)報(bào)或控制。逐步回歸分析正是根據(jù)這種原則提出來的一種回歸分析方法。它的主要思路是在考慮的全部自變量中按其對y的作用大小或者說貢獻(xiàn)大小,來逐步地排除不顯著的自變量或者逐步選入顯著的自變量。

因?yàn)橐话銇碇v,在一個(gè)含有多個(gè)xi的多變數(shù)系統(tǒng)中,往往既含有有顯著效應(yīng)的自變量,又含有沒有顯著效應(yīng)的自變量。而在進(jìn)行多元線性回歸分析當(dāng)中,應(yīng)該把沒有顯著效應(yīng)的自變量xi看作是多余的,統(tǒng)統(tǒng)予以剔除,使所得的多元回歸方程比較簡化而又能較準(zhǔn)確地預(yù)測y。這個(gè)過程又叫做多元線性回歸中自變數(shù)的統(tǒng)計(jì)選擇。

在多元回歸方程中,如果當(dāng)各自變數(shù)的取值兩兩正交時(shí),選擇最優(yōu)的多元回歸方程就十分方便。因?yàn)檎恍允谷我鈨蓚€(gè)自變數(shù)xi

和xj

的rij

=0以及Uy/12…m=,故只須做一次偏回歸的假設(shè)測驗(yàn),就能將顯著的與不顯著的自變數(shù)區(qū)別開來。但是,如果各自變量之間存在不同程度的相關(guān),即rij≠0(這是通常所見的情況),則自變數(shù)的選擇就不那么簡單。因?yàn)樵谶@種情況下(rij≠0),如果對偏回歸系數(shù)的假設(shè)測驗(yàn)有幾個(gè)自變數(shù)不顯著,則我們并不能肯定這些自變數(shù)對y的線性效應(yīng)都不顯著,而只能肯定偏回歸平方和最小的那一個(gè)自變數(shù)為不顯著。

當(dāng)剔除了這個(gè)不顯著而偏回歸平方和又最小的自變數(shù)后,其余的原來不顯著的自變量也可能變?yōu)轱@著,而原來顯著的自變數(shù)也可能變?yōu)椴伙@著。因此,為了選出最優(yōu)回歸方程,回歸的計(jì)算就要一步一步地進(jìn)行下去,直至所有顯著的自變數(shù)皆已入選或者所有不顯著的自變數(shù)皆被剔除為止。所以,上述過程可通過兩個(gè)基本途徑完成:一是從m元回歸分析開始,每次剔除一個(gè)不顯著而偏回歸平方和又最小的自變數(shù),直至再?zèng)]有不顯著的自變數(shù)可以剔除為止;二是從一元回歸分析開始,每步選入一個(gè)最顯著的自變數(shù),直至選入的自變數(shù)都顯著而未選入的自變數(shù)都不顯著為止。兩種方法都稱為逐步回歸,但通常又特稱第二種方法為逐步回歸方法(Stepwiseregression)。一般講,如果能預(yù)期要剔除的自變量不多,可用第一法;反之,則用第二法。2、逐步淘汰不顯著自變數(shù)的回歸方法具體步驟為:①m個(gè)自變數(shù)的回歸分析,一直進(jìn)行到偏回歸系數(shù)的假設(shè)測驗(yàn)。如果各自變數(shù)的偏回歸皆顯著,則分析結(jié)束。若有一個(gè)以上(含一個(gè))自變數(shù)的偏回歸不顯著,則剔除那個(gè)偏回歸平方和最小的自變數(shù)(設(shè)為xi),進(jìn)入第二步。②m-1個(gè)自變數(shù)的回歸分析,又一直進(jìn)行到偏回歸的假設(shè)測驗(yàn)。這一步的計(jì)算程度是將第一步分析時(shí)矩陣A的第i行、第i列和ki

行劃去,這就是剔除了xi

,重新計(jì)算m-1個(gè)自變數(shù)的偏回歸系數(shù)、偏回歸平方和以及Cij

等都要改變數(shù)值。如果這一步仍有一個(gè)以上自變數(shù)的偏回歸不顯著,則再將偏回歸平方和最小的那個(gè)自變量(設(shè)為xj)剔除,進(jìn)入第三步。③m-2個(gè)自變數(shù)的回歸分析,又一直進(jìn)行到偏回歸的假設(shè)測驗(yàn)。這一步是將第二步計(jì)算時(shí)的矩陣A(暫定為A1)中的第j行,第j列和Kj

行劃去(即剔除了xj),重新算出m-2階系數(shù)矩陣的逆矩陣元素。如此重復(fù)進(jìn)行,直至留下的所有自變數(shù)的偏回歸皆顯著。即得到最優(yōu)多元線性回歸方程。在以上分析中,應(yīng)注意離回歸自由度的變化。在第一步,離回歸自由度為n-(m)-1;到第二步,因已剔除一個(gè)自變數(shù),故離回歸自由度為n-(m-1)-1=n-m;到第三步,因其已剔除二個(gè)自變數(shù),故離回歸自由度為n-(m-2)-1=n-m+1;…依此類推。3、逐步選入顯著自變數(shù)的回歸方法

這種方法的每一步都僅選入一個(gè)顯著的自變數(shù),它包括以下四項(xiàng)內(nèi)容:①算出各個(gè)尚未入選自變量的偏回歸平方和Upi(k)(K=1,2,…,表示第k步回歸)②比較各個(gè)Upi(k)值,找出最大的Upi(k)值,并記為maxUpi

(k)。③對maxUpi(k)作偏回歸的F測驗(yàn),如果顯著就將自變數(shù)在第k步選入;如果不顯著則表示沒有自變數(shù)可選,則逐步回歸結(jié)束。④當(dāng)maxUpi(k)顯著而將該自變數(shù)選入后,要對在第k步之前已入選的各自變數(shù)再作偏回歸的F測驗(yàn),若有變?yōu)椴伙@著的(當(dāng)自變數(shù)之間存在相關(guān)時(shí),這時(shí)可能發(fā)生的),即予剔除。因此,逐步回歸的每一步,都能保證只有顯著的自變數(shù)才能進(jìn)入回歸方程。當(dāng)沒有顯著的自變數(shù)可供選入時(shí),最優(yōu)的多元線性方程也就得到了。2、例:前面已得多元回歸方程?=-49.4104+1.9394x1+0.6632x2+7.3137x3+0.0482x4這里是表示第一步的Cij值。

=bi2/c11=1.939352/0.03883=96.86012=b22/c22=0.663232/0.04808=9.14879=b32/c33=7.31372/2.85553=18.73215=b42/c44=0.0481522/0.003615=0.64139

而多元回歸的線性平方和Uy/12…m=(i=1,2,…,m)∴Uy/12…m=1.93935×80.56+0.66323×3.27333+7.3137×7.206+0.04815×(-1.66667)=211.02728Qy/12…m=(SSy)-Uy/12…m

=SSy-=239.88933-211.02728=28.86205因此得到四元回歸和偏回歸的假設(shè)測驗(yàn)(F測驗(yàn))變因DFSSMSFFx四元回歸4211.0272852.7568418.27896**6.3915.98因x1的偏回歸196.86012同前33.5607.7121.20因x2的偏回歸19.14879同前3.16983ns因x3的偏回歸118.73215同前6.49024ns因x4的偏回歸10.64139同前<1離回歸1028.862052.88621

可見雖然四元回歸極顯著,但x2,x3,x4的偏回歸都不顯著,其中以x4的偏回歸平方和為最小。所以,應(yīng)剔除x4,再作第二步分析。第二步:剔除了x4的三元線性回歸分析。將原A陣中的第4行,第4列和K陣中的K4行劃去。得|A(2)|=233.78628

=2.013139×80.56+0.674643×3.273333+7.830227×7.206=220.8114=239.8893-220.8114=19.0779故得三元回歸和偏回歸假設(shè)測驗(yàn)。變因DFSSMSFFx三元回歸3220.811473.603842.443.596.22因x1的偏回歸1101.5078101.507858.534.849.65因x2的偏回歸19.26899.26895.34因x3的偏回歸120.761920.761911.97離回歸1119.07791.7344

可見三元回歸和三個(gè)自變數(shù)的偏回歸都是極顯著或顯著。因此不需要作第三步回歸。因此可得,

a=-b1-b2-b3=14.473333-2.013139×9.4-0.674643×21.933333-7.830227×3.54=-46.9663

所以可得最優(yōu)線性回歸方程:=-46.9663+2.01314x1+0.674643x2+7.83023x3而這個(gè)方程的離回歸標(biāo)準(zhǔn)誤為:

在這個(gè)方程中的計(jì)算意義為:小麥的單株產(chǎn)量僅和x1(每株穗數(shù)),x2(每穗小穗數(shù)),x3(百粒重)有顯著或極顯著的線性關(guān)系,而和x4(株高)無顯著關(guān)系。x1每增加1(穗),y平均將增加2.01(克);x2每增加1(小穗),y平均將增加0.67(克);x3每增加1(克),y平均將增加7.83(克)。3、逐步選入顯著自變數(shù)的回歸分析

在逐步選入顯著自變數(shù)的回歸方法中,為了便于計(jì)算和表達(dá),一般將正規(guī)方程變換成以標(biāo)準(zhǔn)化量為基礎(chǔ)。即將每一個(gè)離均差都轉(zhuǎn)換或以標(biāo)準(zhǔn)差為單位的量,即標(biāo)準(zhǔn)離差。

可以記為,其實(shí)就是Sii,即SSx被標(biāo)準(zhǔn)化為了。第i變數(shù)和第j變數(shù)的乘積和(Spij)被標(biāo)準(zhǔn)化為:=rij

(n-1)=rji

(n-1)

這樣可以將正規(guī)方程的系數(shù)矩陣,轉(zhuǎn)變?yōu)橄嚓P(guān)矩陣。是將標(biāo)準(zhǔn)化平方和和乘積和兩邊都除以(n-1)以后,到的正規(guī)方程。而將正規(guī)方程的系數(shù)和常數(shù),則可以成一個(gè)增廣矩陣:為了便于計(jì)算,可以在該陣上添加一行(ry1,ry2,…ryy),得到一個(gè)m+1階方陣R(0):簡記作R(0)=()。R(0)中的元素都是相關(guān)系數(shù),稱為相關(guān)矩陣;其中主對角線元素為各變數(shù)的相關(guān)系數(shù),rii=1。逐步回歸是以R(0)為基礎(chǔ),每進(jìn)一步回歸,選入一個(gè)顯著的自變量,就作一次變換。在新的變換之中,就可以獲得有關(guān)入選和未入選的自變數(shù)未入選自變數(shù)的各種信息。

為了便于計(jì)算,可以在該陣上添加一行(ry1,ry2,…,ryy),得到一個(gè)m+1階方陣R(0):在第k步(k=1,2,…),由r(k-1)可稱得任一尚未入選變數(shù)xi的標(biāo)準(zhǔn)偏回歸平方和:*

(因?yàn)檎?guī)方程組已標(biāo)準(zhǔn)化,故所得統(tǒng)計(jì)數(shù)都加“標(biāo)準(zhǔn)”,以區(qū)別于原正規(guī)方程組相應(yīng)的統(tǒng)計(jì)數(shù))。假設(shè)偏回歸平方和最大的自變數(shù)max為xl

(i=l),則xl在k步是否入選由F值決定。**

這個(gè)F值具V1=1,V2=n-m-1,其中m為至第k步已入選的自變量個(gè)數(shù)(包括xl)。如果此F不顯著,則說明已沒有顯著自變數(shù)可選。如果此F顯著,則第k步選入xl。這時(shí)應(yīng)將R(k-1)變換成R(k)。變換時(shí)由元素rij(k-1)計(jì)算計(jì)算元素rij(k)的通式為(隨rij

的所在行i和所在列j而異):由R(k)即可得到任一已經(jīng)入選自變數(shù)xi(包括xl)的標(biāo)準(zhǔn)偏回歸系數(shù):

即矩陣最末一列。和標(biāo)準(zhǔn)偏回歸平方和:

對于xl來講,此式與*算得的值相同。標(biāo)準(zhǔn)離回歸平方和:

即矩陣對角線最后一位數(shù)。因此,由

即可決定在xl前入選的自變數(shù)(指已經(jīng)被入選進(jìn)去的)是否需要剔除(但對于xl來講比式與前面**式結(jié)果相同,不必重復(fù)計(jì)算,這里F值的自由度也與**式相同,即V1=1,V2=n-m-1)。逐步回歸的每一步都是重復(fù)上述程序,直至余下自變數(shù)maxUpi為不顯著為止。

在以上計(jì)算中,由于各種統(tǒng)計(jì)數(shù)都是標(biāo)準(zhǔn)化的。但如果需要,在任何一步上都隨時(shí)可將其還原為原單位的統(tǒng)計(jì)數(shù)。因?yàn)榭傋儺惼椒胶停▽?shí)際為SSy)被標(biāo)準(zhǔn)化為1,所以在第k步上,原來單位的統(tǒng)計(jì)數(shù)和標(biāo)準(zhǔn)化的統(tǒng)計(jì)數(shù)具有關(guān)系:

而偏回歸系數(shù)bi和標(biāo)準(zhǔn)偏回歸系數(shù)的關(guān)系為:

例:從原資料選擇y依x的最優(yōu)回歸方程。根據(jù)原來資料,可以求出兩變量之間的相關(guān)系數(shù)。SS1=33.6SS2=20.93333SS3=0.456 SS4=273.33333SSy=239.889333 Sp12=-3.6 Sp13=1.96 Sp14=-9Sp23=-0.46 Sp24=9.3333 Sp34=-0.4 Sp1y=80.56Sp2y=237.3333Sp3y=7.206Sp4y=-1.66667因此可得:由此可進(jìn)行逐步回歸計(jì)算。第一步:選擇一個(gè)顯著的自變數(shù):=0.8973142/1=0.805172(x1的)

=0.0461922/1=0.002420(x2的)

=0.6889802/1=0.474693(x3的)=0.0065092/1=0.000042(x4的)

以上計(jì)算意義為,如選入x1,則回歸平方和為總變異平方和的80.5172%;如選入x2,則回歸平方和為總變異平方和的0.2420%;。。。。。這里的結(jié)果是x1的標(biāo)準(zhǔn)偏回歸平方和最大,因此計(jì)算F值;

==53.73

當(dāng)V1=1,V2=13時(shí),F(xiàn)極顯著,故選入x1。對已入選的xi進(jìn)行顯著性測驗(yàn):以l=1代入△式,

=1/1=1(=1/i=l,j=l)

=-0.135742/1=-0.135742=-(-0.135742)/1=0.135742(i=l,j≠l)(i≠l,j=l)=1-(-0.135742)(-0.135742)/1=0.981574=-0.148887-(-0.135742×0.500730)/1=-0.080917(i,j≠l,)=-0.035829-(0.50073×-0.093913)/1=0.011196故對x1進(jìn)行F測驗(yàn),標(biāo)準(zhǔn)偏回歸系數(shù):=0.897314;標(biāo)準(zhǔn)偏回歸平方和=0.805172=53.73

這個(gè)F值與前面F值相等。實(shí)際上,在第一步入選的xi,不需做顯著性測驗(yàn)。以后都應(yīng)予以省略。第二步:選擇第二個(gè)顯著的自變數(shù),并測驗(yàn)第二個(gè)自變數(shù)選入后第一個(gè)自變數(shù)(即x1)的偏回歸顯著性。根據(jù)*計(jì)算各xi(i≠1,因已入選)的標(biāo)準(zhǔn)偏回歸平方和:=0.2396682/0.749629=0.076662

=0.0777602/0.991180=0.006100

以上的計(jì)算意義為:當(dāng)選入x1。回歸平方和為SSy的80.5172%的基礎(chǔ)上,如再選入x2,二元回歸平方和將增至83.3924%(80.5172%+2.8752%);如果再選入x3(不選x2),二元回歸平方和將增至88.1834%(80.5172%+7.6662%);其中以x3的偏回歸平方和為最大。計(jì)算其F值:當(dāng)V1=1,V2=12時(shí),此F值顯著,故x3入選。將l=3代入△式,R(1)變換或R(2),得由此得到x1和x3的標(biāo)準(zhǔn)偏回歸系數(shù)

=0.737146=0.319869

測驗(yàn)在x3入選前已入選的自變數(shù)的偏回歸的顯著性。這里在x3之前入選的只有x1,計(jì)算x1的標(biāo)準(zhǔn)偏回歸平方和:=0.407141

而二元標(biāo)準(zhǔn)離回歸平方和

=0.118166

當(dāng)V1=1,V2=12時(shí)極顯著。因此在此輪x3入選時(shí),x1也不被剔除。本步計(jì)算的意義為:當(dāng)回歸方程包括x1,x3兩個(gè)變數(shù)時(shí),則二元回歸平方和占總變異SSy

的88.1834%(即前面計(jì)算的),而x1的偏回歸平方和占SSy的40.7141%,因x3的偏回歸平方和占SSy

的7.6662%(由此說明x1,x3有正相關(guān)),二元離回歸平方和占SSy的11.8166%,x1和x3對于y的線性回歸分別為極顯著和顯著。

第三步:選擇第三個(gè)顯著的自變數(shù),并測驗(yàn)第三個(gè)自變數(shù)選入;前兩個(gè)自變數(shù)的偏回歸顯著性。計(jì)算各xi(i≠1,3)的標(biāo)準(zhǔn)偏回歸平方和。=0.1938782/0.972835=0.038638

=0.0741792/0.991013=0.005552

此計(jì)算意義,在x1,x3已入選,二元回歸平方和為SSy

的88.1834%的基礎(chǔ)上,如再選入x2,三元回歸平方和將增至占SSy的92.0472%(88.1834%+3.8638%),其中以x2的標(biāo)準(zhǔn)偏回歸平方和為最大,故計(jì)算其F值當(dāng)V1=1,V2=11時(shí),F(xiàn)顯著,故x2入選。以l=2代入△式,將R(2)變換成R(3)。由R(3)已知已入選x1,x2,x3的標(biāo)準(zhǔn)偏回歸系數(shù)=0.753421

=0.199292

=0.341391

測驗(yàn)在x2入選前已入選的偏回歸系數(shù)x1,x3的偏回歸平方和為:三元標(biāo)準(zhǔn)離回歸平方和為:因此,

(x1的)

(x3的)當(dāng)V1=1,V2=11時(shí),皆極顯著,故不應(yīng)被淘汰。本步的計(jì)算意義為:當(dāng)多元方程包含x1,x2,x3三個(gè)自變量時(shí),三元回歸平方和為SSy的92.0472%(即多元決定系數(shù)),因x1,x2,x3的偏回歸平方和分別為SSy的42.3144%,3.8638%,8.6548%,三元離回歸平方和則為SSy

的7.9528%,x1,x2,x3對于y的線性偏回歸皆屬顯著或極顯著。第四步:選擇第四個(gè)顯著的自變數(shù)計(jì)算x4的偏回歸平方和即在x1,x2,x3三元回歸基礎(chǔ)上,若再增加x4,則四元回歸平方和將為SSy的92.3224%,僅增加0.2752%。根據(jù)*計(jì)算F值

當(dāng)V1=1,V2=10時(shí),不顯著,故x4不能入選。R(3)也不需再換成R(4)了。因此,本多元回歸最優(yōu)方程應(yīng)包含x1,x2,x3,在表達(dá)時(shí),要將標(biāo)準(zhǔn)化量轉(zhuǎn)化成為原來單位:則

=14.473333-2.0131×9.4-0.6746×21.93333-7.8302×3.54=-46.96故本資料得到的最優(yōu)線性回歸方程為:=-46.96+2.01x1+0.67x2+7.83x3

此方程的離回歸平方和為:Qy/123=

·SSy=0.079528×239.889333=19.0779故離回歸標(biāo)準(zhǔn)誤

此結(jié)果與前面逐步淘汰法相同。通徑分析

——多元回歸中自變量的相對重要性

前面提到,簡單回歸和相關(guān)分析不能全面考察變數(shù)間的相互關(guān)系,使結(jié)果帶有一定的片面性。多元回歸分析雖然在一定程度上能夠消除變數(shù)之間的混淆,能夠真實(shí)地表現(xiàn)出各個(gè)自變數(shù)和依變數(shù)之間的相互關(guān)系,但多元回歸在分析偏回歸系數(shù)時(shí)帶有單位,使原因?qū)Y(jié)果的效應(yīng)不能直接進(jìn)行比較。同時(shí),在研究x1與y之間的關(guān)系時(shí),要把x2,x3,…等固定在一個(gè)水平上;而研究x2對y的關(guān)系時(shí),要把x1,x3,…等固定在一個(gè)水平上,而沒有考慮因素之間的相互作用。

1921年,S·wright首先提出了通徑系數(shù)(Pathcoefficient)的分析方法,簡稱通徑分析。

通徑系數(shù)能夠有效地表現(xiàn)相關(guān)變量間原因?qū)Y(jié)果的直接影響效應(yīng),能夠估計(jì)出原因因素(causefactor)對效應(yīng)因素(effectfactor)的間接效應(yīng)。從而可以直接比較各原因因素的相對重要性。所以建立在通徑系數(shù)概念基礎(chǔ)上的通徑分析,比相關(guān),回歸分析更為精確,同時(shí)可以考慮到兩兩原因?qū)Y(jié)果的影響,使多變數(shù)資料的統(tǒng)計(jì)分析更符合實(shí)際。一、通徑系數(shù)的基本概念設(shè)依變數(shù)y受到兩個(gè)彼此獨(dú)立的自變數(shù)x1和x2的影響,則其關(guān)系可以圖解為:y←x1

↖x2

上述單箭頭表示變量間存在著因果關(guān)系,箭頭方向是從原因到結(jié)果,這種帶箭頭的連接線叫做通徑(path)。這里通徑x1→y和x2→y是彼此獨(dú)立的。如果x1和x2之間存在相關(guān)(r12≠0),則表示為通徑網(wǎng)絡(luò)y←x1,其中雙箭頭表示相關(guān)關(guān)系存在。可以稱為相關(guān)線。在這個(gè)網(wǎng)絡(luò)圖中,除了x1→y和x2→y的兩條直線通徑外,由于r12的存在,又產(chǎn)生了兩條間接通徑。一條是x1通過x2而作用于y的通徑,叫作x1→x2→y;一條是x2通過x1而作用于y的通徑,叫作x2→x1→y。以上情況可以推廣到i個(gè)自變數(shù)。并記直接通徑為i→y(i=1,2,…,m),間接通徑為i→j→y,并定義i=j時(shí)為直接通徑,i≠j

時(shí)為間接通徑。表示各條通徑對于改變y反應(yīng)量的相對重要性的統(tǒng)計(jì)數(shù)叫做通徑系數(shù)(pathcoefficent),記作pi→y(在意義明白時(shí),可簡寫作pi)或pi→j→y。

通徑系數(shù)的意義,可以在偏回歸系數(shù)的基礎(chǔ)上導(dǎo)出,從偏回歸系數(shù)聯(lián)系通徑來講,偏回歸系數(shù)bi就是y在i→y通徑上的平均反應(yīng)量,這一反應(yīng)量和i→y通徑的重要性有關(guān),但是仍存在兩個(gè)問題使偏回歸系數(shù)不能直接反應(yīng)通徑的重要程度。即①bi帶有具體單位,單位不同,使之無從進(jìn)行比較。②bi既使單位相同,但如果xi的變異度(標(biāo)準(zhǔn)差)不同,也不能比較。因?yàn)?,一個(gè)變異度小的自變數(shù),盡管其偏回歸系數(shù)可能較大,但實(shí)際上并不能使依變量y有較大程度的改變。反之,變異度大的自變數(shù),即使其偏回歸系數(shù)可能較小,仍有可能使y的取值有較大改變。因此,只要對bi進(jìn)行消去不同單位和變異度,即對bi的分子和分母分別除以y和xi的標(biāo)準(zhǔn)差,就得到表示i→y通徑上,xi若增加一個(gè)標(biāo)準(zhǔn)差單位,y將增加(pi>0)或減少(pi<0)pi個(gè)標(biāo)準(zhǔn)差單位。所以通徑系數(shù)Pi可以看作是xi對y的標(biāo)準(zhǔn)效應(yīng)。

由pi

的絕對值大小,即可知道xi對于y的標(biāo)準(zhǔn)影響力。從而確定xi對于改變y取值的重要性。實(shí)際上pi就是我們在逐步回歸中的標(biāo)準(zhǔn)偏回歸系數(shù)因故當(dāng)pi→y確定以后,計(jì)算pi→j→y是很方便的,因?yàn)閤i與xj之間的相關(guān)系數(shù)rij本身就是一個(gè)標(biāo)準(zhǔn)化的量。故即可得出:pi→j→y=rijpj→y

pj→i

→y=rijpi→y或者當(dāng)i=j時(shí),rij=1,仍還原為

而當(dāng)rij=0時(shí),pi→j→y和pj→i→y都為0,即一切間接(相關(guān))通徑都不存在。

通徑的基本原理涉及到網(wǎng)絡(luò)理論,我們需要注意的是其中的幾個(gè)性質(zhì)。即①一個(gè)具有m個(gè)自變數(shù)的效應(yīng)系統(tǒng),共有m個(gè)直接的和m(m-1)個(gè)間接的通徑。②通徑系數(shù)的計(jì)算是以y和xi皆具線性關(guān)系,而y的效應(yīng)量可以被分解成為多個(gè)線性部分為基礎(chǔ)。③通徑系數(shù)是有向量,如果xi和y互換,則pi→y≠py→i,通徑系數(shù)的取值是在實(shí)數(shù)范圍之內(nèi),可以>1或<-1。這與相關(guān)系數(shù)不同,這一方面使通徑具有回歸的特點(diǎn)。④通徑系數(shù)是一個(gè)純量,不帶單位,而這一點(diǎn)上又不同于回歸,使通徑具有相關(guān)的特點(diǎn)。

利用通徑系數(shù),可以幫助建立“最優(yōu)”回歸方程,當(dāng)然選擇“最優(yōu)”多元回歸方程的方法較為簡便。因?yàn)橥◤较禂?shù)已經(jīng)是變量標(biāo)準(zhǔn)化以后的偏回歸系數(shù),是相對數(shù),故可以直接用通徑系數(shù)的大小,確定各自變量在多元回歸方程中的作用,這樣只須檢驗(yàn)絕對值最小那個(gè)通徑系數(shù)的顯著性,即可確定對自變量的取舍。二、通徑系數(shù)的計(jì)算通徑系數(shù)可以由上一節(jié)中的偏回歸系數(shù)而導(dǎo)得,但在實(shí)踐中若有時(shí)只需通徑系數(shù)來評定各自變數(shù)的相對重要性,而并不需要偏回歸系數(shù)時(shí),則對通徑系數(shù)的計(jì)算,需要有一套不依賴于偏回歸計(jì)算的獨(dú)立計(jì)算系統(tǒng)。由移項(xiàng)可得

代入原多元回歸的正規(guī)方程組后,

再對方程組等號兩邊各除以

則正規(guī)方程組變形為:(簡寫)這個(gè)方程組也可稱為標(biāo)準(zhǔn)化正規(guī)方程組,其系數(shù)和常數(shù)的增廣矩陣,就可直接解出pi。

由這里還可以看到,通徑系數(shù)也就是xi和y的相關(guān)系數(shù)riy的線性分解的分量(左邊為分量,右邊為riy)。當(dāng)各自變數(shù)間存在相關(guān)關(guān)系(rij≠0,i≠j)時(shí),任一riy都被分解為m項(xiàng),其中一項(xiàng)是i→y的直接通徑pi=pi→y,(m-1)項(xiàng)是由于xi和xj之間的相關(guān)而形成的i→j→y的間接通徑系數(shù)rijpj=pi→j→y

如果各自變數(shù)彼此獨(dú)立(即rij=0)則上面的標(biāo)準(zhǔn)化方程組的系數(shù)成為對角陣。于是所有的間接通徑都不存在。其pi=riy。由此可知,只有在各自變數(shù)都獨(dú)立時(shí),相關(guān)系數(shù)rij

的絕對值大小才能真實(shí)反映xi對y的重要程度,否則是不足為據(jù)的。另外,通過對通徑系數(shù)的分析,我們也可了解到兩個(gè)自變量xi和xj之間有無交互作用,其實(shí)互作用的大小和兩者之間誰對誰的貢獻(xiàn)大。例:前面經(jīng)過逐步回歸已計(jì)算過資料的通徑系數(shù)本資料已在前面算出其相關(guān)系數(shù),現(xiàn)代入通徑正規(guī)方程組得:p1=0.753421p2=0.199292p3=0.341391即p1→y=0.7534p2→y=0.1993p3→y=0.3414(這些數(shù)值即前面逐步回歸中R(3)中的標(biāo)準(zhǔn)偏回歸系數(shù))現(xiàn)計(jì)算6個(gè)pi→j→y如:p1→2→y=r12×p2=-0.135742×0.199292=-0.0270p1→3→y=r13×p3=0.500730×0.341391=0.1709得每株穗數(shù)(x1),每穗小穗數(shù)(x2)和百粒重(x3)對單株產(chǎn)量(y)的通徑系數(shù)項(xiàng)目1→y2→y3→yx1,1→0.7534-0.02700.1709X2,2→-0.10230.1993-0.0508X3,3→0.3773-0.02970.3414以上說明,在被研究的3個(gè)自變數(shù)中,對產(chǎn)量起首先作用的是每株穗數(shù),其p1→y=0.7534;此外由于每株穗數(shù)與百粒重有正相關(guān),因而每株穗數(shù)每增加標(biāo)準(zhǔn)單位而使百粒重提高還可使產(chǎn)量增加p1→3→y=0.170個(gè)標(biāo)準(zhǔn)單位。其次是百粒重,其p3→y=0.3414;但百粒重通過每株穗數(shù)的間接作用(即百粒重高的植株,其穗數(shù)也較多而給予產(chǎn)量的作用)p3→1→y=0.3773,比之其直接作用還大。x2,即每穗小穗數(shù),對產(chǎn)量的直接作用最小,p2→y=0.1993且它對x1和x3都有間接的負(fù)作用(雖然負(fù)值很?。_@一分析說明,對產(chǎn)量相關(guān)的小麥育種,應(yīng)該重點(diǎn)抓每株上株的穗數(shù),和百粒重。而且兩者的交互作用也明顯。面對于小穗數(shù),對增加產(chǎn)量意義潛力不大。多元相關(guān)和偏相關(guān)一、多元相關(guān)多元相關(guān)為m個(gè)自變數(shù)與1個(gè)依變數(shù)的總相關(guān),又稱為復(fù)相關(guān)(multiplecorrelation)。復(fù)相關(guān)系數(shù)記作Ry·12…m,讀作依變數(shù)和m個(gè)自變數(shù)的復(fù)相關(guān)系數(shù)或多元相關(guān)系數(shù)。從相關(guān)模型來講,復(fù)相關(guān)的變數(shù)m+1個(gè),都應(yīng)視為隨機(jī)變數(shù),并無自變數(shù)的依變數(shù)之分,但在實(shí)踐上,復(fù)相關(guān)也常用于有自變數(shù)與依變數(shù)、資料,并作為檢驗(yàn)回歸顯著性的一個(gè)指標(biāo)。在雙變數(shù)資料的簡單相關(guān)中,我們將回歸平方和U對總變異平方和SSy的比率定義為決定系數(shù),而將其平方根定義為相關(guān)系數(shù)。此定義也可推廣到多元線性相關(guān)。設(shè)1個(gè)y變數(shù)依m(xù)個(gè)x變數(shù)的線性回歸平方和為Uy/12…m表示為:則復(fù)相關(guān)系數(shù)

Ry·12…m=

(在已算得通徑系數(shù)時(shí),復(fù)決定系數(shù)

由于Uy·12…m是SSy的一部分,0≤Uy·12…m≤SSy,故的取值區(qū)間為[0,1]。由于最小平方法的關(guān)系,Uy·12…m一般總是隨m的增多而增大,而決不會(huì)減少。所以復(fù)相關(guān)系數(shù)要比任一單相關(guān)系數(shù)的絕對值大。設(shè)m+1個(gè)變數(shù)總體的復(fù)相關(guān)系數(shù)為ρy·12…m,則對于Ry·12…m的假設(shè)測驗(yàn)為:Ho:ρy·12…m=0,對HA:ρy·12…m≠0,可以由F測驗(yàn)給出其中V1=m,V2=n-(m+1);上面這個(gè)F公式,可以移項(xiàng)為由此計(jì)算出各R臨界值。作為相關(guān)計(jì)算時(shí)的R值顯著與否的標(biāo)準(zhǔn)。當(dāng)計(jì)算出R值以后,以自由度V2,變數(shù)個(gè)數(shù)為m+1時(shí),即可查表知道R是否顯著。二、偏相關(guān)

對于多個(gè)變數(shù)之間的相關(guān)關(guān)系,情況錯(cuò)綜復(fù)雜,這是因?yàn)槿魏蝺蓚€(gè)變數(shù)間都有簡單相關(guān)關(guān)系,而這種相關(guān)關(guān)系無形中又夾雜了其它變數(shù)所帶來的影響。因此簡單相關(guān)實(shí)際上不能反映兩個(gè)變數(shù)間的純相關(guān)關(guān)系。因此我們在M個(gè)變數(shù)中,固定m-2個(gè),僅研究下的兩個(gè)變數(shù)的線性相關(guān)關(guān)系。叫偏相關(guān)或凈相關(guān)(partialcorrelation)。偏相關(guān)系數(shù)以r附加下標(biāo)說明一示。如r12·34…m表示x3,x4,…,xm變數(shù)皆固定時(shí),變數(shù)x1和x2的偏相關(guān)系數(shù)。r14·23…m表示變數(shù)x2,x3,x5,…,xm變數(shù)皆固定時(shí),變數(shù)x1和x4的偏相關(guān)系數(shù)。但在變數(shù)個(gè)數(shù)較多,為了避免書寫太長,偏相關(guān)系數(shù)也可以記作rij。即將下標(biāo)點(diǎn)后固定的變數(shù)號碼略去。偏相關(guān)系數(shù)的值域與單相關(guān)一樣[-1,1];同時(shí)也有rij.=rji.,m個(gè)變數(shù)共有M(M-1)個(gè)偏相關(guān)系數(shù)。偏相關(guān)系數(shù)的化解方法,是由M個(gè)變數(shù)(M≥3)的單相關(guān)系數(shù)rij(i,j=1,2,…,M),組成一個(gè)M階相關(guān)矩陣:并求出其逆矩陣則任意兩個(gè)變數(shù)xi和xj的偏相關(guān)系數(shù)rij,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論