第九章-直線回歸與相關分析5_第1頁
第九章-直線回歸與相關分析5_第2頁
第九章-直線回歸與相關分析5_第3頁
第九章-直線回歸與相關分析5_第4頁
第九章-直線回歸與相關分析5_第5頁
已閱讀5頁,還剩69頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

第九章直線回歸與相關分析LinearRegressionandCorrelationAnalysis(6)第一節(jié)回歸和相關的概念

客觀事物是普遍聯(lián)系的,事物間往往存在著一定的特定的關系:人的身高與體重,施肥與作物產(chǎn)量,降雨量與作物病蟲害發(fā)生程度,溫濕條件與微生物的繁殖等。協(xié)變關系:事物之間的相互關系都涉及兩個或兩個以上的變量,只要其中的一個變量變動了,另一個變量也會跟著變動,這種相互關系稱為協(xié)變關系。協(xié)變量:具有協(xié)變關系的變量也稱為~。兩個以上變量之間共同受到另外因素的影響。 變量間的協(xié)變關系因果關系平行關系一個變量的變化受另一個變量或幾個變量的制約。如微生物的繁殖速度受溫度、濕度、光照等因素的影響,子女的身高是受著父母身高的影響。如人的身高與體重之間的關系,兄弟身高之間的關系等都屬于平行關系。對有協(xié)變關系的兩個變量,一個變量用符號x表示,另一個變量用y表示,如果通過試驗或調(diào)查獲得兩個變量的成對觀測值,可表示為(x1,y1),(x2,y2),…,(xn,yn)。散點圖:將每一對觀測值在平面直角坐標系中表示成一個點,直觀表示x和y變化關系。5從散點圖可以看出:①兩個變量間關系的性質(zhì)和程度;②兩個變量間關系的類型,是直線型還是曲線型;③是否有異常觀測值的干擾等。散點圖只能定性的表示兩個變量之間的關系,不能反映它們之間定量的規(guī)律性。回歸與相關的統(tǒng)計分析方法:如果兩個變量間關系屬于因果關系,一般用回歸來研究。自變量(independentvariable):表示原因的變量稱為自變量,用x表示。自變量是固定的(試驗時預先確定的),沒有隨機誤差。10依變量(dependentvariable):表示結(jié)果的變量稱為依變量,用y表示。y是隨x的變化而變化的,并有隨機誤差。 例如作物施肥量和產(chǎn)量之間的關系,前者是表示原因的變量,為事先確定的,是自變量,后者是表示結(jié)果的變量,且具有隨機誤差,為依變量,作物產(chǎn)量是隨施肥量的變化而變化的。通過回歸分析,可以找出依變量變化的規(guī)律性,且能由x取值預測y的取值范圍。兩變量是平行關系,只能用相關來進行研究。在相關分析中,變量x和y無自變量和依變量之分,且都具有隨機誤差。相關分析只能研究兩個變量之間相關程度和性質(zhì),不能用一個變量的變化去預測另一個變量的變化,這是回歸與相關區(qū)別的關鍵所在。但是二者不能截然分開,因為由回歸可以獲得相關的一些重要信息信,由相關也可以獲得回歸的一些重要信息。

在回歸和相關分析中,必然注意下面一些問題,以避免統(tǒng)計方法的誤用。(1)

變量間是否存在相關以及在什么條件下會發(fā)生什么相關等問題,都必須由各具體學科本身來決定。 回歸只能作為一種分析手段,幫助認識和解釋事物的客觀規(guī)律。決不能把風馬牛不相及的資料湊到一起進行分析;(2)由于自然界各種事物間的相互聯(lián)系和相互制約,一個變量的變化通常會受到許多其他變量的影響,因此,在研究兩個變量之間的關系時,要求其余變量盡量保持在同一水平,否則,回歸和相關分析就可能會導致不可靠甚至完全虛假的結(jié)果。 例如人的身高和胸圍之間的關系,如果體重固定,身高越高的人,胸圍一定較小,當體重變化時,其結(jié)果就會相反;(3)在進行回歸與相關分析時,兩個變量成對觀測值應盡可能多一些,這樣可提高分析的準確性,一般至少有5對以上的觀測值。同時變量x的取值范圍要盡可能大一些,這樣才容易發(fā)現(xiàn)兩個變量間的協(xié)變關系;(4)回歸與相關分析一般是在變量的一定取值區(qū)間內(nèi)對兩個變量間的關系進行描述,超出這個區(qū)間,變量間的關系類型可能會發(fā)生改變,所以回歸預測必須限制自變量x的取值區(qū)間,外推要謹慎,否則會得出錯誤的結(jié)果。15第二節(jié)直線回歸一、直線回歸方程的建立如果兩個變量在散點圖上呈線性關系,就可用直線回歸方程來描述,其一般形式為:(9.1)式9.1讀作“y依x的直線回歸方程”。其中,x是自變量,是與x值相對應的依變量y的點估計值;a是當x=0時的值,即直線在y軸上的截距,叫回歸截距;

b是回歸直線的斜率,叫回歸系數(shù),其含義是自變量x增加一個單位,y平均增加或減少的單位數(shù)?;貧w直線在平面坐標系中的位置取決于a,b的取值,為了使=a+bx能最好地反映y和x兩變量間的數(shù)量關系,根據(jù)最小二乘法,必須使:(9.2)式9.4中的分子是x的離均差和y的離均差的乘積之和,簡稱乘積和,記作SP,分母是x的離均差平方和,記作SSx。(9.3)(9.4)20a和b均可取正值,也可以取負值,因具體資料而異。

將x的取值范圍代入直線回歸方程,可計算出值,研究y和之間的關系,可發(fā)現(xiàn)回歸方程的三個基本性質(zhì):(9.5)

例9.1

有人研究了黏蟲孵化歷期平均溫度(x,°C)與歷期天數(shù)(y,d)之間關系,試驗資料列入表9—l。試配合直線回歸方程。25二、直線回歸的數(shù)學模型和基本假定

在直線回歸中,y總體的每一個觀測值可分解為三部分,即y的總體平均數(shù)μy、因x引起y的變異β(x-μx)以及y的隨機誤差ε。因此,直線回歸的數(shù)學模型為:(9.6)(9.7)式9.6、式9.7為總體資料的數(shù)學模型,α為總體回歸截距,β為總體回歸系數(shù),ε為隨機誤差。如果是樣本資料,直線回歸的數(shù)學模型為:(9.8)(9.9)30直線回歸模型進行回歸分析,應符合如下基本假定:(1)

x是沒有誤差的固定變量,至少和y比較起來,x的誤差是小到可以忽略的,而y是隨機變量,且具有隨機誤差;

(2)

x的任一值都對應著一個y總體,且作正態(tài)分布,其平均數(shù)、方差受偶然因素的影響,不因x的變化而改變;(3)隨機誤差ε是相互獨立的,且作正態(tài)分布,具有N(0,σ2ε)。直線回歸分析是建立在以上這些基本假定之上,如果試驗資料不滿足這些假定,就不能進行直線回歸分析,有些資料可作適當處理后再進行分析。三、直線回歸的假設檢驗任何兩個變量之間都可通過前面的方法建立一個直線回歸方程,該方程是否有意義,能不能指導實踐,關鍵在于回歸是否達到顯著水平。如何判斷是否存在線性關系?(一)直線回歸的變異來源在直線回歸中,依變量y是隨機變量,y的平方和可以分解為由x變異引起y變異的平方和和誤差因素引起的平方和兩部分,即:(9.10)(9.12)35由于直線回歸只涉及到1個自變量,所以回歸平方和的自由度為1,回歸平方和等于回歸方差;離回歸平方和的自由度為: n–1-1=n–2;(9.12)離回歸平方和除以相應自由度即為離回歸方差,記作,的正根值為離回歸標準差,習慣上稱作回歸估計標準誤,即:例9.2

試計算例9.1資料的回歸平方和、離回歸平方和以及回歸估計標準誤。分析:根據(jù)前面計算結(jié)果,可得:(9.13)(二)F檢驗兩個變量是否存在線性關系,可采用F檢驗法進行。假設H0:兩變量間無線性關系;對HA:有線性關系。在無效假設下,回歸方差與離回歸方差的比值服從d?1

=l和d?2

=n-2的F分布,所以,可用(9.14)例9.3

試檢驗例9.1資料直線回歸關系的顯著性。分析:假設H0:黏蟲孵化歷期平均溫度x與歷期天數(shù)y之間無線性關系,對HA:二者存在線性關系。將y檢驗結(jié)果列于表9—2。結(jié)論:由于F>F0.01,說明黏蟲孵化歷期平均溫度與歷期天數(shù)之間存在著極顯著的直線回歸關系。40(三)t檢驗采用t檢驗也可以檢驗線性回歸關系的顯著性。假設H0:β

=0,對HA:β

0。該方法是檢驗樣本回歸系數(shù)b是否來自β

=0的雙變量總體,以推斷線性回歸的顯著性?;貧w系數(shù)的標準誤sb和t值為:(9.15)式9.16遵循d?=n-2的t分布,由t值可得出樣本回歸系數(shù)b落在β

=0總體中的區(qū)間概率。例9.4

用t檢驗法檢驗例9.1資料回歸關系的顯著性。(9.16)應否定H0:β

=0,接受HA

β

0,即黏蟲孵化歷期平均溫度與歷期天數(shù)之間有真實的直線回歸關系。t和F檢驗,都是對直線回歸關系的假設檢驗,二者是完全一致的。因為在同一概率值下,d?1=1,d?2=n-2的一尾F值恰巧為d?

=n-2的兩尾t值的平方,且計算出的F值也是t值的平方,本例中t2=(-9.48)2=89.87與F=89.89的微小差異是因四舍五入造成的。由下面的式子可以看出:(9.17)四、直線回歸的區(qū)間估計當直線回歸關系顯著之后,既可用樣本統(tǒng)計數(shù)a、b來估計總體參數(shù)α、β

,又可利用回歸方程去估計某一x值對應y總體的平均數(shù)和預測單個y值所在的區(qū)間。(一)回歸截距和回歸系數(shù)的置信區(qū)間45(9.18)(9.19)(9.20)(9.21)這說明黏蟲孵化歷期平均溫度和歷期天數(shù)的總體回歸系數(shù)β落在(-3.1850,-1.8784)區(qū)間的可靠度為95%。(二)μy/x的置信區(qū)間由于x

的任一值對應y總體的平均數(shù)μy/x的樣本估計值為,它不包含隨機誤差;如果由回歸方程去預測x為某一值時y的觀測值所在區(qū)間,則y觀測值不僅受到和b的影響,也還受到隨機誤差的影響。對于給定的x,預測總體的平均數(shù)μy/x

時的方差為:50(9.22,9.20)(9.23)(三)單個y的預測區(qū)間(9.23)例9.6

試根據(jù)例9.1資料,估計出黏蟲孵化歷期平均溫度為15℃時歷期天數(shù)為多少天(取95%置信概率)?若某年的歷期平均溫度為15℃,該年的歷期天數(shù)為多少(取95%置信概率)?分析:根據(jù)題意可知,第一問是估計x=15時y總體平均數(shù)的置信區(qū)間,第二問是估計x=15對應y觀測值所在的預測區(qū)間。(9.25)即當黏蟲孵化歷期平均溫度為15℃時,厲期平均天數(shù)的95%置信區(qū)間為(16.970,21.1589)。55即某年黏蟲孵化歷期平均溫度為15℃時,該年黏蟲孵化歷期天數(shù)的95%置信區(qū)間為(13.7782,24.3508)。(三)μy/x和單個y觀測值置信區(qū)間圖示從式9.22部式9.24可以看出,和都與 有關,它們之間是變形的雙曲線關系,所以和的估計值因x的不同而異,當時取最小值,即μy/x和單個y的估計區(qū)間最小。如果將置信區(qū)間制作成圖,便可從圖上進行推斷和預測。第三節(jié)直線相關一、相關系數(shù)和決定系數(shù)如果兩個變量間呈線性關系,又不需要由x來估計y,只需了解x和y是否相關以及相關的性質(zhì),可以通過計算表示x和y相關程度和性質(zhì)的統(tǒng)計數(shù)——相關系數(shù)來進行研究。設有一雙變量總體資料,總體個體數(shù)為N,這N對觀測值在平面直角坐標系中可用坐標點表示。如果將x軸和y軸平移,使原點位于點(μx,μy

)上。60由此可見,乘積和可表示直線相關的兩個變量的相關程度和性質(zhì)。但是,不同的雙變量資料其乘積和無可比性,因為x和y的變異程度及其度量單位、N的大小都會影響乘積和。要消除這種影響,再將離均差轉(zhuǎn)換成以各自的標準差為單位,使之成為標準離差,再以N除之。因此,定義雙變量總體的相關系數(shù)ρ:(9.26)ρ與兩個變量的變異程度、度量單位及N的大小沒有關系,因而可用來比較不同雙變量總體的相關程度和性質(zhì)。當研究的是樣本資料時,樣本相關系數(shù)r為:(9.27)相關和回歸的主要區(qū)別:x和y兩個變量在相關系數(shù)計算中的地位是平等的,沒有自變量和依變量之分。相關與回歸的聯(lián)系:回歸可以得到相關的結(jié)果,實質(zhì)上相關系數(shù)就是回歸中的回歸平方和與依變量y的平方和比值的平方根。r和b一樣,其符號都決定于SP,二者的符號是一致的。r的取值區(qū)間為[-1,1]。決定系數(shù)(r2):相關系數(shù)r的平方,其含義是變量x引起y變異的回歸平方和占y變異總平方和的比率。 由于用r表示相關程度的意義并不清楚,而且解釋夸大,比如r=0.5并不是表示x和y變異50%可以由二者之間的線性關系來解釋,這樣需要引入另一個表示相關程度的統(tǒng)計數(shù)r2。r2的取值范圍為[0,1],它只能表示相關程度而不能表示相關性質(zhì)。65例9.8

求例9.1資料黏蟲孵化歷期平均溫度與歷期天數(shù)的相

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論