簡單回歸與相關分析_第1頁
簡單回歸與相關分析_第2頁
簡單回歸與相關分析_第3頁
簡單回歸與相關分析_第4頁
簡單回歸與相關分析_第5頁
已閱讀5頁,還剩52頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第七章一元回歸分析與簡單相關分析變量間的關系有兩類:一類是變量間存在著完全確定性的關系,可以用精確的數學表達式來表示。如長方形的面積〔S〕與長〔a〕和寬〔b〕的關系可以表達為:S=ab它們之間的關系是確定性的,只要知道了其中兩個變量的值就可以精確地計算出另一個變量的值,這類變量間的關系稱為函數關系。另一類是變量間不存在完全確實定性關系,不能用精確的數學公式來表示。例如:黃牛的體長與體重的關系;仔豬初生重與斷奶重的關系;豬瘦肉率與背膘厚度、眼肌面積、胴體長等的關系等等。這些變量間都存在著十分密切的關系,但不能由一個或幾個變量的值精確地求出另一個變量的值。統(tǒng)計學中把這些變量間的關系稱為相關關系,把存在相關關系的變量稱為相關變量。相關變量間的關系一般分為兩種:1、因果關系。一個變量的變化受另一個或幾個變量的影響。如仔豬的生長速度受遺傳、營養(yǎng)水平、飼養(yǎng)管理條件等因素的影響;子代的體高受親本體高的影響。2、平行關系。它們互為因果或共同受到另外因素的影響。如黃牛的體長和胸圍之間的關系,豬的背膘厚度和眼肌面積之間的關系等都屬于平行關系。統(tǒng)計學上采用回歸分析研究呈因果關系的相關變量間的關系。表示原因的變量稱為自變量,表示結果的變量稱為依變量。研究“一因一果〞,即一個自變量與一個依變量的回歸分析稱為一元回歸分析;研究“多因一果〞,即多個自變量與一個依變量的回歸分析稱為多元回歸分析。一元回歸分析又分為直線回歸分析與曲線回歸分析兩種;多元回歸分析又分為多元線性回歸分析與多元非線性回歸分析兩種?;貧w分析的任務是揭示出呈因果關系的相關變量間的聯(lián)系形式,建立它們之間的回歸方程,利用所建立的回歸方程,由自變量〔原因〕來預測、控制依變量〔結果〕。

圖7-1x,y的散點圖從散點圖可以看出:

①兩個變量間有關或無關。假設有關,兩個變量間關系類型,是直線型還是曲線型。②兩個變量間直線關系的性質〔是正相關還是負相關〕和程度〔是相關密切還是不密切〕。

散點圖直觀地、定性地表示了兩個變量之間的關系。而,根據觀測值,可以將兩個變量之間的關系定量地表達出來。根據n對觀測值所描出的散點圖,可以直觀看出呈因果關系的兩個相關變量y(依變量)與x(自變量)間的關系是直線關系還是曲線關系。

由于依變量y的實際觀測值總是帶有隨機誤差,因而依變量y的實際觀測值yi可用自變量x的實際觀測值xi表示為:(i=1,2,…,n)(7-1)其中:x為可以觀測的一般變量(也可以是可以觀測的隨機變量);y為可以觀測的隨機變量;i為相互獨立,且都服從N〔0,σ2〕的隨機變量。

這就是直線回歸的數學模型。我們可以根據實際觀測值對α,β以及方差σ2做出估計。

在x、y直角坐標平面上可以作出無數條直線,我們把所有直線中最接近散點圖中全部散點的直線用來表示x與y的直線關系,這條直線稱為回歸直線。

設回歸直線的方程為:(7-2)

其中,a是α的估計值,b是β的估計值。

a、b應使回歸估計值與實際觀測值y的偏差平方和最小,即:

根據微積分學中的求極值的方法,令Q對a、b的一階偏導數等于0,即:min解正規(guī)方程組,得:(7-3)(7-4)整理得關于a、b的正規(guī)方程組:〔7-3〕式中的分子是自變量x的離均差與依變量y的離均差的乘積和,簡稱乘積和,記作,分母是自變量x的離均差平方和,記作SSx。a叫做樣本回歸截距,是回歸直線與y軸交點的縱坐標,當x=0時,=a;

b叫做樣本回歸系數,表示x改變一個單位,y平均改變的數量;b的符號反映了x影響y的性質,b的絕對值大小反映了x影響y的程度;叫做回歸估計值,是當x在在其研究范圍內取某一個值時,y值平均數α+βx的估計值。性質1最?。恍再|2;(7-5)回歸方程的根本性質:如果將〔7-4〕式代入〔7-2〕式,得到回歸方程的另一種形式(中心化形式):性質3

回歸直線通過點【例7.1】二、直線回歸的顯著性檢驗假設x和y變量間并不存在直線關系,但由n對觀測值〔xi,yi〕也可以根據上面介紹的方法求得一個回歸方程=a+bx。顯然,這樣的回歸方程所反響的兩個變量間的直線關系是不真實的。為了判斷直線回歸方程所反響的兩個變量間的直線關系是否真實,我們先探討依變量y的變異,然后再作出統(tǒng)計推斷。圖7-4的分解圖1、直線回歸的變異來源由此圖,可以得出→從圖7-4看到:上式兩端平方,然后對所有的n點求和,那么有

由于所以于是所以有〔7-6〕反映了y的總變異程度,稱為y的總平方和,記為SSy;反映了由于y與x間存在直線關系所引起的y的變異程度,稱為回歸平方和,記為SSR;反映了除y與x存在直線關系以外的原因,包括隨機誤差所引起的y的變異程度,稱為離回歸平方和或剩余平方和,記為SSr。〔7-8〕式又可表示為:〔7-7〕這說明y的總平方和剖分為回歸平方和與離回歸平方和兩局部。與此相對應,y的總自由度dfy也劃分為回歸自由度dfr與離回歸自由度dfr兩局部,即〔7-8〕

在直線回歸分析中,回歸自由度等于自變量的個數,即;y的總自由度;離回歸自由度。于是:離回歸均方:回歸均方:

無效假設HO:=0,備擇假設HA:≠0。在無效假設成立的條件下,回歸均方與離回歸均方的比值服從和的F分布,所以可以用

2、F檢驗~df1=1,df2=n-2〔7-9〕回歸平方和可用下面的公式計算得到:

根據〔7-7〕式,可得到離回歸平方和計算公式為:〔7-10〕(7-11)對于【例7.1】資料,有于是可以列出方差分析表進行回歸關系顯著性檢驗。變異來源dfSSMSF值F0.05F0.01回歸1794339.60794339.60213.81**4.9610.04離回歸1037152.073715.21總變異11831491.67表7-2四川白鵝70日齡重與雛鵝重回歸關系方差分析3、t檢驗采用回歸系數的顯著性檢驗—t檢驗也可檢驗x與y間是否存在直線關系。回歸系數顯著性檢驗的無效假設和備擇假設為

HO:β=0,HA:β≠0。t檢驗的計算公式為:其中,Sb為回歸系數標準誤?!?-13〕〔7-12〕

對于【例8.1】資料,已計算得

故有

經查表檢驗,否認HO:β=0,接受HA:β≠0,即直線回歸系數b=21.7122是極顯著的,說明四川白鵝70日齡重與雛鵝重間存在極顯著的直線關系。F檢驗的結果與t檢驗的結果一致。

直線相關

直線相關分析的根本任務:根據x、y的實際觀測值,計算表示兩個相關變量x、y間線性相關程度和性質的統(tǒng)計量——相關系數r并進行顯著性檢驗。決定系數和相關系數由得出:y與x直線回歸效果的好壞取決于回歸平方和與離回歸平方和的大小,或者說取決于回歸平方和在y的總平方和中所占的比例的大小。這個比例越大,y與x的直線回歸效果就越好,反之那么差。我們把比值

叫做x對y的決定系數,記為r2,即

〔7-14〕決定系數的大小表示了回歸方程估測可靠程度的上下,或者說表示了回歸直線擬合度的上下。顯然有0≤r2≤1。因為由上式可知:決定系數反響了x為自變量、y為依變量和y為自變量、x為依變量時兩個相關變量x與y直線相關的信息;即決定系數表示了兩個互為因果關系的相關變量間直線相關的程度。但決定系數介于0和1之間,不能反響直線關系的性質——是同向增減或是異向增減。假設求r2的平方根,且取平方根的符號與乘積和SPxy的符號一致,即與bxy、byx的符號一致,這樣求出的平方根既可表示y與x的直線相關的程度,也可表示直線相關的性質。統(tǒng)計學上把這樣計算所得的統(tǒng)計量稱為x與y的相關系數,記為r,即〔7-15〕〔7-16〕【例7.2】計算10只綿羊的胸圍〔cm〕和體重(kg)的相關系數。表7-310只綿羊胸圍和體重資料編號12345678910胸圍(x)68707071717173747676體重(y)50606865697271737577計算:相關系數的顯著性檢驗

上述根據實際觀測值計算得來的相關系數r是樣本相關系數,它是雙變量正態(tài)總體中的總體相關系數ρ的估計值。樣本相關系數r是否來自ρ≠0的總體,還須對樣本相關系數r進行顯著性檢驗。此時無效假設、備擇假設為HO:ρ=0,HA:ρ≠0。與直線回歸關系顯著性檢驗一樣,可采用t檢驗法與F檢驗法對相關系數r的顯著性進行檢驗。

統(tǒng)計學家已根據相關系數r顯著性t檢驗法計算出了臨界r值并列出了表格。所以可以直接采用查表法對相關系數r進行顯著性檢驗。具體作法是:根據自由度n-2查臨界r值,得,。用|r|與它們比較,作出判斷。相關系數與回歸系數的關系

從相關系數計算公式的導出可以看到:相關變量x與y的相關系數r是y對x的回歸系數與x對y的相關系數bxv的幾何平均數:假設雙變量x和y,y為依變量、x為自變量,樣本觀察值有n對,那么:同理,假設x為依變量、y為自變量,有為了正確地應用直線回歸分析和相關分析這一工具,在使用時必須注意以下幾點:1、變量間是否存在相關直線回歸分析和相關分析畢竟是處理變量間關系的數學方法,在將這些方法應用于生物科學研究時要考慮到生物本身的客觀實際情況,譬如變量間是否存在直線相關以及在什么條件下會發(fā)生直線相關,求出的直線回歸方程是否有意義,某性狀作為自變量或依變量確實定等等,都必須由生物科學相應的專業(yè)知識來決定,并且還要用到生物科學實踐中去檢驗。如果不以一定的生物科學依據為前提,把風馬牛不相及的資料隨意湊到一塊作直線回歸分析或相關分析,那將是根本性的錯誤。2、其余變量盡量保持一致由于自然界各種事物間的相互聯(lián)系和相互制約,一個變量的變化通常會受到許多其它變量的影響,因此,在研究兩個變量間關系時,要求其余變量應盡量保持在同一水平,否那么,回歸分析和相關分析可能會導致完全虛假的結果。例如研究人的身高和胸圍之間的關系,如果體重固定,身高越高的人,胸圍越小,但當體重在變化時,其結果也就會變化。3、觀測值要盡可能的多在進行直線回歸與相關分析時,兩個變量成對觀測值應盡可能多一些,這樣可提高分析的精確性,一般至少有5對以上的觀測值。同時變量x的取值范圍要盡可能大一些,這樣才容易發(fā)現(xiàn)兩個變量間的變化關系。4、外推要謹慎直線回歸與相關分析一般是在一定取值區(qū)間內對兩個變量間的關系進行描述,超出這個區(qū)間,變量間關系類型可能會發(fā)生改變,所以回歸預測必須限制在自變量x的取值區(qū)間以內,外推要謹慎,否那么會得出錯誤的結果。5、正確理解回歸或相關顯著與否的含義

一個不顯著的相關系數并不意味著變量x和y之間沒有關系,而只有能說明兩變量間沒有顯著的直線關系;一個顯著的相關系數或回歸系數亦并不意味著x和y的關系必定為直線,因為并不排除有能夠更好地描述它們關系的非線性方程的存在。6、一個顯著的回歸方程并不一定具有實踐上的預測意義如一個資料x、y兩個變量間的相關系數r=0.5,在df=24時,r0.01(24)=0.496,r>r0.01(24),說明相關系數極顯著。而r2=0.25,即x變量或y變量的總變異能夠通過y變量或x變量以直線回歸的關系來估計的比重只占25%,其余的75%的變異無法借助直線回歸來估計。曲線回歸概述直線關系是兩變量間最簡單的一種關系。這種關系往往在變量一定的取值范圍內成立,取值范圍一擴大,散點圖就明顯偏離直線,此時兩個變量間的關系不是直線而是曲線。例如,細菌的繁殖速率與溫度關系,畜禽在生長發(fā)育過程中各種生理指標與年齡的關系,乳牛的泌乳量與泌乳天數的關系等都屬這種類型。曲線回歸分析的根本任務是:通過兩個相關變量x與y的實際觀測數據建立曲線回歸方程,以揭示x與y間的曲線聯(lián)系的形式。變量y與x間的曲線關系的類型。通常通過兩個途徑來確定:1、利用生物科學的有關專業(yè)知識,根據的理論規(guī)律和實踐經驗。例如,細菌數量的增長常具有指數函數的形式:畜禽體重的增長常具有“S〞型曲線的形狀,即Logistic曲線的形式等。2、假設沒有的理論

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論