sc統(tǒng)計之直線回歸相關知識_第1頁
sc統(tǒng)計之直線回歸相關知識_第2頁
sc統(tǒng)計之直線回歸相關知識_第3頁
sc統(tǒng)計之直線回歸相關知識_第4頁
sc統(tǒng)計之直線回歸相關知識_第5頁
已閱讀5頁,還剩59頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第八章直線回歸與相關

前面各章我們討論的問題,都只涉及到一個變量,如體重、日增重、產仔數(shù)、體溫、血糖濃度、產奶量、產毛量或孵化率、發(fā)病率等。但是,由于客觀事物在發(fā)展過程中相互聯(lián)系、相互影響,因而在畜牧、水產等試驗研究中常常要研究兩個或兩個以上變量間的關系。下一張

主頁

退出

上一張

最高月產、豬瘦肉率與背膘厚度、眼肌面積、胴體長;綿羊產毛量與體重、胸圍、體長;黑白花奶牛的一胎305天產奶量與、最高日產天數(shù);

90天產奶量、最高日產豬的增重與飼料消耗;雛鵝重與70日齡重;綿羊胸圍與體長;仔豬初生重與斷奶重;例如變量間的關系有兩類:

一類是變量間存在著完全確定性的關系,可以用精確的數(shù)學表達式來表示。

如長方形的面積(S)與長(a)和寬(b)的關系可以表達為:S=ab。它們之間的關系是確定性的,只要知道了其中兩個變量的值就可以精確地計算出另一個變量的值,這類變量間的關系稱為函數(shù)關系。下一張

主頁

退出

上一張

另一類是變量間不存在完全的確定性關系,不能用精確的數(shù)學公式來表示。

如黃牛的體長與體重的關系;仔豬初生重與斷奶重的關系;豬瘦肉率與背膘厚度、眼肌面積、胴體長等的關系等等,這些變量間都存在著十分密切的關系,但不能由一個或幾個變量的值精確地求出另一個變量的值。像這樣一類關系在生物界中是大量存在的,統(tǒng)計學中把這些變量間的關系稱為相關關系,把存在相關關系的變量稱為相關變量。下一張

主頁

退出

上一張

相關變量間的關系一般分為兩種:一種是因果關系,即一個變量的變化受另一個或幾個變量的影響。如仔豬的生長速度受遺傳特性、營養(yǎng)水平、飼養(yǎng)管理條件等因素的影響,子代的體高受親本體高的影響;另一種是平行關系,它們互為因果或共同受到另外因素的影響。如黃牛的體長和胸圍之間的關系,豬的背膘厚度和眼肌面積之間的關系等都屬于平行關系。下一張

主頁

退出

上一張

統(tǒng)計學上采用回歸分析(regressionanalysis)研究呈因果關系的相關變量間的關系。表示原因的變量稱為自變量,表示結果的變量稱為依變量。研究“一因一果”,即一個自變量與一個依變量的回歸分析稱為一元回歸分析;研究“多因一果”,即多個自變量與一個依變量的回歸分析稱為多元回歸分析。一元回歸分析又分為直線回歸分析與曲線回歸分析兩種;多元回歸分析又分為多元線性回歸分析與多元非線性回歸分析兩種。下一張

主頁

退出

上一張

回歸分析的任務是揭示出呈因果關系的相關變量間的聯(lián)系形式,建立它們之間的回歸方程,利用所建立的回歸方程,由自變量(原因)來預測、控制依變量(結果)。

統(tǒng)計學上采用相關分析(correlationanalysis)研究呈平行關系的相關變量之間的關系。對兩個變量間的直線關系進行相關分析稱為簡單相關分析(也叫直線相關分析);對多個變量進行相關分析時,研究一個變量與多個變量間的線性相關稱為復相關分析;研究其余變量保持不變的情況下兩個變量間的線性相關稱為偏相關分析。

下一張

主頁

退出

上一張

第一節(jié)直線回歸

一、直線回歸方程的建立

對于兩個相關變量,一個變量用x表示,另一個變量用y表示,如果通過試驗或調查獲得兩個變量的n對觀測值:(x1,y1),(x2,y2),……,(xn,yn)

下一張

主頁

退出

上一張

為了直觀地看出x和y間的變化趨勢,可將每一對觀測值在平面直角坐標系描點,作出散點圖(見圖8-1)。從散點圖(圖8-1)可以看出:

②兩個變量間直線關系的性質(是正相關還是負相關)和程度(是相關密切還是不密切);下一張

主頁

退出

上一張

散點圖直觀地、定性地表示了兩個變量之間的關系。為了探討它們之間的規(guī)律性,還必須根據(jù)觀測值將其內在關系定量地表達出來。

①兩個變量間有關或無關;若有關,兩個變量間關系類型,是直線型還是曲線型;如果呈因果果關系的兩兩個相關變變量y(依依變量)與與x(自變變量)間的的關系是直直線關系,,根據(jù)n對觀測值所所描出的散散點圖,如如圖8—1((b)和圖8—1(e)所示示。由于依變量量y的實際際觀測值總總是帶有隨隨機誤差,,因而依變變量y的實實際觀測值值yi可用自變量量x的實際際觀測值xi表示為:(i=1,2,…,n)(8—1)其中:x為可以以觀測的一一般變量(也可以是是可以觀測測的隨機變變量);y為可以以觀測的隨隨機變量;這就是直線線回歸的數(shù)學模型。我們可以以根據(jù)實際際觀測值對對α,β以以及方差做做出出估計。i為相互獨立立,且都服服從N(0,))的隨機機變量。在x、y直角坐標平平面上可以以作出無數(shù)數(shù)條直線線,我們把所有直線線中最接近近散點圖中中全部散點點的直線用用來表示x與y的直線關系系,這條直線線稱為回歸直線。下一張主頁頁退出上一張設回歸直線的方程為:(8-2)其中,a是α的估計計值,b是β的估計計值。a、b應使回歸估估計值與與實際觀觀測值y的偏差平方方和最小,即:根據(jù)微積分分學中的求求極值的方方法,令Q對a、b的一階偏導導數(shù)等于0,即:最小整理得關于于a、b的正規(guī)方程組組:下一張主頁頁退出上一張解正規(guī)方程程組,得::(8-3)(8-4)(8-3))式中的分分子是自變變量x的離均差與與依變變量y的離均均差的的乘積積和,,簡稱乘積和,記作,,分母母是自變量量x的離均差平平方和,,記記作SSX。a叫做樣本回歸截距,是回歸直直線與y軸交點的縱縱坐標,當當x=0時,=a;b叫做樣本回歸系數(shù),表示x改變一個個單位,y平均改變變的數(shù)量;;b的符號反映映了x影響y的性質,b的絕對值大大小反映了了x影響y的程度;的估計值。叫做回歸估計值,是當x在在其研究范圍內取某一個值時,y值平均數(shù)回歸方程的的基本性質質:如果將(8-4)式式代入(8-2)式式,得到回回歸方程的的另一種形形式(中心化形式式):下一張主頁頁退出上一張性質1最??;性質2;性質3回歸直線通過點。(8-5)【例8.1】在四川川白鵝的生生產性能研研究中,得得到如下一一組關于雛雛鵝重(g)與70日齡重(g)的數(shù)數(shù)據(jù),試建建立70日日齡重(y)與雛鵝重重(x)的直線回回歸方程。。表8-1四四川白鵝鵝雛鵝重與與70日齡齡重測定結結果(單位:g)下一張主頁頁退出上一張1、作散點點圖以雛鵝重((x)為橫坐標標,70日日齡重(y)為縱坐標標作散點圖圖,見圖8-3。2、計算回回歸截距a,回歸系數(shù)數(shù)b,建立直線線回歸方程程首先根據(jù)實實際觀測值值計算出下下列數(shù)數(shù)據(jù):下一張主頁頁退出上一張進而計算出出b、a:得到四川白鵝的70日齡重y對雛鵝重x的直線回歸方程為:根據(jù)直線回回歸方程可可作出回歸歸直線,見見圖8-3。從圖8-3看出,并不不是所有的的散點都恰恰好落在回回歸直線上上,這說明明用去去估計y是有偏差的的。下一張主頁頁退出上一張3、直線回回歸的偏離離度估計偏差平方和和的的大小表表示了實測測點與回歸歸直線偏離離的程度,,因而偏差差平方和又又稱為離回歸平方方和。統(tǒng)計學已已經證明::在直線回回歸分析中中離回歸平平方和的自自由度為n-2。于是是可求得離回歸均方方為:離回歸均方方是模型((8-1))中σ2的估計值。。離回歸均方方的平方根根叫離回歸標準準誤,記為,,即即(8-6))離回歸標準準誤Syx的大小表示示了回歸直直線與實測測點偏差的的程度,即回歸估估測值與與實際際觀測值y偏差的程度度,于是我我們把離回歸標標準誤Syx用來表示回回歸方程的的偏離度。。下一張主頁頁退出上一張以后我們將將證明:(8-7))利用(8-7)式先先計算出,,然然后再代入入(8-6)式求Syx。對于【例8.1】有有所以二、直線回回歸的顯著著性檢驗若x和y變量間并不不存在直線線關系,但但由n對觀測值((xi,yi)也可以根根據(jù)上面介介紹的方法法求得一個個回歸方程程=a+bx。顯然,,這樣的回回歸方程所所反應的兩兩個變量間間的直線線關系是不不真實的。。如何判判斷直線回回歸方程所所反應的兩兩個變量間間的直線關關系的真實實性呢?這這取決于變變量x與y間是否存在在直線關系系。我們先先探討依變變量y的變異,然然后再作出出統(tǒng)計推斷斷。下一張主頁頁退出上一張1、直線回回歸的變異異來源圖8-4的的分分解圖從圖8-4看到:上式兩端平平方,然后后對所有的的n點求和,則則有下一張主頁頁退出上一張由于所以于是所以有(8-8))反映了y的總變異程程度,稱為為y的總平方和和,記為SSy;反映了由于于y與x間存在直線線關系所引引起的y的變異程度度,稱為回回歸平方和和,記為SSR;反映了了除y與x存在直直線關關系以以外的的原因因,包包括隨隨機誤誤差所所引起起的y的變異異程度度,稱稱為離離回歸歸平方方和或或剩余余平方方和,,記為為SSr。(8-8))式又又可表表示為為:(8-9))這表明明y的總平平方和和剖分分為回回歸歸平方方和與與離離回歸歸平方方和兩兩部分分。與與此相相對應應,y的總自自由度度dfy也劃分分為回回歸自自由度度dfr與離回回歸自自由度度dfr兩部分分,即即下一張張主頁頁退出出上一張張(8-10)在直線線回歸歸分析析中,,回歸歸自由由度等等于自自變量量的個個數(shù),,即即;;y的總總自自由由度;;離回回歸自自由度度。。于于是::離回歸歸均方方,,回回歸歸均均方方。2、回回歸關關系顯顯著性性檢驗驗—F檢驗x與y兩個變變量間間是否否存在在直線線關系系,可可用F檢驗法法進行行檢驗驗。無效假假設HO:=0,,備擇擇假設設HA:≠0。。在無效效假設設成立立的條條件下下,回回歸均均方與與離回回歸均均方的的比值值服從從和和的的F分布,,所以以可以以用df1=1,df2=n-2(8-11)下一張張主頁頁退出出上一張張來檢驗驗回歸歸關系系即回回歸方方程的的顯著著性。?;貧w平平方和和還可可用下下面的的公式式計算算得到到:(8-12)(8-13)根據(jù)((8-9))式,,可得得到離離回歸歸平方方和計計算公公式為為:下一張張主頁頁退出出上一張張對于【【例8.1】資資料,,有而。。于于是可可以列列出方方差分分析表表進行行回歸歸關系系顯著著性檢檢驗。。表8-2四四川白白鵝70日日齡重重與雛雛鵝重重回歸歸關系系方差分分析下一張張主頁頁退出出上一張張因為,,表表明四四川白白鵝70日日齡重重與雛雛鵝重重間存存在極極顯著著的直直線關關系。。3、回回歸系系數(shù)的的顯著著性檢檢驗——t檢驗采用回回歸系系數(shù)的的顯著著性檢檢驗——t檢驗也也可檢檢驗x與y間是否否存在在直線線關系系?;鼗貧w系系數(shù)顯顯著性性檢驗驗的無無效假假設和和備擇擇假設設為HO:β==0,,HA:β≠≠0。。t檢驗的的計算算公式式為::(8-14)(8-15)其中,,Sb為回歸歸系數(shù)數(shù)標準準誤。。對于【【例例8.1】】資資料料,,已計計算得得故有下一張張主頁頁退出出上一張張當,,查查t值表,,得因,,,,否定HO:β==0,,接受受HA:β≠≠0,,即直直線回回歸系系數(shù)b=21.7122是是極顯顯著的的,表表明四四川白白鵝70日日齡重重與與雛鵝鵝重間間存在在極顯顯著的的直線線關系系,可可用所所建立立的直直線回回歸方方程來來進行行預預測和和控制制。F檢驗驗的的結結果果與與t檢驗驗的的結結果果一一致致。。事實實上上,,統(tǒng)統(tǒng)計計學學已已證證明明,,在在直直線線回回歸歸分分析析中中,,這這二二種種檢檢驗驗方方法法是是等等價價的的,,可可任任選選一一種種進進行行檢檢驗驗。。下一一張張主頁頁退出出上一一張張?zhí)貏e別要要指指出出的的是是::利利用用直直線線回回歸歸方方程程進進行行預預測測或或控控制制時時,,一一般般只只適適用用于于原原來來研研究究的的范范圍圍,,不不能能隨隨意意把把范范圍圍擴擴大大,,因因為為在在研研究究的的范范圍圍內內兩兩變變量量是是直直線線關關系系,,這這并并不不能能保保證證在在這這研研究究范范圍圍之之外外仍仍然然是是直直線線關關系系。。若若需需要要擴擴大大預預測測和和控控制制范范圍圍,,則則要要有有充充分分的的理理論論依依據(jù)據(jù)或或進進一一步步的的實實驗驗依依據(jù)據(jù)。。利利用用直直線線回回歸歸方方程程進進行行預預測測或或控控制制,,一一般般只只能能內內插插,,不不要要輕輕易易外外延延。。第二二節(jié)節(jié)直直線線相相關關進行行直直線線相相關關分分析析的的基基本本任任務務在在于于根根據(jù)據(jù)x、、y的實實際際觀觀測測值值,,計計算算表表示示兩兩個個相相關關變變量量x、、y間線線性性相相關關程程度度和和性性質質的的統(tǒng)統(tǒng)計計量量————相相關關系系數(shù)數(shù)r并進進行行顯顯著著性性檢檢驗驗。。下一一張張主頁頁退出出上一一張張一、、決決定定系系數(shù)數(shù)和和相相關關系系數(shù)數(shù)在上上一一節(jié)節(jié)中中已已經經證證明明了了等等式式::從這這個個等等式式不不難難看看到到::y與x直線線回回歸歸效效果果的的好好壞壞取取決決于于回回歸歸平平方方和和與與離離回回歸歸平平方方和和的大大小小,,或或者者說說取取決決于于回回歸歸平平方方和和在在y的總總平平方方和和中中所所占占的的比比例例的的大大小小。。這這個個比比例例越越大大,,y與x的直線回回歸效果果就越好好,反之之則差。。我們把比比值叫做x對y的決定系數(shù)數(shù)(coefficientofdetermination),記記為r2,即下一張主頁頁退出出上一張(8-24)決定系數(shù)數(shù)的大小小表示了了回歸方方程估測測可靠程程度的高高低,或者說說表示了了回歸直直線擬合合度的高高低。顯顯然有0≤r2≤1。因因為而SPxy/SSx是以x為自變量量、y為依變量量時的回回歸系數(shù)數(shù)byx。若把把y作為自變變量、、x作為依變變量,,則回歸歸系數(shù)bxy=SPxy/Ssy,所以決決定系數(shù)數(shù)r2等于y對x的回歸系系數(shù)與x對y的回歸歸系數(shù)的的乘積。。這就是是說,決決定系數(shù)數(shù)反應了了x為自變量量、y為依變量量和y為自變量量、x為依變量量時兩個個相關變變量x與y直線相關關的信息息,即即決定系數(shù)數(shù)表示了了兩個個互為因因果關系系的相關關變量間間直線相相關的程程度。但決定定系數(shù)介介于0和和1之間間,不能能反應直直線關系系的性質質——是是同向增增減或是是異向增增減。下一張主頁頁退出出上一張若求r2的平方根根,且取取平方根根的符號號與乘積積和SPxy的符號一一致,即即與bxy、byx的符號一一致,這這樣求出出的平方方根既可表示示y與x的直線相相關的程程度,也也可表示示直線相相關的性性質。統(tǒng)計學學上把這這樣計算算所得的的統(tǒng)計量量稱為x與y的相關系系數(shù)(coefficientofcorrelation),,記為r,即(8-25)(8-26)下一張主頁頁退出出上一張二、相關關系數(shù)的的計算【例8.6】計計算算10只只綿羊的的胸圍((cm)和體重重(kg)的相相關系數(shù)數(shù)。表8-310只綿綿羊胸圍圍和體重重資料下一張主頁頁退出出上一張根據(jù)表8-3所所列數(shù)據(jù)據(jù)先計算算出:代入(8-25)式得得:即綿羊胸胸圍與體體重的相相關系數(shù)數(shù)為0.8475。下一張主頁頁退出出上一張三、相關關系數(shù)的的顯著性性檢驗上述根據(jù)據(jù)實際觀觀測值計計算得來來的相關關系數(shù)r是樣本相相關系數(shù)數(shù),它它是雙變變量正態(tài)態(tài)總體中中的總體體相關系系數(shù)ρ的的估計值值。樣本本相關系系數(shù)r是否來自自ρ≠0的總體體,還須須對樣本本相關系系數(shù)r進行顯著著性檢驗驗。此此時無無效效假設設、備備擇假假設設為HO:ρ=0,HA:ρ≠0。與與直線線回歸關關系顯著著性檢驗驗一樣,,可采用用t檢驗法與與F檢驗驗法對相相關系數(shù)數(shù)r的顯著性性進行檢檢驗。t檢驗的計計算公式式為:t=,,df=n-2(8-27)其中,,,叫做做相關系系數(shù)標準準誤。F檢驗的計計算公式式為:F=,,df1=1,df2=n-2(8-28)下一張主頁頁退出出上一張統(tǒng)計學家家已根據(jù)據(jù)相關系系數(shù)r顯著性t檢驗法計計算出了了臨界r值并列出出了表格格。所所以可可以直接接采用查查表法對對相關系系數(shù)r進行顯著著性檢驗驗。具體作法法是:先根據(jù)據(jù)自自由度度n-2查查臨界r值(附附表表8),得得,,。。若若|r|<,,P>0.05,則則相關系系數(shù)r不顯著,,在r的右上方方標記““ns”;若≤≤|r|<,,0.01<P≤0.05,則則相關系系數(shù)r顯著,在在r的右上方方標記““*”;;若|r|≥,,P≤0.01,,則相相關系系數(shù)數(shù)r極顯著,,在r的右上方方標記““**””。對于【例例8-6】,因因為df=n-2=10-2=8,查查附表8得:=0.632,=0.765,,而r=0.8475>,,P<0.01,表表明綿羊羊胸圍與與體重的的相關系系數(shù)極顯顯著。四、相關關系數(shù)與與回歸系系數(shù)的關關系從相關系系數(shù)計算算公式的的導出可可以看到到:相關關變量x與y的相關系系數(shù)r是y對x的回歸系數(shù)數(shù)與x對y的相關系數(shù)數(shù)bxv的幾何平均均數(shù):下一張主頁頁退出上一張表明直線相相關分析與與回歸分析析關系十分分密切。事事實上,它它們的研究究對象都是是呈直線關關系的相關關變量。直直線回歸分分析將二個個相關變量量區(qū)分為自自變量和依依變量,側側重于尋求求它們之間間的聯(lián)系形形式——直直線回歸方方程;直線線相關分析析不區(qū)分自自變量和依依變量,側側重于揭示示它們之間間的聯(lián)系程程度和性質質——計算算出相關系系數(shù)。兩種種分析所進進行的顯著著性檢驗都都是解決y與x間是否存在在直線關系系。因而二二者的檢驗驗是等價的的。即相關關系數(shù)顯著著,回回歸系數(shù)亦亦顯著;相相關系數(shù)數(shù)不顯著,回歸歸系數(shù)也必必然不顯著著。由于利利用查表法法對相關系系數(shù)進行檢檢驗十分簡簡便,因此此在實際進行行直線回歸歸分析時,,可用相關關系數(shù)顯著著性檢驗代代替直線回回歸關系顯顯著性檢驗驗,即可先計計算出相關關系數(shù)r并對其進行行顯著性檢檢驗,若檢檢驗結果r不顯著,則則用不著建建立直線回回歸方程;;若r顯著,再計計算回歸系系數(shù)b、回歸截距距a,建立直線線回歸方程程,此時所所建立的直直線回歸方方程代表的的直線關系系是真實的的,可利用用來進行預預測和控制制。下一張主頁頁退出上一張五、應用直直線回歸與與相關的注注意事項直線回歸分分析與相關關分析在生生物科學研研究領域中中已得到了了廣泛的應應用,但在在實際工作作中卻很容容易被誤用用或作出錯錯誤的解釋釋。為了正正確地應用用直線回歸歸分析和相相關分析這這一工具,,必須注意意以下幾點點:1、變量間間是否存在在相關直線回歸分分析和相關關分析畢竟竟是處理變變量間關系系的數(shù)學方方法,在將將這些方法法應用于生生物科學研研究時要考考慮到生物物本身的客客觀實際情情況,譬如如變量間是是否存在直直線相關以以及在什么么條件下會會發(fā)生直線線相關,求求出的直線線回歸方程程是否有意意義,某性性狀作為自自變量或依依變量的確確定等等,,都必須由由生物科學學相應的專專業(yè)知識來來決定,并并且還要用用到生物科科學實踐中中去檢驗。。如果不以以一定的生生物科學依依據(jù)為前提提,把風馬馬牛不相及及的資料隨隨意湊到一一塊作直線線回歸分析析或相關分分析,那將將是根本性性的錯誤。。下一張主頁頁退出上一張2、其余變變量盡量保保持一致由于自然界界各種事物物間的相互互聯(lián)系和相相互制約,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論