第四章 相關(guān)與回歸.ppt_第1頁
第四章 相關(guān)與回歸.ppt_第2頁
第四章 相關(guān)與回歸.ppt_第3頁
第四章 相關(guān)與回歸.ppt_第4頁
第四章 相關(guān)與回歸.ppt_第5頁
已閱讀5頁,還剩36頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、第四章 相關(guān)與回歸Chapter 4: Regressionand Correlation,在回歸模型中,X是試驗(yàn)時(shí)預(yù)先確定的,沒有誤差或誤差很小,而Y不僅隨著X的變化而變化,并且有隨機(jī)誤差,X稱為自變量,Y稱為依變量。在回歸模型中除有自變量和依變量的區(qū)別外,尚有預(yù)測(cè)的特征。回歸模型資料的統(tǒng)計(jì)方法叫回歸分析,確定由X來預(yù)測(cè)或控制Y的回歸方程,并確定當(dāng)給X某一個(gè)值時(shí)Y將會(huì)在什么范圍內(nèi)變化。,從統(tǒng)計(jì)學(xué)上講,X和Y變數(shù)的關(guān)系有兩種理論模型:第一種叫回歸模型;第二種叫相關(guān)模型。,在相關(guān)模型中,X和Y變數(shù)是平行變化關(guān)系,均具有隨機(jī)誤差,所表示的只是兩個(gè)變數(shù)的偕同變異,沒有自變數(shù)和依變數(shù)之分,也不具有預(yù)測(cè)

2、的性質(zhì)。相關(guān)模型資料的統(tǒng)計(jì)方法叫相關(guān)分析,其目的是要測(cè)定兩個(gè)變數(shù)在數(shù)量關(guān)系上的密切程度和性質(zhì)。,4.1 直線回歸方程,回歸系數(shù),回歸截距,確定直線回歸方程的方法有最小二乘法、高斯牛頓法、麥夸特法、牛頓法、梯度法、正割法等等。這里重點(diǎn)給大家介紹最小二乘法。,分別對(duì)上式的a和b求偏導(dǎo):,解方程組得:,a稱為截距;b成為斜率;Q稱為離回歸平方和或稱為剩余平方和;U稱為回歸平方和;Sy/x稱為回歸估計(jì)標(biāo)準(zhǔn)誤。,因方程使用了a,b兩個(gè)統(tǒng)計(jì)數(shù),故自由度為n2。,例 測(cè)定水稻播種至齊穗的天數(shù)和播種至齊穗的總積溫的數(shù)據(jù)如下。請(qǐng)確定X與Y的變化關(guān)系。 表 播種至齊穗的天數(shù)X和播種至齊穗的總積溫Y的關(guān)系,解:以X

3、為橫坐標(biāo),Y為縱坐標(biāo)繪制散點(diǎn)圖。從散點(diǎn)圖可以看出Y與X有回歸關(guān)系,Y隨著X變大而上升,可以選用一元線性回歸方程擬合Y與X的回歸關(guān)系。,因此,該例數(shù)據(jù)的回歸直線方程為:,Old Y Fitted Y Residuals STD Residuals 1421.801429.89-8.09 -0.28 1423.301429.89-6.59 -0.34 1440.701439.970.73 0.03 1471.301439.9731.33 1.33 1440.001470.23-30.23 -1.28 1547.101520.6626.44 1.11 1533.001561.01-28.01 -1.

4、19 1610.901591.2619.64 0.83 1616.301621.52-5.22 -0.22,表 殘差值,殘差的方差及標(biāo)準(zhǔn)差為:,用Se對(duì)殘差進(jìn)行標(biāo)準(zhǔn),得到標(biāo)準(zhǔn)化殘差,結(jié)果見上表。 計(jì)算Y總體平均數(shù)的95%置信區(qū)間,計(jì)算公式如下所示,其結(jié)果包括總體平均數(shù)在內(nèi)。,UCL: upper confidence limit LCL: lower confidence limit,計(jì)算y值的95%置信區(qū)間的計(jì)算公式:,X Y LCL95 UCL95 51.001421.801408.841450.93 51.001423.301408.841450.93 52.001440.701420.

5、371459.58 52.001471.301420.371459.58 55.001440.001454.021486.44 60.001547.101505.161536.16 64.001533.001541.401580.61 67.001610.901567.031615.49 70.001616.301592.011651.03,表 95%置信區(qū)間,圖 Y的95%置信區(qū)間,包括總體平均數(shù)在內(nèi) 95%可靠度的置信區(qū)間,一般來講,y關(guān)于x的回歸方程y=f(x)是未知的,由樣本來擬合是一種探索的過程,或者說是一個(gè)選擇合適的函數(shù)逼近的過程。,直線回歸的顯著測(cè)驗(yàn):,b的顯著性測(cè)驗(yàn):,b的(1

6、-)*100%的置信區(qū)間為:,a的顯著性測(cè)驗(yàn):,a的(1-)*100%的置信區(qū)間為:,回歸關(guān)系的作用:,1、預(yù)測(cè) 在x=x0處,用y=a+bx進(jìn)行預(yù)測(cè)。預(yù)測(cè)包括平均值的預(yù)測(cè)和個(gè)別值的預(yù)測(cè)。,平均值預(yù)測(cè),個(gè)別值預(yù)測(cè),2、控制 控制問題是預(yù)測(cè)的反問題。若要求y的個(gè)別值在y1,y2內(nèi)的可靠性為(1-)100%時(shí),應(yīng)該把x值控制在什末范圍內(nèi)?,非線性模型參數(shù)的計(jì)算及其檢驗(yàn):,在生物學(xué)研究領(lǐng)域中,許多變量間的關(guān)系呈非線性關(guān)系(curvilinear relations)。非線性模型的形式是多種多樣的,這里只討論在農(nóng)學(xué)和生物學(xué)研究中常遇到的非線性模型。 如:昆蟲種群的增長過程,病害的發(fā)展過程等等。,對(duì)這類

7、模型參數(shù)據(jù)的求解有兩種方法:一是將非線性模型線性化,然后按直線模型參數(shù)的求解過程確定其參數(shù),并進(jìn)行檢驗(yàn);二是采用Gauss-Newton法、Marquart法、Newton法、Gradient法、DUD法等進(jìn)行參數(shù)的求解。下面以實(shí)例詳細(xì)說明計(jì)算過程。,4.2 非線性回歸方程,請(qǐng)參見課本第170頁。,非線性回歸方程參數(shù)的求解過程:,(1)整理數(shù)據(jù) (2)畫散點(diǎn)圖 (3)選方程 (4)線性化 (5)求解參數(shù) (6)參數(shù)帶回原方程,例1 美國紐約1980年觀察到馬鈴薯晚疫?。≒hytophthora infestans)在四個(gè)馬鈴薯品種(Katahdin, Kennebec, Monona, Seb

8、ago)上的嚴(yán)重度,結(jié)果見下表,請(qǐng)用 Gompertz, Monomolecular和Logistic模型擬合數(shù)據(jù)。,接種天數(shù) 重復(fù) 嚴(yán)重度 Katahdin Kennebec Monona Sebago 1110.00.00.00.0 20.00.00.00.0 30.00.00.00.0 40.00.00.00.0 1412.50.911.80.7 211.80.87.81.7 32.31.72.81.0 43.91.08.01.4 。 37198.392.5100.075.5 298.389.3100.079.5 398.087.5100.083.0 498.388.8100.078.0

9、,表 四個(gè)馬鈴薯品種上晚疫病發(fā)生程度數(shù)據(jù),馬鈴薯上晚疫病發(fā)生過程的三點(diǎn)圖,天,病害嚴(yán)重度,根據(jù)散點(diǎn)圖趨勢(shì),選擇較適合的曲線模型:,單分子模型:,Gompertz模型:,Logistic模型:,單分子模型:ln 1 / (1-y) = - lnA + Bt,Gompertz模型:ln 1 / ln ( 1/y ) = - lnA + Bt,Logistic模型:ln y / (1-y) = A + Bt,非線性模型的線性化形式:,參數(shù) 參數(shù)估計(jì) T 概率值 INTERCEPT -6.7654 -24.36 0.0001 DAY 0.2879 27.07 0.0001,Logistic線性模型的參

10、數(shù)估計(jì):,參數(shù) 參數(shù)估計(jì) T 概率值 INTERCEPT -4.3666 -20.40 0.0001 Day 0.2139 26.10 0.0001,Gompertz線性模型的參數(shù)估計(jì):,參數(shù) 參數(shù)估計(jì) T 概率值 INTERCEPT -2.1898 -8.64 0.0001 DAY 0.1458 14.23 0.0001,Monomolecular線性模型的參數(shù)估計(jì):,Monomolecular: M = - 2.1898 + 0.1458 DAY Gompertz: G = - 4.3667 + 0.2140 DAY Logistic: L = - 6.7655 + 0.2880 DAY,

11、三個(gè)模型的線性化形式:,三模型的非線性化形式:,Monomolecular:,Gompertz:,Logistic:,例2 酵母種群的增長資料如下表,試擬合生長模型。,表 酵母種群增長資料,時(shí)刻X 酵母數(shù)Y時(shí)刻X 酵母數(shù)Y 09.610513.3 118.311559.7 229.012594.8 347.213629.4 471.114640.8 5119.115651.1 6174.616655.9 7257.317659.6 8350.718661.8 9441.0,制作散點(diǎn)圖,選擇適合的曲線方程, 這里以Logistic方程為例,說明非線性方程參數(shù)的求解過程。,Dmlog;clear;

12、output;clear; Options font=sasfont 8; DATA NEW; INPUT x y; Cards; 0 9.6 1 18.3 。 PROC NLIN METHOD=DUD BEST=2; PARMS K=661 TO 665 BY 2 A=3 TO 5 B=-0.6 TO -0.4 BY 0.1; MODEL y=K/(1+EXP(A+B*x); RUN;,采用DUD法求解Logistic方程的參數(shù):,表 Logistic參數(shù)估計(jì)表,參數(shù)參數(shù)估計(jì)標(biāo)準(zhǔn)誤95%下限95%上限 K663.01.7027659.4666.6 A4.27080.04094.18414.3

13、575 B-0.54700.00558-0.5588-0.5352,Logistic方程為:,4.3 相關(guān)分析,相關(guān)系數(shù):用r來表示,其取值范圍為1到1,表示兩個(gè)變數(shù)間相關(guān)的密切程度和性質(zhì)。r的絕對(duì)值愈大表示兩個(gè)變數(shù)愈密切;當(dāng)r取負(fù)值時(shí)表示兩個(gè)變量間呈負(fù)相關(guān);當(dāng)r取正值時(shí)表示兩個(gè)變量間呈正相關(guān)。,決定系數(shù):是由x不同而引起的y變數(shù)平方和U占y變數(shù)總平方和SSy的比率,即決定系數(shù)是相關(guān)系數(shù)的平方值。,決定系數(shù)和相關(guān)系數(shù)的區(qū)別主要有:,1、除掉|r|=1 和|r|=0兩種情況外,決定系數(shù)總小于相關(guān)系數(shù);,2、r的取值范圍為1到1,而決定系數(shù)的取值范圍為0到1;,3、r可以用來表示相關(guān)的程度和性質(zhì),

14、而決定系數(shù)只用來表示相關(guān)的程度,不表示相關(guān)的性質(zhì)。,直線相關(guān)系數(shù)的假設(shè)測(cè)驗(yàn): H0:0;HA: 0。其中, 樣本是從總體0中抽樣得到。 直線相關(guān)系數(shù)的標(biāo)準(zhǔn)誤為:,例 測(cè)定水稻播種至齊穗的天數(shù)和播種至齊穗積溫的數(shù)據(jù)如下表。請(qǐng)確定X與Y的變化關(guān)系。 表 播種至齊穗的天數(shù)X和播種至齊穗的總積溫Y的關(guān)系,Data new; Input x y; Cards; 70 1616.3 67 1610.9 55 1440.0 52 1440.7 51 1423.3 52 1471.3 51 1421.8 61 1547.1 64 1533.0 ; Proc corr;/用于計(jì)算相關(guān)系數(shù)的過程 Var x y; Run;,解:計(jì)算相關(guān)系數(shù)的SAS程序?yàn)椋?例 一些害蟲盛發(fā)期的遲早和春季溫度高低有關(guān)。測(cè)定某地19561964年間3月下旬至4月中旬旬平均氣溫累積值和一代三化螟蛾盛發(fā)期得關(guān)系見下表,請(qǐng)計(jì)算相關(guān)系數(shù)。 表 積溫和一代三化螟蛾盛發(fā)期的關(guān)系,Data new; Input x y; Cards; 70 1616.3 67 1610.9 55 1440.0 52 1440.7 51 1423.3 52 1471.3 51 1421.8 61

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論