版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、第九章 直線回歸和相關(guān)n第一節(jié) 回歸和相關(guān)的概念 n第二節(jié) 直線回歸n第三節(jié) 直線相關(guān)n第四節(jié) 直線回歸與相關(guān)的內(nèi)在關(guān)系 和應(yīng)用要點(diǎn)n第五節(jié) 協(xié)方差分析n引言 這一章研究的對象:n由一個變數(shù) 兩個或多個變數(shù),因?yàn)樵趯?shí)際生產(chǎn)實(shí)踐和科學(xué)實(shí)驗(yàn)中所要研究的變數(shù)往往不止一個,例如:n研究溫度高低和作物發(fā)育進(jìn)度快慢的關(guān)系,就有溫度和發(fā)育進(jìn)度兩個變數(shù);n研究每畝穗數(shù)、每穗粒數(shù)和每畝產(chǎn)量的關(guān)系,就有穗數(shù)、粒數(shù)和產(chǎn)量三個變數(shù)。第一節(jié) 回歸和相關(guān)的概念n1. 函數(shù)關(guān)系與統(tǒng)計(jì)關(guān)系 n2. 自變數(shù)與依變數(shù) n3. 回歸分析和相關(guān)分析n4. 兩個變數(shù)資料的散點(diǎn)圖 函數(shù)關(guān)系 有精確的數(shù)學(xué)表達(dá)式 (確定性的關(guān)系) 直線回歸
2、分析 一元回歸分析 變量間的關(guān)系 因果關(guān)系 曲線回歸分析(回歸分析) 多元回歸分析 多元線性回歸分析 統(tǒng)計(jì)關(guān)系 多元非線性回歸分析 (非確定性的關(guān)系) 簡單相關(guān)分析 直線相關(guān)分析 相關(guān)關(guān)系 復(fù)相關(guān)分析 (相關(guān)分析) 多元相關(guān)分析 偏相關(guān)分析n函數(shù)關(guān)系是一種確定性的關(guān)系,例如圓面積與半徑的關(guān)系為 。其不包含誤差的干擾。n統(tǒng)計(jì)關(guān)系是一種非確定性的關(guān)系。例如,作物的產(chǎn)量與施肥量的關(guān)系,兩類變數(shù)受誤差的干擾表現(xiàn)為統(tǒng)計(jì)關(guān)系。2RSn因果關(guān)系:兩個變數(shù)間的關(guān)系若具有原因和反應(yīng)(結(jié)果)的性質(zhì)。n相關(guān)關(guān)系:呈現(xiàn)一種共同變化的特點(diǎn),則稱這兩個變數(shù)間存在。n回歸分析:計(jì)算回歸方程為基礎(chǔ)的統(tǒng)計(jì)分析方法。 為Y 依X
3、 的回歸方程(regression equation of Y on X )。n相關(guān)分析:計(jì)算相關(guān)系數(shù)為基礎(chǔ)的統(tǒng)計(jì)分析方法。計(jì)算表示Y 和X 相關(guān)密切程度的統(tǒng)計(jì)數(shù),并測驗(yàn)其顯著性。n這個統(tǒng)計(jì)數(shù)在兩個變數(shù)為直線相關(guān)時(shí)稱為相關(guān)系數(shù)(correlation coefficient),記為r;在多元相關(guān)時(shí)稱為復(fù)相關(guān)系數(shù)(multiple correlation),記作Ry12m ;在兩個變數(shù)曲線相關(guān)時(shí)稱為相關(guān)指數(shù)(correlation index),記作R。)(xfy n一般規(guī)則:n當(dāng)兩個變數(shù)中Y 含有試驗(yàn)誤差而X 不含試驗(yàn)誤差時(shí)著重進(jìn)行回歸分析;而當(dāng)Y 和X 均含有試驗(yàn)誤差時(shí)則著重去進(jìn)行相關(guān)分析。
4、n4. 兩個變數(shù)資料的散點(diǎn)圖n對具有統(tǒng)計(jì)關(guān)系的兩個變數(shù)的資料進(jìn)行初步考察的簡便而有效的方法,是將這兩個變數(shù)的n對觀察值(x1,y1)、(x2,y2)、(xn,yn)分別以坐標(biāo)點(diǎn)的形式標(biāo)記于同一直角坐標(biāo)平面上,獲得散點(diǎn)圖(scatter diagram)。 n根據(jù)散點(diǎn)圖可初步判定雙變數(shù)X 和Y 間的關(guān)系,包括:X 和Y 相關(guān)的性質(zhì)(正或負(fù))和密切程度; X 和Y 的關(guān)系是直線型的還是非直線型的; 是否有一些特殊的點(diǎn)表示著其他因素的干擾等。n例如圖9.1是水稻方面的3幅散點(diǎn)圖,圖9.1A是單株的生物產(chǎn)量(X )和稻谷產(chǎn)量(Y ),圖9.1B是每平方米土地上的總穎花數(shù)(X )和結(jié)實(shí)率(Y ),圖9.
5、1C是最高葉面積指數(shù)(X )和每畝稻谷產(chǎn)量(Y )。從中可以看出: 圖9.1A和9.1B都是直線型的,但方向 相反;前者Y 隨X 的增大而增大,表示兩個變數(shù)的關(guān)系是正的,后者Y 隨X 的增大而減小,表示關(guān)系是負(fù)的。 圖9.1A的各個點(diǎn)幾乎都落在一直線上,圖9.1B則較為分散;因此,圖9.1A中X 和Y 相關(guān)的密切程度必高于圖9.1B。 圖9.1C中X 和Y 的關(guān)系是非直線型的;大約在x(67)時(shí),Y 隨X 的增大而增大,而當(dāng)x(67)時(shí),Y 隨X 的增大而減小。x,生物產(chǎn)量(g)水稻單株生物產(chǎn)量與稻谷產(chǎn)量的散點(diǎn)圖 x,每m2穎花數(shù)(萬)水稻每m2穎花數(shù)和結(jié)實(shí)率的散點(diǎn)圖x,最高葉面積指數(shù)水稻最高
6、葉面積指數(shù)和畝產(chǎn)量的散點(diǎn)圖第二節(jié) 直線回歸n一、直線回歸方程n二、直線回歸的假設(shè)測驗(yàn)和區(qū)間估計(jì)n三、直線回歸的矩陣求解一、直線回歸方程(一)直線回歸方程式 (91)n回歸截距(regression intercept):a是x=0時(shí)的值,即回歸直線在y 軸上的截距。n回歸系數(shù)(regression coefficient):b是x 每增加一個單位數(shù)時(shí),平均地將要增加(b0時(shí))或減少(b0時(shí))的單位數(shù)。bxay 時(shí),分別對a和b 求偏導(dǎo)數(shù)并令其為0,可得正規(guī)方程組(normal equations): 得 最小為)()(2121bxayyyQnnxyxbxayxban2xbya(92) xSSS
7、Pxxyyxxxnxyxnxyb22)()()(112)(xxbybxxbyy)(93) (94) 將(92)代入(91)可得: y a0,b0,b0 a0 x 直線回歸方程的圖象n由(94)可看到:當(dāng)x以離均差(x - )為單位時(shí),回歸直線的位置僅決定于 和b ;當(dāng)將坐標(biāo)軸平移到以( , )為原點(diǎn)時(shí),回歸直線的走向僅決定于b,所以一般又稱b為回歸斜率(regression slope)。 xyxyn(二)直線回歸方程的計(jì)算n例9.1 一些夏季害蟲盛發(fā)期的早遲和春季溫度高低有關(guān)。江蘇武進(jìn)連續(xù)9年測定3月下旬至4月中旬旬平均溫度累積值(x,旬度)和水稻一代三化螟盛發(fā)期(y,以5月10日為0)的關(guān)
8、系,得結(jié)果于表9.1。試計(jì)算其直線回歸方程。n首先由表9.1算得回歸分析所必須的6個一級數(shù)據(jù)(即由觀察值直接算得的數(shù)據(jù)): x累積溫y盛發(fā)期35.534.131.740.336.840.231.739.244.212169273139-1 表9.1 累積溫和一代三化螟盛發(fā)期的關(guān)系 x2x y2 yyxn = 9 =35.5+34.1+44.2=333.7 =35.52+34.12+44.22=12517.49 =12+16+(-1)=70 =122+162+(-1)2=794 =(35.512)+(34.116)+44.2(-1)=2436.4然后,由一級數(shù)據(jù)算得5個二級數(shù)據(jù): nxx22)(
9、nyy22)(nyxyxxnxyny SSx =12517.49-(333.7)2/9 =144.6356=794-(70)2/9 =249.55562436.4-(333.770)/9= -159.0444333.7/9=37.077870/9=7.7778*SSy =SP=xSSSP /xby 因而有: b=-159.0444/144.6356= - 1.0996天/(旬度)a= =7.7778-(-1.099637.0778)=48.5485(天)n故得表9.1資料的回歸方程為:n上述方程中回歸系數(shù)和回歸截距的意義為:當(dāng)3月下旬至4月中旬的積溫(x)每提高1旬度時(shí),一代三化螟的盛發(fā)期平均
10、將提早1.1天;若積溫為0,則一代三化螟的盛發(fā)期將在6月2728日(x=0時(shí),=48.5;因y是以5月10日為0,故48.5為6月2728日)。n由于x變數(shù)的實(shí)測區(qū)間為31.7,44.2,當(dāng)x31.7或44.2時(shí),y的變化是否還符合=48.5-1.1x的規(guī)律,觀察數(shù)據(jù)中未曾得到任何信息。=48.5485-1.0996xy n所以,在應(yīng)用=48.5-1.1x于預(yù)測時(shí),需限定x的區(qū)間為31.7,44.2;如要在x31.7或44.2的區(qū)間外延,則必須有新的依據(jù)。 n(三)直線回歸方程的圖示n直線回歸圖包括回歸直線的圖象和散點(diǎn)圖,它可以醒目地表示x 和y 的數(shù)量關(guān)系。n方法:制作直線回歸圖時(shí),首先以x
11、為橫坐標(biāo),以y為縱坐標(biāo)構(gòu)建直角坐標(biāo)系(縱、橫坐標(biāo)皆需標(biāo)明名稱和單位);然后取x坐標(biāo)上的一個小值x1代入回歸方程得 ,取一個大值x2代入回歸方程得 ,連接坐標(biāo)點(diǎn)(x1, )和(x2, )即成一條回歸直線。如例9.1資料,以x1=31.7代入回歸方程得 =13.69;y 1y 2y 1y 2y 1n以x2=44.2代入回歸方程得 =-0.05。在圖9.3上確定(31.7,13.69)和(44.2,-0.05)這兩個點(diǎn),再連接之,即為 =48.5485-1.0996x的直線圖象。注意:此直線必通過點(diǎn)( , ),它可作為制圖是否正確的核對。最后,將實(shí)測的各對(xi,yi)數(shù)值也用坐標(biāo)點(diǎn)標(biāo)于圖9.3上。
12、y 2y xy x,3月下旬至4月中旬旬平均溫度累積值圖 旬平均溫度累積值和一代三化螟盛發(fā)期的關(guān)系 n圖9.3的回歸直線是9個觀察坐標(biāo)點(diǎn)的代表,它不僅表示了例9.1資料的基本趨勢,也便于預(yù)測。如某年3月下旬至4月中旬的積溫為40旬度,則在圖9.3上可查到一代三化螟盛發(fā)期的點(diǎn)估計(jì)值在5月1415日,這和將x=40代入原方程得到 =48.5485-(1.099640)=4.6是一致的。因?yàn)榛貧w直線是綜合9年結(jié)果而得出的一般趨勢,所以其代表性比任何一個實(shí)際的坐標(biāo)點(diǎn)都好。當(dāng)然,這種估計(jì)仍然有隨機(jī)誤差,下文再作討論。y n(四)直線回歸的估計(jì)標(biāo)準(zhǔn)誤nQ 就是誤差的一種度量,稱為離回歸平方和(sum of
13、 squares due to deviation from regression)或剩余平方和。 n建立回歸方程時(shí)用了a 和b 兩個統(tǒng)計(jì)數(shù),故Q 的自由度 2 nn 得 =SSy-b(SP) =SSy-b2(SSx) =y2-ay-bxy222nyynQsxyxySSSPSSyyQ22)() (95) (96A) (96B) (96C) (96D) n(五)直線回歸的數(shù)學(xué)模型和基本假定n直線回歸模型中,Y 總體的每一個值由以下三部分組成:回歸截距 ,回歸系數(shù) ,Y變數(shù)的隨機(jī)誤差 。n總體直線回歸的數(shù)學(xué)模型: n N (0, )。相應(yīng)的樣本線性組成為:jjjXY(97) j2jjjebxay(
14、98) n回歸分析時(shí)的假定:n(1) Y 變數(shù)是隨機(jī)變數(shù),而X 變數(shù)則是沒有誤差的固定變數(shù),至少和Y 變數(shù)比較起來X 的誤差小到可以忽略。n(2) 在任一X 上都存在著一個Y 總體(可稱為條件總體),它是作正態(tài)分布的,其平均數(shù) 是X 的線性函數(shù): XY / /XXY(99) 的樣本估計(jì)值,與X 的關(guān)系就是線性回歸方程(91)。 n(3) 所有的Y 總體都具有共同的方差 ,而直線回歸總體具有 。試驗(yàn)所得的一組觀察值(xi,yi )只是 中的一個隨機(jī)樣本。n(4)隨機(jī)誤差 相互獨(dú)立,并作正態(tài)分布,具有 。 XY /),(2 XN2),(2 XN)(0,2 Nn二、直線回歸的假設(shè)測驗(yàn)和區(qū)間估計(jì)n(一
15、)直線回歸的假設(shè)測驗(yàn) 1回歸關(guān)系的假設(shè)測驗(yàn) (1)t 測驗(yàn) H0: =0 對 HA : 0 xxyxybSSsxxss/2/2)(910) n遵循 的t分布,故由t 值即可知道樣本回歸系數(shù)b來自 =0總體的概率大小n(2)F 測驗(yàn)當(dāng)僅以表示y資料時(shí)(不考慮x 的影響),y變數(shù)具有平方和SSy 和自由度 當(dāng)以表示y資料時(shí)(考慮x的影響),則SSy將分解成兩個部分,即:bsbt22)()(yyyyyy)() () (yyyyyyyy222(911)2 n2)(yy1 nn將 記作U n回歸和離回歸的方差比遵循 的F分布 0)(yyyy222)()()(yyyyyy2)(yy xySSSPQSSyy
16、U22)()()/(/)(22nQSSSPFx112 n2因?yàn)?得2兩個回歸系數(shù)比較時(shí)的假設(shè)測驗(yàn) H0: 對 HA: (914) (915)021021212121/22xxyxxybbbbSSsSSssss22)()(/2221212nnQQsxyn例9.5 測定兩玉米品種葉片長寬乘積(x)和實(shí)際葉面積(y)的關(guān)系,得表9.4結(jié)果,試測驗(yàn)兩回歸系數(shù)間是否有顯著差異。表9.4 玉米葉片長寬乘積和葉面積關(guān)系的計(jì)算結(jié)果 由表9.4可得:品 種nSSxSSySPbQ七葉白2213518246585139424830.697181420石榴子1810708225168637436520.69447 4
17、2051.112)(182)(2242014202xys/ n 這一結(jié)果是完全不顯著的,所以應(yīng)接受H0: 即認(rèn)為葉片長寬乘積每增大1cm2,葉面積平均要增大的單位數(shù)在七葉白和石榴子兩品種上是一致的,其共同值為:0.0092107082251.11135182451.1121bbs0.30.00920.694470.69718t212121xxSSSSSPSPb0.695981070822135182474365294248322(cm /cm )n(二)直線回歸的區(qū)間估計(jì) 1直線回歸的抽樣誤差n在直線回歸總體 中抽取若干個樣本時(shí),由于 ,各樣本的a、b 值都有誤差。因此,由 =a+bx給出的點(diǎn)
18、估計(jì)的精確性,決定于 和a、b的誤差大小。比較科學(xué)的方法應(yīng)是考慮到誤差的大小和坐標(biāo)點(diǎn)的離散程度,給出一個區(qū)間估計(jì),即給出對其總體的 、 、 等的置信區(qū)間。 )(2,XN2y 2xys/XY / 2回歸截距的置信區(qū)間 n由(92),樣本回歸截距a ,而 和b的誤差方差分別為: 。故根據(jù)誤差合成原理,a的標(biāo)準(zhǔn)誤為:n由 是遵循 的t 分布的???體 回歸截距有95可靠度的置信區(qū)間為: L1=a-t 0.05 ,L2=a+t0.05 /22/2/222xxyxxyxybyaSSxnsSSxsnsxsss21xby yxxybxyySSssnss2/22/2,(917)asa/)(2 nasas(91
19、8) 3回歸系數(shù)的置信區(qū)間 由 (911)可推得總體回歸系數(shù) 的95%可靠度的置信區(qū)間為:L1=b-t 0.05 ,L2=b+t 0.05 4條件總體平均數(shù) 的置信區(qū)間 n由 ,故 的標(biāo)準(zhǔn)誤為:條件總體平均數(shù) 的95%置信區(qū)間為: L1= -t 0.05 ,L2= +t0.05 (921) XY / )(xxbyyy xxyxxyxybyySSxxnsxxSSsnsxxsss2/22/2/222)(1)()(XY /y y ysys(920)bsbs(919) n5條件總體觀察值Y Y 的預(yù)測區(qū)間 將(94)代入(98) yi= +ei, )(xxby2/22/2/2/222xyxxyxyxy
20、byysxxSSsnssxxsss)()(xxySSxxns2/)(11(922)n保證概率為0.95的Y 或y 的預(yù)測區(qū)間為: L1= -t0.05 ,L2= +t0.05 (923) 6置信區(qū)間和預(yù)測區(qū)間的圖示 n首先取若干個等距的x 值(x 取值愈密,作圖愈準(zhǔn)確),算得與其相應(yīng)的 、 、 和 、 的值;然后再由 和 算得各x上的L1和L2,并標(biāo)于圖上;最后將各個L1和L2分別連成曲線即可。 y y ysysy ysysyst 0.05yst 0.05ysty 0.05ysty 0.05 例9.10 試制作例9.1資料的y估計(jì)值包括和y在內(nèi)有95%可靠度的置信區(qū)間圖。表9.6 例9.1資料
21、的置信區(qū)間和y y的預(yù)測區(qū)間的計(jì)算y XY /ysyst 0.05ysyst 0.051L2L (2)(3)(4)(6)(7)(8),(1)x的95置信區(qū)間計(jì)算y的95預(yù)測區(qū)間計(jì)算(5)L1,L23032343637384042444615.613.411.29.07.96.84.62.40.2-2.02.211.751.371.131.091.121.351.722.172.665.24.13.22.72.62.63.24.15.16.310.4,9.3,8.0,6.3,5.3,4.2,1.4,-1.7,-4.9,-8.3,20.817.514.411.710.59.47.86.55.34.
22、33.952.723.533.463.433.463.533.693.924.219.38.88.38.28.18.28.38.79.39.96.3,4.6,2.9,0.8,-0.2,-1.4,-3.7,-6.3,-9.1,-11.9,24.922.219.517.216.015.012.911.19.57.9 一代三化螟盛發(fā)期估計(jì)及其 95%置信限 n畫出 的圖像,依次標(biāo)出n(x,L1)和(x,L2)坐標(biāo)點(diǎn),n再連接各(x,L1)得 線,n連接各(x,L2)得 線。連n接各(x,L2)得 線。 和 n 所夾的區(qū)間即包括 n在內(nèi)有95可靠度的置信區(qū)間。 n稱(x, )的連線 ,(x, )n的連
23、線 。其所夾的區(qū)間即n為y的95的預(yù)測區(qū)間或預(yù)測帶。 3月下至4月中旬平均溫度累積值 例9.1資料的y y 估計(jì)值及其95%置信帶y CDABABCDXY /1LGH2LEFAB-15-10-5051015202528303234363840424446n三、直線回歸的矩陣求解n回歸分析的計(jì)算程序可概括為:n算得6個一級數(shù)據(jù),即n、 、 、 和 n由一級數(shù)據(jù)算得5個二級數(shù)據(jù),即SSx、SSy、SP、 和 ;n由二級數(shù)據(jù)計(jì)算 U 和 Q 并進(jìn)行 F 測驗(yàn),顯著后進(jìn)一步算出 b 和 a,獲得直線回歸方程。n(一) 直線回歸方程的矩陣解法n一個直線回歸的樣本線性方程(98)可改寫為: x2x y2y
24、 xyxynn 對觀察值可按(924)寫成n 個等式: n若定義:jjjexbby10nnnexbbyexbbyexbby102210211101 (925)(924)nX X為系數(shù)矩陣或結(jié)構(gòu)矩陣。則(925)可寫成矩陣形式: nyyy21 Ynxxx21 11 1Xneee21 e10 bbbnnneeebbxxxyyy21102121 11 1n即 :Y=Xb+e (926) n要使(926)中的b b成為回歸統(tǒng)計(jì)數(shù),必須滿足 為最小。n故由n解得: )-()(XbYXbYeeQ022)2()-()( XbXYXbXbXbYXbYYbXbYXbYbQ 0XbXYX n即 n因此 b= (9
25、27)n其中: 為( )的逆矩陣。 的元素用cij表示,在統(tǒng)計(jì)上又稱cij為高斯乘數(shù)(Gauss multiplier)。n(二) 直線回歸假設(shè)測驗(yàn)的矩陣解法n用矩陣方法可以求得b向量的方差為: YXXbX )()(1YXXX 1)(XX XX 1)(XX n因而b的顯著性測驗(yàn)可表示為: n這一t 值的自由度為 。bi=b0時(shí)即為回歸截距的測驗(yàn);bi=b1時(shí)即為回歸系數(shù)的測驗(yàn)。222 101100 xybbbbbbs/1)()(XXbV) 1)(1(/iixyicsbt2 n(930)(929)n 在計(jì)算(930)中離回歸的標(biāo)準(zhǔn)誤 時(shí)要用到Q,其矩陣計(jì)算式為: (931)n總平方和SSy 及回
26、歸平方和U 的矩陣計(jì)算式為: xys/YX bYYee ) (2yyQ /)(22QSSnUnnyySSyy/)(/)(22Y1YX bY1YY(932)n(932)中的1為由n個1組成的列向量:111 1n 1第三節(jié) 直線相關(guān)n一、相關(guān)系數(shù)和決定系數(shù)n二、相關(guān)系數(shù)的假設(shè)測驗(yàn)一、相關(guān)系數(shù)和決定系數(shù)n(一)相關(guān)系數(shù)n(X,Y )總體沒有相關(guān),則落在象限、的點(diǎn)是均勻分散的,因而正負(fù)相消, = 0。 NYXYX1)(n當(dāng)(X,Y )總體呈正相關(guān)時(shí),落在象限、的點(diǎn)一定比落在象限、的多,故 一定為正;同時(shí)落在象限、的點(diǎn)所占的比率愈大,此正值也愈大。 NYXYX1)()(n當(dāng)(X,Y )總體呈負(fù)相關(guān)時(shí),則
27、落在象限、的點(diǎn)一定比落在象限、的為多,故 一定為負(fù);且落在象限、的點(diǎn)所占的比率愈大,此負(fù)值的絕對值也愈大。 NYXYX1)(n 的值可用來度量兩個變數(shù)直線相關(guān)的相關(guān)程度和性質(zhì)。但是,X 和Y 的變異程度、所取單位及N的大小都會影響其大小。n這些因素的影響是可以消去的。方法就是將離均差轉(zhuǎn)換成以各自的標(biāo)準(zhǔn)差為單位,使成為標(biāo)準(zhǔn)化離差,再以N 除之。n可定義雙變數(shù)總體的相關(guān)系數(shù)為: NYXYX1)(n (933)n(933)的已與兩個變數(shù)的變異程度、單位和N大小都沒有關(guān)系,是一個不帶單位的純數(shù),因而可用來比較不同雙變數(shù)總體的相關(guān)程度和性質(zhì)。 n相關(guān)系數(shù)是兩個變數(shù)標(biāo)準(zhǔn)化離差的乘積之和的平均數(shù)。 NYYX
28、XYXN1122)()()(YXYXYXYXn樣本的相關(guān)系數(shù) r (934)n因?yàn)椋?在回歸分析時(shí)分成了兩個部分:一部分是離回歸平方和Q ,另一部分是回歸平方和U =(SP)2/SSx。n因此,又可有定義: yxSSSSSPyyxxyyxxr22)()()(2)(yySSy2) (yy2)(yyyxyxySSSSSPSSSSSPyyyySSUr/)()()(222nr 的取值區(qū)間是-1,1。雙變數(shù)的相關(guān)程度決定于 |r|,|r|越接近于1,相關(guān)越密切;越接近于0,越可能無相關(guān)。 nr 的顯著與否還和自由度有關(guān), 越大,受抽樣誤差的影響越小,r 達(dá)到顯著水平的值就較小。正的r 值表示正相關(guān),負(fù)的
29、r 值表示負(fù)相關(guān)。而相關(guān)系數(shù)r的正或負(fù)和回歸系數(shù)b是保持一致。(二) 決定系數(shù) n決定系數(shù)(determination coefficient)定義為由x不同而引起的y 的平方和 占y總平方和SSy= 的比率;也可定義為由y不同而引起的x 的平方和 占x總平方和SSx= 的比率,其值為: (935) 2)(yyU2)(yy2)(xxU2)(xxxyyxSSSSSPSSSSSPr/)(/)(222yxSSSSSP2)(n所以決定系數(shù)即相關(guān)系數(shù)r 的平方值。n決定系數(shù)和相關(guān)系數(shù)的區(qū)別在于: 除掉|r |=1和0的情況外,r2總是小于|r |。這就可以防止對相關(guān)系數(shù)所表示的相關(guān)程度作夸張的解釋。例如
30、,r =0.5,只是說明由x 的不同而引起的y 變異(或由y 的不同而引起的x 變異)平方和僅占y 總變異(或 x 總變異)n平方和的r2 =0.25,即25%,而不是50%。n r 是可正可負(fù)的,而r2則一律取正值,其取值區(qū)間為0,1。因此,在相關(guān)分析由r 的正或負(fù)表示相關(guān)的性質(zhì),由r2 的大小表示相關(guān)的程度。n (三) 相關(guān)系數(shù)和決定系數(shù)的計(jì)算二、相關(guān)系數(shù)的假設(shè)測驗(yàn)n(一) 的假設(shè)測驗(yàn)n測驗(yàn)一個樣本相關(guān)系數(shù) r 所來自的總體相關(guān)系數(shù)是否為0,所作的假設(shè)為H0: 對HA: 0。n在的總體中抽樣,r的分布隨樣本容量n的不同而不同。nr的抽樣誤差:0 021nrsr2(936)n當(dāng) 時(shí):n 或
31、(937)n此 t 值遵循 的t分布,由之可測驗(yàn) H0: 。n對于同一資料,線性回歸的顯著性等價(jià)于線性相關(guān)的顯著性。n將(937)移項(xiàng),即可得到自由度和顯著水平一定時(shí)的臨界 r 值:0 rsrt 21rnr22 n0n (二) 的假設(shè)測驗(yàn)n測驗(yàn)一個實(shí)得的相關(guān)系數(shù)r與某一指定的或理論的相關(guān)系數(shù)C是否有顯著差異,其統(tǒng)計(jì)假設(shè)為H0: 對HA: C。r22ttC C=(938)n在 0時(shí),r 的抽樣分布具有很大的偏態(tài)(圖9.6)且隨n 和 的取值而異,類似(937)的轉(zhuǎn)換已不再能由t分布逼近。 n可將r轉(zhuǎn)換為z值: |1|1ln 11ln0)(21或0)( 21rrrzrrrz(939) 圖9.6 不
32、同時(shí)的r r 的抽樣分布(n n=8) back00.8-1.0-0.8-0.6-0.4-0.20.00.20.40.60.81.00.00.10.20.30.40.50.60.70.80.9nz近似于正態(tài)分布,具有平均數(shù)和標(biāo)準(zhǔn)差:n n和 |ln ln0)(1121或0)(1121zz31nz(940)(941)n由 (942)n可測驗(yàn)H0: 。n(三) 的假設(shè)測驗(yàn)n測驗(yàn)兩個樣本相關(guān)系數(shù)r1和r2所分別來自的總體相關(guān)系數(shù)和是否相等,因此有H0: 對HA: 。由于 r 轉(zhuǎn)換成 z 后才近似正態(tài)分布,故這一測驗(yàn)也必須經(jīng)由(939)和(940)的 z 轉(zhuǎn)換進(jìn)行。 zzzuC21 2112n兩個 z
33、 值的差數(shù)標(biāo)準(zhǔn)誤為: (943)n由 (944)n可測驗(yàn)H0: ,亦即測驗(yàn)H0: 。n在H0: = 被接受時(shí),應(yīng)將r1和r2合并為一個r來31312121nnzz2121)()(21zzzzzzu21zz2112n表示整個資料的相關(guān)情況。合并的方法是將兩樣 本的平方和和乘積和分別相加后再代入(934)。n 即)(212121yyxxSSSSSSSSSPSPr第四節(jié) 直線回歸與相關(guān)的內(nèi)在關(guān)系和應(yīng)用要點(diǎn)n一、直線回歸與相關(guān)的內(nèi)在關(guān)系n二、直線回歸和相關(guān)的應(yīng)用要點(diǎn)n一、直線回歸與相關(guān)的內(nèi)在關(guān)系n回歸與相關(guān)間的內(nèi)在聯(lián)系:n(1)相關(guān)系數(shù)是標(biāo)準(zhǔn)化的回歸系數(shù)n回歸系數(shù)b是有單位的,但若對b作消去單位的標(biāo)準(zhǔn)
34、化處理,即對b中x和y的離均差以各自的標(biāo)準(zhǔn)差sx和sy為單位,則有:222222)()()()()()(xxxxyyyyxxxxsssyyxxsxxsyysxxxyxxyx 所以,有時(shí)把相關(guān)系數(shù)稱為標(biāo)準(zhǔn)回歸系數(shù)。n(2) 相關(guān)系數(shù)r是y依x的回歸系數(shù)by/x和x依y的回歸系數(shù)bx/y的幾何平均數(shù)。n若對同一資料計(jì)算x 依y 的回歸,則有bx/y=SP/SSy,因此rSSSSSPyyxxyyxxyx22)()()(rrSSSSSPSSSPSSSPbbyxyxyxxy22/(3)線性回歸方程也可用相關(guān)系數(shù)表示因?yàn)閤yxyyxxxyssrSSSSSSSSSPSSSPb/所以由(94)表示的回歸方程可
35、改寫成:)(xxssryyxy (4) 線性回歸和離回歸的平方和也可用相關(guān)系數(shù)表示。yyyxxSSrSSSSSSSPSSSPU222yySSrUSSQ)(12n二、直線回歸和相關(guān)的應(yīng)用要點(diǎn)n(1) 回歸和相關(guān)分析要有學(xué)科專業(yè)知識作指導(dǎo)。n(2) 要嚴(yán)格控制研究對象(X 和Y )以外的有關(guān)因素,即要在 X 和Y 的變化過程中盡量使其它因素保持穩(wěn)定一致。n(3) 直線回歸和相關(guān)分析結(jié)果不顯著,并不意味著X和Y 沒有關(guān)系,而只說明X 和Y 沒有顯著的線性關(guān)系,它并不能排除兩變數(shù)間存在曲線關(guān)系的可能性。n(4) 一個顯著的r 或b 并不代表X 和Y 的關(guān)系就一定n是線性的,因?yàn)樗⒉慌懦饽軌蚋玫孛枋?/p>
36、X 和Y 的各種曲線的存在。n(5)在X 和Y 的一定區(qū)間內(nèi),用線性關(guān)系作近似描述是允許的,它的精確度至少要比僅用描述y變數(shù)有顯著提高。n(6) 一個顯著的相關(guān)或回歸并不一定具有實(shí)踐上的預(yù)測意義。 n(7) 為了提高回歸和相關(guān)分析的準(zhǔn)確性,兩個變數(shù)的樣本容量n(觀察值對數(shù))要盡可能大一些,至少應(yīng)有5對以上。 第五節(jié) 協(xié)方差分析n一、協(xié)方差分析的意義和功用n二、單向分組資料的協(xié)方差分析n三、兩向分組資料的協(xié)方差分析n一、協(xié)方差分析的意義和功用n(一) 協(xié)方差分析的意義n協(xié)方差(covariance)是兩個變數(shù)的互變異數(shù)。對于一個具有N 對(X,Y )的有限總體,其定義為: NYiXiYXNcov
37、1)(1(945)n對于由n 對(x,y )組成的樣本,則可定義: n樣本協(xié)方差是乘積和與自由度的商,即平均的乘積和。一般又稱為均積(mean products)或協(xié)方,記作MP,它是總體協(xié)方差 cov 的估值。n協(xié)方差分析(analysis of covariance)是將回歸分析和方差分析綜合起來的一種統(tǒng)計(jì)方法。 niiyyxxncov1)(11(946)n(二) 協(xié)方差分析的功用n1. 當(dāng)(x,y)為因果關(guān)系時(shí),可利用 y 依 x 的回歸系數(shù)矯正y變數(shù)的處理平均數(shù),提高精確度。n2. 當(dāng)(x,y)為相關(guān)關(guān)系時(shí),可通過估計(jì)不同變異來源的總體方差和協(xié)方差,作出相應(yīng)的相關(guān)分析。n二、單向分組資
38、料的協(xié)方差分析n(一) 資料模式與線性組成設(shè)有k 組回歸樣本,每組各有n 對觀察值,則該資料共有kn 對數(shù)據(jù),其模式如表9.8。 1xT1x 1yT1y 2xT2x 2yT2y1kx2kx3kxnkx kxTkx1ky2ky3kynky kyTkyxTyTxy組 別觀察值總和平均1x11x12x13x1ny11y12y13y1n2x21x22x23x2ny21y22y23y2nkn單向分組資料協(xié)方差分析的樣本線性組成為: (947A)n將(947A)移項(xiàng)得: (947B) n和 (947C)ijijeiijexxbtyy)(ijijeiijexxbyty)(ijijeexbaijiijeije
39、tyxxby)(n(二) 乘積和和自由度的分解 n上式中和的 i=1,2,3,k。n其中: 1)-(1)-(1)-( 相應(yīng)自由度為:111 1nkknkSPSPSPyyxxyyxxnyyxxetTknkk niiii )()()( )()()()(tTyxkkneyxkyxtyxknTSPSPTTnxySPTTnkTTnSPTTnkxySPiiii11111111(949)(948)n如果各組的n不等,分別為n1、n2、nk,其和為,則 n其相應(yīng)自由度為 、 、 。 22112211)()(1)()(1211211kyxyxyxneyxikyxyxyxtyxinTnTTnTTnTTxySPTT
40、nnTTnTTnTTSPTTnxySPkkikki1in1kkni(950)n(三) 回歸關(guān)系的協(xié)方差分析n協(xié)方差分析解決問題的步驟如下:n(1)列出處理間、處理內(nèi)和總變異的DF、SSx、SSy和SP。n(2)測驗(yàn)x 和y 是否存在直線回歸關(guān)系。n(3)測驗(yàn)矯正平均數(shù)間的差異顯著性。n(4) 如果所得F 為不顯著,表明間無顯著差異;如果F 為顯著,則必須算出各個,進(jìn)行多重比較,作出相應(yīng)推斷。 n(四) 相關(guān)關(guān)系資料的協(xié)方差分析n相關(guān)關(guān)系資料的協(xié)方差分析主要討論兩個互有聯(lián)系的總體的相關(guān)問題。n例9.16 為研究小麥品種經(jīng)濟(jì)性狀的數(shù)量遺傳,隨機(jī)抽取90個品種,在田間每品種皆種成4個小區(qū)(每小區(qū)1行
41、),共904=360個小區(qū),完全隨機(jī)排列。得到小穗數(shù)(x )和百粒重(y )的方差和協(xié)方差分析結(jié)果于表9.13。 表9.13 90個小麥品種的小穗數(shù)(x x)和百粒重(y y)的方差分析與協(xié)方差分析 224)()(xxe224)()(yyeecovcov2)(xe2)(yeecov+4變異來源DFx的方差分析y的方差分析(x,y)的協(xié)方差分析SSMSEMSSSMSEMSSPMPEMP品種間 89597.996.719087.82510.9868-127.426-1.4322品種內(nèi)270108.810.4030 8.31610.03089.9610.0369總變異359706.8096.1412
42、-117.501n表9.13中,x和y兩者的方差分析按第六章第三節(jié)的方法作出;(x,y )的SP 則由(949)求出。將各SP除以相應(yīng)的DF,即得平均的乘積和,即MP。期望協(xié)方EMP的分量和隨機(jī)模型的EMS 相同,僅是以協(xié)方差符號cov代替 。這是處理(品種)效應(yīng) 為隨機(jī)型的資料,目的不是研究特定的品種,而是研究抽出這些品種的小麥總體,因而需估計(jì)有關(guān)總體參數(shù)。n由表9.13中的MS 和EMS 的關(guān)系可得:2i0.4030)(2xe 由表9.13中MP 和EMP 的關(guān)系得:1.57900.4030)/4-(6.7190)(2x0.0308)(2ye0.23900.0308)/4-(0.9868)
43、(2y0.0369cov e-0.36730.0369)/4-(-1.4322cov因此,小穗數(shù)和百粒重的環(huán)境相關(guān)系數(shù)re為:22)()(covyexeeer0.33120.03080.40300.0369 品種(基因型)相關(guān)系數(shù)rg為:22)()(covyxgr-0.59790.23901.57900.3673 以上re所對應(yīng)的自由度是k(n-1)-1=269,為極顯 著;rg的假設(shè)測驗(yàn)比較復(fù)雜,其簡單近似是具自由 度k-2=88,亦為極顯著。 根據(jù)以上方差和協(xié)方差分量,還能估計(jì)出小穗數(shù)和 百粒重的表型相關(guān)rp可估計(jì)為: )(2)()(2)(22yyexxeepcovcovr0.45180.
44、2390)03081.5790)(0.(0.40300.36730.0369n三、兩向分組資料的協(xié)方差分析 n(一) 資料模式與線性組成 若資料有m類k組,則mk對觀察值按兩向分類,其模式如表9.14。表9.14 兩向分組的兩個變數(shù)的符號n樣本線性組成為: (954A)n移項(xiàng)后可得: (954B) n和 (954C) ijijejiijexxbrtyy)(ijijejiijexxbyrty)(ijijeexbaijjiijeijertyxxby)(n(二) 乘積和和自由度的分解n 表9.14的總SP 可分解為類間、組間和誤差三部分,其值為: (955)tRTekkyxyxjjtmmyxyxii
45、RmkkmyxTSPSPSPSPmkTTTTmyyxxmSPmkTTTTkyyxxkSPmkTTxyyyxxSPjjii111111)(1)()(1)()(n(三)協(xié)方差分析n兩向分組資料的協(xié)方差分析和單向分組資料并無原則上的不同,只是多了一個方向的變異來源。n例9.17 表9.15是研究施肥期和施肥量對雜交水稻南優(yōu)3號結(jié)實(shí)率影響的部分結(jié)果,共14個處理,2個區(qū)組,隨機(jī)區(qū)組設(shè)計(jì)。由于在試驗(yàn)過程中發(fā)現(xiàn)單位面積上的穎花數(shù)對結(jié)實(shí)率似有明顯的回歸關(guān)系,因此將穎花數(shù)(x,萬/m2)和結(jié)實(shí)率(y,%)一起測定。該試驗(yàn)的處理效應(yīng)為固定型,故按因果關(guān)系資料回歸模型作協(xié)方差分析。 表9.15 南優(yōu)3號的穎花數(shù)(
46、x x)和結(jié)實(shí)率(y y)資料 ixiy)(xxiy處理區(qū) 組TiIIIxyxyxy12345678910111213144.594.093.943.903.453.483.393.143.344.124.123.843.963.0358656466717171726961636764754.324.114.113.573.793.383.033.243.044.764.753.604.503.01 61 62 64 69 67 72 74 69 69 54 56 62 60 718.918.208.057.477.246.866.426.386.388.888.877.448.466.041
47、191271281351381431451411381151191291241464.4554.1004.0253.7353.6203.4303.2103.1903.1904.4404.4353.7204.2303.02059.563.564.067.569.071.572.570.569.057.559.564.562.073.064.7666.0365.9567.2267.8468.8768.1866.0264.5362.6464.6064.1065.5367.22Tr52.3993753.21910105.60 1847n 首先用兩向分組資料的通常方法算得表9.15資料的各項(xiàng)平方和于表9.16,乘積和則由以下各式算出:SPT=(4.5958)+(4.0965)+(3.0171)1847)(105.6281 = - 73.60SPR=-0.791847)(105.628114910)(53.21937)(52.39SPt=2146)(6.04127)(8.20119)(8.91-66.371(105.6 1847)28 SPe= - 73.60 - (- 0.79) - (- 66.37)= - 6.44 表9.16 表9.15資料的平方和和乘積和 變
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年度黑龍江省農(nóng)業(yè)科學(xué)院公開招聘博士34人筆試備考試題及答案解析
- 2025河北邢臺市中心血站第二批招聘編外人員1人筆試備考試題及答案解析
- 2026年福建莆田市市直學(xué)校選拔引進(jìn)競賽教練10人筆試模擬試題及答案解析
- 2026江西贛州市會昌昌興酒店管理有限責(zé)任公司招聘勞務(wù)派遣工作人員1人筆試備考試題及答案解析
- 2026四川成都市武侯區(qū)漿洗街錦里社區(qū)衛(wèi)生服務(wù)中心招聘筆試備考題庫及答案解析
- 2026湖南中南大學(xué)湘雅三醫(yī)院編外科研助理招聘2人考試備考題庫及答案解析
- 2026陜西西北工業(yè)大學(xué)自動化學(xué)院唐煒團(tuán)隊(duì)招聘1人筆試備考題庫及答案解析
- 2026山東臨沂沂河新區(qū)部分事業(yè)單位招聘綜合類崗位工作人員筆試模擬試題及答案解析
- 個人創(chuàng)業(yè)發(fā)展承諾書7篇
- 國新資本有限公司相關(guān)崗位招聘16人考試備考題庫及答案解析
- 魯科版高中化學(xué)必修一教案全冊
- 管理養(yǎng)老機(jī)構(gòu) 養(yǎng)老機(jī)構(gòu)的服務(wù)提供與管理
- 提高隧道初支平整度合格率
- 2022年環(huán)保標(biāo)記試題庫(含答案)
- 2023年版測量結(jié)果的計(jì)量溯源性要求
- 建筑能耗與碳排放研究報(bào)告
- GB 29415-2013耐火電纜槽盒
- 中國古代經(jīng)濟(jì)試題
- 真空采血管的分類及應(yīng)用及采血順序課件
- 軟件定義汽車:產(chǎn)業(yè)生態(tài)創(chuàng)新白皮書
- 安裝工程實(shí)體質(zhì)量情況評價(jià)表
評論
0/150
提交評論