第九章 直線回歸與相關(guān)_第1頁
第九章 直線回歸與相關(guān)_第2頁
第九章 直線回歸與相關(guān)_第3頁
第九章 直線回歸與相關(guān)_第4頁
第九章 直線回歸與相關(guān)_第5頁
已閱讀5頁,還剩91頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、 第九章 直線回歸與相關(guān)分析n簡單相關(guān)分析n回歸與相關(guān)的概念n簡單回歸分析9.1 回歸與相關(guān)的概念回歸與相關(guān)的概念 可用精確的數(shù)學(xué)表達(dá)式表示??捎镁_的數(shù)學(xué)表達(dá)式表示。 例如例如 , 圓面積與半徑的關(guān)系圓面積與半徑的關(guān)系 S=r2 。 一個(gè)變數(shù)的任一變量都必有另一個(gè)變數(shù)的一一個(gè)變數(shù)的任一變量都必有另一個(gè)變數(shù)的一個(gè)確定數(shù)值與之對應(yīng),這種關(guān)系即為個(gè)確定數(shù)值與之對應(yīng),這種關(guān)系即為確定性關(guān)系確定性關(guān)系,也稱做函數(shù)關(guān)系。也稱做函數(shù)關(guān)系。 確定性關(guān)系常見于力學(xué)、電學(xué)、確定性關(guān)系常見于力學(xué)、電學(xué)、光學(xué)、運(yùn)動(dòng)學(xué)等學(xué)科,在農(nóng)學(xué)和生物學(xué)中較少見。光學(xué)、運(yùn)動(dòng)學(xué)等學(xué)科,在農(nóng)學(xué)和生物學(xué)中較少見。1、確定性關(guān)系一、變數(shù)之

2、間的關(guān)系 不確定性關(guān)系不能用精確的數(shù)學(xué)表達(dá)式來表示。 2、不確定性關(guān)系例如, :受施肥量、品種、土壤、光照、溫 度、雨量 等條件的影響。 在一定的范圍內(nèi),一個(gè)變數(shù)的數(shù)量變化只是部分地引起另一個(gè)變數(shù)的數(shù)量變化 ,沒有一個(gè)確定的數(shù)值與之對應(yīng),這種關(guān)系稱為不確定性關(guān)系不確定性關(guān)系。 常見于農(nóng)業(yè)科學(xué)和生物學(xué)中。 從統(tǒng)計(jì)學(xué)角度講,確定性關(guān)系與不確定性關(guān)系的區(qū)別僅在于前者不存在隨機(jī)誤差,而后者不可避免地具有試驗(yàn)誤差。 統(tǒng)計(jì)學(xué)上把變數(shù)之間既存在著密切關(guān)系,又不能由一個(gè)變數(shù)(幾個(gè)變數(shù))的數(shù)值準(zhǔn)確地求出另一個(gè)變數(shù)的數(shù)值的關(guān)系稱為相關(guān)關(guān)系相關(guān)關(guān)系。并把存在相關(guān)關(guān)系的變數(shù)稱為相關(guān)變數(shù)。相關(guān)變數(shù)。 回歸與相關(guān)就是用來

3、研究變數(shù)間的不確定關(guān)系的回歸與相關(guān)就是用來研究變數(shù)間的不確定關(guān)系的統(tǒng)計(jì)方法統(tǒng)計(jì)方法。 實(shí)際當(dāng)中變數(shù)之間的關(guān)系有兩種情況實(shí)際當(dāng)中變數(shù)之間的關(guān)系有兩種情況: : 一類如水稻的穗長與每穗粒數(shù),我們不能說穗長決定每穗粒數(shù),也不能說每穗粒數(shù)決定穗長,但是,穗長的數(shù)量變化的確又是和每穗粒數(shù)的數(shù)量變化有一定關(guān)系。一般的經(jīng)驗(yàn)告訴我們:穗短的,往往每穗粒數(shù)較少;長的則較多。穗長和穗粒數(shù)是平行變化關(guān)系,二者都有隨機(jī)誤差。對于這類資料,則適用于做相關(guān)分析。 另一類如播種期與產(chǎn)量的關(guān)系,播種期是事先設(shè)計(jì)的、固定的,而產(chǎn)量是有隨機(jī)誤差的。對于這類資料,其中一個(gè)變數(shù)的取值可控或獨(dú)立變化,同時(shí)從專業(yè)知識(shí)可以看出一個(gè)變數(shù)可能

4、是隨另一個(gè)變數(shù)的改變而改變,即另一個(gè)變數(shù)是它的反應(yīng),則應(yīng)做回歸分析。 在回歸模型中,X是固定的(試驗(yàn)時(shí)預(yù)先確定的),沒有誤差或誤差很小,而Y則不僅隨X的變化而變化,且具有隨機(jī)誤差。這一模型中的X叫做自變數(shù)自變數(shù),Y叫做依變數(shù)依變數(shù)。 回歸回歸 據(jù)此,統(tǒng)計(jì)上,將兩個(gè)變數(shù)X和Y的相關(guān)關(guān)系劃分為兩種理論模型:回歸模型 是指由一個(gè)(或多個(gè))變數(shù)的變化來估測另一個(gè)變數(shù)的變化。有自變數(shù)和依變數(shù)之分; 特征:特征:自變數(shù)x無誤差或誤差很小,依變數(shù)y存在誤差。具有預(yù)測的作用,即可以由X的數(shù)量變化來預(yù)測Y的數(shù)量變化;回歸分析回歸分析 (regression analysis) 對回歸模型資料,通常在確定自變數(shù)和

5、依變數(shù)的基礎(chǔ)上,建立由X來預(yù)測Y的回歸方程式,并確定當(dāng)自變數(shù)X取某一定值時(shí) 依變數(shù)Y將會(huì)在什么范圍內(nèi)變化。這種分析,在統(tǒng)計(jì)上就稱為回歸分析回歸分析。 是指兩個(gè)變數(shù)間有一定的關(guān)聯(lián),一個(gè)變數(shù)的變化必然會(huì)引起另一個(gè)變數(shù)的變化。 相關(guān)模型 相關(guān)相關(guān)(correlation) 在相關(guān)模型中,兩個(gè)變數(shù)X和Y是呈平行關(guān)系變化的,都有隨機(jī)誤差,因而不能區(qū)分哪一個(gè)是自變數(shù),哪一個(gè)是依變數(shù)。表示兩個(gè)變數(shù)的偕同變異;特征特征: 對相關(guān)模型資料,通常只研究兩個(gè)變數(shù)之間有無關(guān)系,以及關(guān)系的密切程度和性質(zhì),而不需要由一變數(shù)去估測另一變數(shù)。這種分析在統(tǒng)計(jì)上就稱為相關(guān)分析相關(guān)分析。相關(guān)分析相關(guān)分析(correlation a

6、nalysis):存在隨機(jī)誤差。不具有預(yù)測的作用;沒有自變數(shù)與依變數(shù)之分;1、根據(jù)所研究變數(shù)的多少根據(jù)所研究變數(shù)的多少多元回歸與多元相關(guān)(復(fù)回歸與復(fù)相關(guān));多元回歸與多元相關(guān)(復(fù)回歸與復(fù)相關(guān)); 曲線回歸與曲線相關(guān)曲線回歸與曲線相關(guān);2、根據(jù)所研究變數(shù)之間的關(guān)系特征根據(jù)所研究變數(shù)之間的關(guān)系特征簡單回歸與簡單相關(guān)簡單回歸與簡單相關(guān)(一元回歸與一元相關(guān)一元回歸與一元相關(guān));直線回歸與直線相關(guān)直線回歸與直線相關(guān);二、回歸與相關(guān)的種類二、回歸與相關(guān)的種類 9.2 簡單回歸分析簡單回歸分析 用來概括依變數(shù)與自變數(shù)間線性關(guān)系的方程,稱為 :表示該直線的斜率,是x每增加一個(gè)單 位數(shù)時(shí), 平均地將要增加或減少

7、的單 位數(shù),稱做回歸系數(shù)回歸系數(shù)。 y 一、線性回歸方程線性回歸方程線性回歸方程。記作其中,y :是x=0時(shí) 的值,即回歸直線 在 y 軸上的截距, 稱做 回歸截距回歸截距; :表示和 x 值相對應(yīng)的 y的估計(jì)值;y : 是自變數(shù);xa b bxay 對于(對于(x 1, y1) 、(x2 , y2)、(x3 , y3) 、(xn , yn)這樣一組數(shù)據(jù)資料,要了解這樣一組數(shù)據(jù)資料,要了解x和和y到底呈何種關(guān)系?通??刹捎靡韵路椒ǎ旱降壮屎畏N關(guān)系?通??刹捎靡韵路椒ǎ?1、作散點(diǎn)圖作散點(diǎn)圖 將每一對觀察值都表示為直角坐標(biāo)將每一對觀察值都表示為直角坐標(biāo)平面上的一個(gè)點(diǎn),作成散點(diǎn)圖,進(jìn)行平面上的一個(gè)

8、點(diǎn),作成散點(diǎn)圖,進(jìn)行初步的考察。初步的考察。根據(jù)散點(diǎn)圖可以看出根據(jù)散點(diǎn)圖可以看出:n兩個(gè)變數(shù)相關(guān)的性質(zhì)和密切程度或由兩個(gè)變數(shù)相關(guān)的性質(zhì)和密切程度或由x估計(jì)估計(jì)y的精確度;的精確度;n兩個(gè)變數(shù)的關(guān)系是直線型的還是非直線型的;兩個(gè)變數(shù)的關(guān)系是直線型的還是非直線型的;n是否有一些特殊的不規(guī)則的點(diǎn)表示著其他因是否有一些特殊的不規(guī)則的點(diǎn)表示著其他因素的干擾等。素的干擾等。 圖9.1(直線,正相關(guān))圖9.2(直線,負(fù)相關(guān))圖9.3(曲線)xyxxyy 設(shè)x與y之間存在線性關(guān)系,如果要概括其在數(shù)量上的互變規(guī)律,也就是要從x的數(shù)量變化來預(yù)測y的數(shù)量變化,必須采用直線回歸方程來描述。 我們知道,(x , y)的

9、n對觀察從理論上可以作無數(shù)條直線,但是哪一條最能代表x與y在數(shù)量上的互變關(guān)系?根據(jù)最小平方法,必須使nnbxayyyQ1212)() (最小2、建立直線回歸方程因此,a和b值可按微積分學(xué)求偏導(dǎo)數(shù)的辦法求出,即nnxbxaybQbxayaQ110)(202xyxbxayxban2xssspxxyyxxbxbya2Sp:是自變數(shù):是自變數(shù)x的離均差和依變數(shù)的離均差和依變數(shù) y的離均差的乘積,稱為乘積和。的離均差的乘積,稱為乘積和。SSx:平方和。:平方和。 這種求解這種求解a、b的方法稱做的方法稱做最小二乘法,最小二乘法,或最小平方法或最小平方法。xxbybxxbyyxbayxbyaxbay得代入

10、公式由此由此a、b構(gòu)成的直線回歸方程具有以構(gòu)成的直線回歸方程具有以下三個(gè)性質(zhì):下三個(gè)性質(zhì):)0)(2yxyyyy,回歸直線通過(最小由回歸方程 可以看出:bxay b0時(shí),表示時(shí),表示y隨隨x的增大而增大,成正相關(guān);的增大而增大,成正相關(guān); b0時(shí),表示時(shí),表示y隨隨x的增大而減小,成負(fù)相關(guān);的增大而減小,成負(fù)相關(guān); b=0或和或和0的差異不顯著時(shí),則表明的差異不顯著時(shí),則表明y的變異和的變異和 x的取值大小無關(guān),直線回歸關(guān)系不能成立。的取值大小無關(guān),直線回歸關(guān)系不能成立。二、線性回歸方程的計(jì)算實(shí)例【例【例9.1】一些夏季害蟲盛發(fā)期的早遲和春】一些夏季害蟲盛發(fā)期的早遲和春季溫度高低有關(guān)。江蘇某

11、縣測定季溫度高低有關(guān)。江蘇某縣測定1956-1964年間年間3月下旬至月下旬至4月中旬旬平均溫度累積值月中旬旬平均溫度累積值x(單位:旬單位:旬度)和一代三化螟蛾盛發(fā)期度)和一代三化螟蛾盛發(fā)期y(以以5月月10日為日為0)的關(guān)系于下表,試計(jì)算)的關(guān)系于下表,試計(jì)算其直線回歸方程。其直線回歸方程。 累積溫和一代三化螟蛾盛發(fā)期的關(guān)系累積溫和一代三化螟蛾盛發(fā)期的關(guān)系X(累積溫(累積溫) 35.5 34.1 31.7 40.3 36.8 40.2 31.7 39.2 44.2Y(盛發(fā)期(盛發(fā)期) 12 16 9 2 7 3 13 9 -1解解: 首先根據(jù)表中的數(shù)據(jù)算得回歸分析所必須的6個(gè)一級數(shù)據(jù): x

12、=35.5+34.1+44.2=333.7 x2=35.52+34.12+44.22=12517.49 y=12+16+(-1)=70 y2=122+162+(-1)2=794 xy=(35.512)+(34.116)+ 44.2(-1) =2436.4 n=9 資料中 觀察值的對數(shù)7778. 79700778.3797 .3330444.159)707 .333(914 .2436)(15556.249)70(91794)(1222nyynxxyxnxySPynySSy6356.144)7 .333(9149.12517)(1222xnxSSx由一級數(shù)據(jù)算得由一級數(shù)據(jù)算得5個(gè)二級數(shù)據(jù):個(gè)二級

13、數(shù)據(jù):故得該資料的直線回歸方程:故得該資料的直線回歸方程:xyxy1 . 15 .480996. 15485.48可簡化為可簡化為: 由二級數(shù)據(jù)算得由二級數(shù)據(jù)算得2個(gè)三級數(shù)據(jù):個(gè)三級數(shù)據(jù):)(5485.48)0778.370996. 1(7778. 7)/(0996. 16356.1440444.159天度旬天xbyaSSSPbx 回歸系數(shù)和回歸截距的統(tǒng)計(jì)意義回歸系數(shù)和回歸截距的統(tǒng)計(jì)意義: 當(dāng)當(dāng)3月月下旬至下旬至4月中旬的積溫(月中旬的積溫(x)每提高)每提高1旬旬度時(shí),度時(shí),一代三化螟蛾的盛發(fā)期平均將一代三化螟蛾的盛發(fā)期平均將提早提早1.1天;若積天;若積溫溫x=0,則一代三化螟蛾的盛發(fā)期在

14、,則一代三化螟蛾的盛發(fā)期在6月月27-28日日(x=0時(shí),時(shí), ,又因,又因y是以是以5月月10日為日為0,故,故48.5為為6月月27-28日)。日)。5 .48 y三、線性回歸方程的圖示 直線回歸圖包括回歸直線的直線回歸圖包括回歸直線的圖象和散布圖,由它們可以比較圖象和散布圖,由它們可以比較醒目地表示出醒目地表示出x和和y的數(shù)量關(guān)系,的數(shù)量關(guān)系,并進(jìn)行預(yù)測。并進(jìn)行預(yù)測。 在制作回歸直線時(shí),通常以在制作回歸直線時(shí),通常以x為橫坐標(biāo),為橫坐標(biāo),y為縱坐標(biāo),縱、橫坐標(biāo)皆需標(biāo)明名稱和單為縱坐標(biāo),縱、橫坐標(biāo)皆需標(biāo)明名稱和單位。然后,取位。然后,取x坐標(biāo)上的一個(gè)小值坐標(biāo)上的一個(gè)小值x1代入代入回歸方程

15、得回歸方程得 ;取一個(gè)大值;取一個(gè)大值x2代入回歸代入回歸方程得方程得 。應(yīng)用坐標(biāo)點(diǎn)。應(yīng)用坐標(biāo)點(diǎn) 和和 即可在圖上連成一條回歸直線。即可在圖上連成一條回歸直線。 此直線必須通過點(diǎn)此直線必須通過點(diǎn) ,它可,它可作為制圖是否正確的核對。作為制圖是否正確的核對。1 y2 y),(11yx)(2, 2yx),(yx 如例如例9.1資料,以資料,以x1=30代入回歸方程得代入回歸方程得 ;以以x2=44代入回歸方程得代入回歸方程得 。在坐標(biāo)上確定。在坐標(biāo)上確定 (30,15.6)和()和(44,0.2)這兩個(gè)點(diǎn),再連接之,即)這兩個(gè)點(diǎn),再連接之,即為回歸方程為回歸方程 的直線圖象。的直線圖象。6 .15

16、1y2 . 02yxy1 . 15 .48yXxy四、線性回歸的估計(jì) 標(biāo)準(zhǔn)誤和實(shí)測的坐標(biāo)點(diǎn)并不完全吻合。所以和實(shí)測的坐標(biāo)點(diǎn)并不完全吻合。所以稱稱Q為離回歸平方和或剩余平方和。為離回歸平方和或剩余平方和。最小2) (yyQxy1 . 15 .48由圖可知,滿足由圖可知,滿足而得的線性回歸方程:而得的線性回歸方程:由于在建立回歸方程時(shí)用了由于在建立回歸方程時(shí)用了a和和b兩個(gè)統(tǒng)計(jì)數(shù),故兩個(gè)統(tǒng)計(jì)數(shù),故Q的自由度的自由度df=n-2,因而,可定義回歸估計(jì)標(biāo)準(zhǔn)誤為:因而,可定義回歸估計(jì)標(biāo)準(zhǔn)誤為:2) (22nyynQSxy 由上式可知:由上式可知: 若各個(gè)觀察點(diǎn)愈靠近回歸直線,若各個(gè)觀察點(diǎn)愈靠近回歸直線,

17、Sy.x的值將愈?。坏闹祵⒂。?若各個(gè)觀察點(diǎn)在回歸線上下分散得愈若各個(gè)觀察點(diǎn)在回歸線上下分散得愈遠(yuǎn),則遠(yuǎn),則Sy.x的值愈大。的值愈大。離回歸平方和通常可用下式計(jì)算:離回歸平方和通??捎孟率接?jì)算:xySSSPssyyQ22)() (xyxxxyxyxxySSSPSSSSSSSPSSSPSSSSbbSPSSxxbyyxxbyyxxbyyyyQSSSPbxxbyySSSPSSyyQ22222222222222的推導(dǎo)公式【例例9.2】試計(jì)算表試計(jì)算表9.1資料的回歸估計(jì)標(biāo)準(zhǔn)誤資料的回歸估計(jì)標(biāo)準(zhǔn)誤。解:將前面算得的解:將前面算得的SSy、SP、SSx代入公式代入公式求得求得 6670.746356.

18、144)0444.159(5556.249)(22xySSSPSSQ故故(天)226. 3296670.742.nQsxy 上述計(jì)算結(jié)果表明,當(dāng)用回歸方程上述計(jì)算結(jié)果表明,當(dāng)用回歸方程 由由3月下旬至月下旬至4月中旬的積溫預(yù)測一代三月中旬的積溫預(yù)測一代三化螟蛾盛發(fā)期時(shí),有一個(gè)化螟蛾盛發(fā)期時(shí),有一個(gè)3.266天的估計(jì)標(biāo)天的估計(jì)標(biāo)準(zhǔn)誤。準(zhǔn)誤。xy1 . 15 .48y 約有約有68.27%個(gè)觀察點(diǎn)落在個(gè)觀察點(diǎn)落在 3.266天范圍天范圍內(nèi);內(nèi);約有約有95.45%個(gè)觀察點(diǎn)落在個(gè)觀察點(diǎn)落在 6.532天范圍天范圍內(nèi);內(nèi); 它的統(tǒng)計(jì)意義是:當(dāng)它的統(tǒng)計(jì)意義是:當(dāng)X為某一定值時(shí)為某一定值時(shí)在積溫在積溫X為

19、某一值時(shí),實(shí)際的盛發(fā)期為某一值時(shí),實(shí)際的盛發(fā)期Y和回歸估計(jì)和回歸估計(jì) 的盛發(fā)期的盛發(fā)期 ,平均相差,平均相差3.266天天y y y 五、線性回歸的假設(shè)測驗(yàn)五、線性回歸的假設(shè)測驗(yàn) 回歸關(guān)系的假設(shè)測驗(yàn)回歸關(guān)系的假設(shè)測驗(yàn) 兩個(gè)回歸系數(shù)相比較的假設(shè)測驗(yàn)兩個(gè)回歸系數(shù)相比較的假設(shè)測驗(yàn)(一)回歸關(guān)系的假設(shè)測驗(yàn)(一)回歸關(guān)系的假設(shè)測驗(yàn) 若x和y變數(shù)的總體并不存在直線回歸關(guān)系,則由其中的一個(gè)樣本也可用前面所學(xué)的方法算得一個(gè)直線回歸方程,顯然這樣的回歸方程靠不住。所以對于樣本的回歸方程,必須測定其來自無直線回歸關(guān)系的總體的概率大小。只有當(dāng)這種概率很小(如P小于0.05或0.01)時(shí),我們才能冒較小的危險(xiǎn)確認(rèn)其所

20、代表的總體存在著直線回歸關(guān)系,這就是回歸關(guān)系的假設(shè)測驗(yàn)??捎胻測驗(yàn)或F測驗(yàn)進(jìn)行。1、t測驗(yàn)測驗(yàn) 若總體不存在直線回歸關(guān)系,則總體回歸系數(shù)為零 ;若總體存在直線回歸關(guān)系,則總體回歸系數(shù)不為零。所以,對直線回歸的測驗(yàn)為:0:; 0:0AHH回歸系數(shù)的標(biāo)準(zhǔn)誤:xxybSSSxxnyyS.22)()2() ( 故由t值即可知道樣本回歸系數(shù)b來自無直線回歸關(guān)系總體的概率大小。bSbt服從df=n-2的t分布 查附表3得,t0.05,7=2.36, t0.01,7=3.50,由于t=4.053.50,故回歸關(guān)系極其顯著,即認(rèn)為積溫和一代三化螟蛾盛發(fā)期是有真實(shí)直線回歸關(guān)系的,或者說b=-1.0996是極其顯

21、著的?!纠?.3】試測驗(yàn)例9.1資料回歸關(guān)系的顯著性。解:例9.1和例9.2已分別算得的b,SSx,Sy.x則05. 42715. 000996. 12715. 06356.144266. 3.tSSSSxxyb2、F測驗(yàn)測驗(yàn)Y變數(shù)的平方和可分解為兩個(gè)部分,即2222222) () ()(0)()(2) () ()()(yyyyyyyyyyyyyyyyyyyyyyyySSy),(yxbxay)(yy)(yy ) (yyxy(x,y) oSSSSSPSPSSSPxxbxxyybxxbyyxxbyyyyyySSSPbxxbyyyyyyxxxx2220的推導(dǎo)公式 為回歸方程的估測誤差平方 和,即離回

22、歸平方和,用Q表示,具有自由度df=n-2; 2) (yy2)( yy上式中: 代表y隨x變動(dòng)的變異,即回歸平方和,記作U,具有自由度df=(n-1)-(n-2)=1UQyy2 由于回歸與離回歸的均方比遵 循df1=1,df2=n-2的F分布,故由著性。即可測驗(yàn)回歸關(guān)系的顯)2() (1)(22nyyyyF【例9.4】試測驗(yàn)例9.1資料回歸關(guān)系的顯著性。解:例9.1和例9.2已算得SSx,SSy,SP,Q,故U=SSy-Q=249.5556-74.6670=174.8886 變異來源 df SS MS F F0.01 回 歸 1 174.8886 174.8886 16.40 12.25離回歸

23、 7 74.6670 10.6667 總變異 8 249.5556 實(shí)得F=16.4F0.01=12.25 , 表明積溫和一代三化螟蛾盛發(fā)期是有真實(shí)直線回歸關(guān)系的。表 例91資料的回歸關(guān)系顯著性測驗(yàn) 上述t測驗(yàn)和F測驗(yàn),在任何回歸樣本上,其結(jié)果完全一致。 因?yàn)樵谕桓怕手迪?,df1=1,df2=n-2的一尾F值恰巧等于df=n-2的兩尾t值的平方。如本例,F(xiàn)=16.40,t=-4.05, 而(-4.05)2=16.40。所以,對直線回歸做假設(shè)測驗(yàn),只需要選擇上述測驗(yàn)方法的一種。但須注意,若直線回歸的若直線回歸的t或或F測驗(yàn)不顯測驗(yàn)不顯著,僅表明該樣本不是來自直線回歸總體,并不排著,僅表明該樣本

24、不是來自直線回歸總體,并不排除它來自其他非直線回歸總體的可能性。除它來自其他非直線回歸總體的可能性。(二)兩個(gè)回歸系數(shù)比較時(shí)的假設(shè)測驗(yàn)(二)兩個(gè)回歸系數(shù)比較時(shí)的假設(shè)測驗(yàn): 我們要了解兩個(gè)回歸系數(shù)是否同質(zhì),則需 測驗(yàn)b1和b2的差異顯著性。所作假設(shè)為 H0:1=2;HA:12。兩樣本回歸系數(shù)的差數(shù)標(biāo)準(zhǔn)誤1111xbay 2222.2112.21)()(xxSxxSSxyxybb若有兩個(gè)直線回歸方程2222xbay 和服從df=(n1-2)+(n2-2)的t分布,故由上式可測驗(yàn)在1=2的總體中獲得現(xiàn)有b1b2的樣本的概率。)2)(2(2121.2nnQQSxys2y.x為兩個(gè)樣本回歸估計(jì)標(biāo)準(zhǔn)誤的合

25、并方差。2121212121)()()(bbbbSbbSbbt 2213518246585139424830.697181420 1810708225168637436520.69447 420【例9.5】測定兩玉米品種葉片長寬乘積(x)和實(shí)際葉面積(y)的關(guān)系,得表9.3的計(jì)算結(jié)果,試測驗(yàn)兩回歸系數(shù)間是否有顯著差異。表9.3玉米葉片長寬乘積和葉面積關(guān)系的計(jì)算結(jié)果品種七葉白石榴子nSSx SSy SPb Q由表9.3可得3 . 00092. 069447. 069718. 0)()()(2121212121bbbbSbbSbbxyS.221 bbSt11.51)218()222(4201420

26、)2()2(2121nnQQ0092.0107082211.51135182411.51)()(2222.2112.xxSxxSxyxy注意:上式的注意:上式的b是兩個(gè)回歸系數(shù)的加權(quán)平均數(shù),是兩個(gè)回歸系數(shù)的加權(quán)平均數(shù),它不等于它不等于(b1+b2)/2。69598. 0107082213518247436529424832121SSSSSPSP 當(dāng)df=(n1-2)+(n2-2)=36時(shí)由附表3查得t0.05,35=2.030t=0.3. 結(jié)果不顯著,所以應(yīng)接受H0:1=2,即認(rèn)為葉片長寬乘積與葉面積的回歸系數(shù)在七葉白和石榴子兩品種上差異不顯著。其共同值為:b六、線性回歸方程的應(yīng)用六、線性回歸

27、方程的應(yīng)用 線性回歸方程建立、并經(jīng)顯著性測驗(yàn)證明其真實(shí)存在后,即可在建立回歸方程所用的自變量觀察值范圍內(nèi)對依變量進(jìn)行預(yù)測。 由于x變數(shù)的實(shí)測區(qū)間為31.7 , 44.2,所以回歸方程在該區(qū)間內(nèi)可用于由x的變化來預(yù)測y的變化。但在該區(qū)間之外是否適用,不得而知,如要應(yīng)用則必須有新的依據(jù)。七、線性回歸的置信區(qū)間七、線性回歸的置信區(qū)間 在確認(rèn)兩個(gè)變數(shù)間有回歸關(guān)系后,可進(jìn)一步估算線性回歸的置信區(qū)間。 bSb)( 自由度df=n-2的t分布,故對總體回歸系數(shù)有95%可靠度的置信區(qū)間為:bbstbLstbL05. 0205. 01,已知1、回歸系數(shù)的置信區(qū)間、回歸系數(shù)的置信區(qū)間 從總體回歸截距為的回歸總體中

28、抽樣,所得樣本回歸截距a的標(biāo)準(zhǔn)誤為Saxbya2、回歸截距的置信區(qū)間、回歸截距的置信區(qū)間nSxy .y其中:的標(biāo)準(zhǔn)誤為xxySSS.的標(biāo)準(zhǔn)誤為因?yàn)閎2.2.22xSSSnSSxxyxya所以對總體回歸截距有95%可靠度的置信區(qū)間為:aastaLstaL05. 0205. 01,xxyaSSxnSS2.1分布的服從因tndfSaa2 由于x與y之間只是一種相關(guān)關(guān)系,而不是函數(shù)關(guān)系。因此,我們不能指望用一個(gè)已知的x值精確地算出對應(yīng)的y值。即實(shí)測的y值與用回歸方程所求得的y估計(jì)值 有差異,所以不能將理論值 作為實(shí)際值來估計(jì)。用回歸方程所估測的 值,它要受到方程中a,b兩個(gè)數(shù)值的影響,而a,b兩個(gè)值均

29、帶有誤差,這樣,由方程所估測的值也會(huì)帶有誤差。所以,對y值的估計(jì)不能做點(diǎn)估計(jì),而只能進(jìn)行區(qū)間估計(jì)。 因a,b都有誤差,故由回歸方程 算得的y估計(jì)值也必然有誤差。) (y) (yy bxay3、y估計(jì)值的置信區(qū)間估計(jì)值的置信區(qū)間(1)y的平均估計(jì)值的置信區(qū)間的平均估計(jì)值的置信區(qū)間 關(guān)于x為某一定值時(shí)y總體的平均數(shù)y的置信區(qū)間。因它受到 和b 的抽樣影響,所以其估計(jì)標(biāo)準(zhǔn)誤為:xxyxyxxyxyxyssxxnssxxSSSnSSxxbyy2.22.2.2.2)(1)()(yxyxystyLstyL.05. 02.05. 01, 服從df=n-2的t分布,故總體平均數(shù)有95%可靠度的置信區(qū)間為:xy

30、ySy.)(由于xxyssxxns2.)(11 關(guān)于x為某一定值時(shí),y總體的個(gè)別觀察值y的置信區(qū)間。因該y值不僅受 和 b 的抽樣影響,而且也受到總體分布變異度的影響,所以其估計(jì)標(biāo)準(zhǔn)誤為:y 因 服從df=n-2的t分布,故y的的個(gè)別估計(jì)值個(gè)別估計(jì)值95%可靠度的置信區(qū)間為: xysyy. )( xyxystyLstyL. 05. 02. 05. 01,xys. (2)y的個(gè)別估計(jì)值的置信區(qū)間的個(gè)別估計(jì)值的置信區(qū)間 【例9.6】對例9.1資料,試計(jì)算:回歸系數(shù)的95%置信區(qū)間;回歸截距的95%置信區(qū)間;當(dāng)3月下旬至4月中旬的積溫為40旬度時(shí),歷年的一代三化螟蛾平均盛發(fā)期在何時(shí)(取95%可靠度)

31、?某年3月下旬至4月中旬的積溫為40旬度,試估計(jì)該年的一代三化螟蛾盛發(fā)期在何時(shí)(取95%可靠度)? 由例9.3和例9.4已證明該資料的兩變量間存在有顯著的線性回歸關(guān)系。 回歸系數(shù)的置信區(qū)間 回歸系數(shù)標(biāo)準(zhǔn)誤 當(dāng)自由度df=9-2=7時(shí),t0.05=2.365,故L1= -1.0996-2.3650.2715= -1.7417L2= -1.0996+2.3650.2715= -0.4575 即對例9.1資料重復(fù)進(jìn)行抽樣調(diào)查試驗(yàn),則由樣本計(jì)算的回歸系數(shù)b,將有95%把握落在-1.7417,-0.4575區(qū)間內(nèi)。2715. 01.xxybSSSS L1=48.5485-2.36510.1278=24.

32、5963 L2=48.5485+2.36510.1278=72.50071278.106356.1440778.3791266.312.xxySSxnS回歸截距的置信區(qū)間回歸截距的標(biāo)準(zhǔn)誤sa,可由式(9.15)算得aS當(dāng)df=n-2=9-2=7時(shí),t0.05=2.365,故35. 16356.144)0778.3740(91266. 3)(122.xxyssxxns 當(dāng)x=40旬度時(shí),總體平均數(shù)y的估計(jì)值為 = 48.5485-(1.099640)=4.56 由式(9.17)可算得, y 即對例9.1資料重復(fù)進(jìn)行抽樣調(diào)查,將有95%樣本的a值在24.5963,72.5007區(qū)間內(nèi)。xys.所以

33、包括在內(nèi)有95%可靠度的置信區(qū)間為L1=4.56-(2.361.35)=1.4(即5月12日)L2=4.56+(2.361.35)=7.7(即5月18日) 即3月下旬至4月中旬積溫為40旬度的年份,其一代三化螟蛾平均盛發(fā)期的95%置信區(qū)間為1.4,7.7,或5月12日18日。當(dāng)x=40旬度時(shí),總體單個(gè)觀察值y的估計(jì)值為 = 48.5485-(1.099640)=4.56y L1=4.56-(2.363.53)=-3.8(即5月6日)L2=4.56+(2.363.53)=12.9(即5月23日)53. 36356.144)0778.3740(911266. 3)(1122.xxyssxxnsxy

34、s. 由式(9.19)可算得故包括y在內(nèi)有95%可靠度的置信區(qū)間為 即某年3月下旬至4月中旬積溫為40旬度時(shí),該年一代三化螟蛾平均盛發(fā)期的95%置信區(qū)間為-3.8,12.9,或5月6日23日。這種預(yù)報(bào)在100次中將有95次是對的。如果該蟲態(tài)是防治對象,則生產(chǎn)上在整個(gè)置信區(qū)間內(nèi)都需注意檢查和防治。 9.3 簡單相關(guān)分析簡單相關(guān)分析 簡單相關(guān)分析是研究雙變量線性資料在數(shù)量上的變化特征和規(guī)律的統(tǒng)計(jì)方法?;蛘哒f是以計(jì)算雙變量資料線性相關(guān)系數(shù)為基礎(chǔ)的統(tǒng)計(jì)方法。一、相關(guān)系數(shù)與決定系數(shù)一、相關(guān)系數(shù)與決定系數(shù) 1、相關(guān)系數(shù)、相關(guān)系數(shù):表示x和y兩類變量相關(guān)密切程度及其性質(zhì)的統(tǒng)計(jì)數(shù)。),(yxyx 假設(shè)有一雙變

35、量總體,具有N對(X,Y)。這N對(X,Y)都可以在直角坐標(biāo)平面上用坐標(biāo)點(diǎn)來表示。如果將X軸和Y軸皆分別移至 上,則各個(gè)點(diǎn)的位置不變,而所取坐標(biāo)值變?yōu)?yx和(x,y)(x-x, y- y)00 xyxy0)( , 0)(yxyx在象限:在象限:在象限:在象限:0)( , 0)(yxyx0)( , 0)(yxyx0)( , 0)(yxyx當(dāng)(X,Y)總體呈正相關(guān)時(shí),落在象限 、 的點(diǎn)一定比落在象限、 的點(diǎn)多,故離均差乘積和為正,且落在象限、 的點(diǎn)愈多,此正值也愈大; )(yxyx一定為正;凡落在象限、的點(diǎn)因而,凡落在象限、的點(diǎn)一定為負(fù)。因此,)(yxyx 當(dāng)(X,Y)總體呈負(fù)相關(guān)時(shí) ,則落在象

36、限、的點(diǎn)一定比落在象限、的點(diǎn)多,故離均差乘積和一定為負(fù),且落在象限、 的點(diǎn)愈多,此負(fù)值的絕對值愈大。 如果(X,Y)總體無相關(guān),則落在象限的點(diǎn)是均勻分散的,因而正負(fù)想消,離均差乘積和等于零正相關(guān)負(fù)相關(guān)無相關(guān)000 xyxyxy圖9.3 三種不同的總體相關(guān)散布圖 受到X和Y的變異程度、所取單位和N的大小的影響。為消除以上因素的影響??蓪㈦x均差除以各自的標(biāo)準(zhǔn)差,使其成為標(biāo)準(zhǔn)化離差,再除以N。因此可定義總體相關(guān)系數(shù)為: )( )(yxyx221)()()()()(1YYXXYYXXYYXXNyxN)( )(yxyx由以上分析可以看出, 可以用來度量兩個(gè)變量線性相關(guān)的程度和性質(zhì)。但由于 由于是一個(gè)不帶

37、單位的純數(shù),故可用來比較不同雙變量總體的相關(guān)程度和性質(zhì)。當(dāng)計(jì)算樣本的相關(guān)系數(shù)時(shí),則yxSSSSSPyyxxyyxx22)()()(r 由回歸分析也可得出上述結(jié)果,因SSy=U+Q,U占SSy的比率愈大,則相關(guān)點(diǎn)愈靠近回歸直線,直線相關(guān)就愈密切。因此,相關(guān)系數(shù)又可定義為:yxyxySSSSSPSSSSSPSSU2r由上式可以看出: 當(dāng)實(shí)際觀測值的點(diǎn)完全落在回歸直線上,Q=0,SSy=U,則11r 當(dāng)y 的變異和x完全無關(guān)時(shí),U=0,SSY=Q , 則 r=0。所以,r的取值區(qū)間為-1,1。yxySSSSSPSSU 所以,決定系數(shù)即相關(guān)系數(shù)的平方值。取值范圍0,1。因此,r2只表示相關(guān)程度,而不表

38、示相關(guān)的性質(zhì)。 由x不同而引起的y變量平方和 占y變數(shù)總平方和 的比率或由y的不同而引起的x變量的平方和 占x變量的總平方和 的比率稱為決定系數(shù)。用r2表示2)(yyU2)(yySSy2)(xx2)(xx2、決定系數(shù)、決定系數(shù)2r r可正可負(fù),而r2總為正值。故后者只能表示變數(shù)間相關(guān)的程度,不能表示變數(shù)間的相關(guān)性質(zhì)。 除 r =0和 r = 1外,r2 r 。因此,應(yīng)用決定系數(shù)可避免對相關(guān)系數(shù)所表示的相關(guān)程度做過分夸張的解釋。3、決定系數(shù)和相關(guān)系數(shù)的區(qū)別、決定系數(shù)和相關(guān)系數(shù)的區(qū)別二、相關(guān)系數(shù)和決定系數(shù)的計(jì)算二、相關(guān)系數(shù)和決定系數(shù)的計(jì)算 【例9.8】西南農(nóng)大研究某小麥品種的單株有效穗數(shù)(x)與單

39、株籽粒產(chǎn)量(y)的關(guān)系,調(diào)查數(shù)據(jù)如下表,試計(jì)算資料中小麥單株有效穗數(shù)和單株籽粒產(chǎn)量的相關(guān)系數(shù)和決定系數(shù)。單株有效穗數(shù)(x) 單株籽粒產(chǎn)量(y) 2.9 4.5 2.5 4.2 3.0 4.7 2.9 4.9 3.1 4.7 3.5 5.7 4.0 6.3 3.6 5.1 3.5 5.2 4.0 5.6小麥單株有效穗數(shù)和單株籽粒產(chǎn)量由表中的數(shù)據(jù)算得: x=33, x2=111.14, y=50.9, y2=262.67, xy=170.54 , n=10由一級數(shù)據(jù)算得該資料的二級數(shù)據(jù):SSx=2.24, SSy=3.59, SP=2.57,09. 530. 3yx, 計(jì)算結(jié)果表明:小麥單株有效穗數(shù)與單株籽粒產(chǎn)量呈正相關(guān),即有效穗數(shù)愈多,籽粒產(chǎn)量愈高;且籽粒產(chǎn)量變異的平方和有82.13%是由有效穗數(shù)的變異造成的。8213. 059. 324. 257. 2)(9063. 059. 324. 257. 2222yxyxSSSSSPrSSSSSPr三、相關(guān)系數(shù)的假設(shè)測驗(yàn)三、相關(guān)系數(shù)的假設(shè)測驗(yàn) 相關(guān)系數(shù)一般由樣本算出,和其它統(tǒng)計(jì)數(shù)一樣也有抽樣誤差。若從同一總體內(nèi)抽出若干大小相同的樣本,由個(gè)樣本計(jì)算的相關(guān)系數(shù)總有不同。在無相關(guān)總體中抽取樣本,由于抽樣誤差,r并不一定為0,所以,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論