第七章 直線回歸與相關(guān)分析_第1頁(yè)
第七章 直線回歸與相關(guān)分析_第2頁(yè)
第七章 直線回歸與相關(guān)分析_第3頁(yè)
第七章 直線回歸與相關(guān)分析_第4頁(yè)
第七章 直線回歸與相關(guān)分析_第5頁(yè)
已閱讀5頁(yè),還剩131頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

平均數(shù)標(biāo)準(zhǔn)差方差分析多重比較集中點(diǎn)離散程度差異顯著性一個(gè)變量(產(chǎn)量)施肥量播種密度品種在實(shí)際研究中,事物之間的相互關(guān)系涉及兩個(gè)或兩個(gè)以上的變量,只要其中的一個(gè)變量變動(dòng)了,另一個(gè)變量也會(huì)跟著發(fā)生變動(dòng),這種關(guān)系稱(chēng)為協(xié)變關(guān)系,具有協(xié)變關(guān)系的變量稱(chēng)為協(xié)變量。確定的函數(shù)關(guān)系PV=RT氣體壓強(qiáng)S=πr2圓的面積協(xié)變量S=ab長(zhǎng)方形面積身高與胸圍、體重施肥量與產(chǎn)量溶液的濃度與OD值人類(lèi)的年齡與血壓溫度與幼蟲(chóng)孵化不完全確定的函數(shù)關(guān)系(相關(guān)關(guān)系)協(xié)變量相關(guān)變量一個(gè)變量的變化受另一個(gè)變量或幾個(gè)變量的制約因果關(guān)系平行關(guān)系兩個(gè)以上變量之間共同受到另外因素的影響動(dòng)物的生長(zhǎng)速度受遺傳、營(yíng)養(yǎng)等影響子女的身高受父母身高的影響人的身高和體重之間的關(guān)系兄弟身高之間的關(guān)系

為了確定相關(guān)變量之間的關(guān)系,首先應(yīng)該收集一些數(shù)據(jù),這些數(shù)據(jù)應(yīng)該是成對(duì)的,然后在直角坐標(biāo)系上描述這些點(diǎn),這一組點(diǎn)集稱(chēng)為散點(diǎn)圖。散點(diǎn)圖(scatterdiagram)為了研究父親與成年兒子身高之間的關(guān)系,卡爾.皮爾遜測(cè)量了1078對(duì)父子的身高。把1078對(duì)數(shù)字表示在坐標(biāo)上,如圖。用水平軸X上的數(shù)代表父親身高,垂直軸Y上的數(shù)代表兒子的身高,1078個(gè)點(diǎn)所形成的圖形是一個(gè)散點(diǎn)圖。它的形狀象一塊橄欖狀的云,中間的點(diǎn)密集,邊沿的點(diǎn)稀少,其主要部分是一個(gè)橢圓。

散點(diǎn)圖(scatterdiagram)兩個(gè)變量間關(guān)系的性質(zhì)(正向協(xié)同變化或負(fù)向協(xié)同變化)和程度(關(guān)系是否密切)兩個(gè)變量間關(guān)系的類(lèi)型(直線型或曲線型)是否有異常觀測(cè)值的干擾123456432112345643211234564321正向直線關(guān)系負(fù)向直線關(guān)系曲線關(guān)系定性研究回歸(regerssion)相關(guān)(correlation)定量研究曲線直線型非直線型變量二元多元直線型二元直線相關(guān)與回歸分析第八章第一節(jié)第二節(jié)第三節(jié)回歸與相關(guān)的概念直線回歸直線相關(guān)直線回歸與相關(guān)分析第七章第一節(jié):回歸與相關(guān)的概念相關(guān)變量因果關(guān)系平行關(guān)系回歸分析(regressionanalysis)相關(guān)分析(correlationanalysis)一個(gè)變量的變化受另一個(gè)變量或幾個(gè)變量的制約兩個(gè)以上變量之間共同受到另外因素的影響在生物學(xué)中,研究?jī)蓚€(gè)變量間的關(guān)系,主要是為了探求兩變量的內(nèi)在聯(lián)系,或從一個(gè)變量X(可以是隨機(jī)變量,也可以是一般的變量),去推測(cè)另一個(gè)隨機(jī)變量Y。xy施肥量(可以嚴(yán)格地人為控制)產(chǎn)量如果對(duì)x的每一個(gè)可能的值,都有隨機(jī)變量y的一個(gè)分布相對(duì)應(yīng),則稱(chēng)隨機(jī)變量y對(duì)變量x存在回歸(regression)關(guān)系。自變量(independentvariable)因變量(dependentvariable)因果關(guān)系一個(gè)變量的變化受另一個(gè)變量或幾個(gè)變量的制約在大量測(cè)量各種身高人群的體重時(shí)會(huì)發(fā)現(xiàn),雖然在同樣身高下,體重并不完全一樣。但在每一身高下,都有一個(gè)確定的體重分布與之相對(duì)應(yīng);在大量測(cè)量各種體重人群的身高時(shí)會(huì)發(fā)現(xiàn),雖然在同樣體重下,身高并不完全一樣。但在每一體重下,都有一個(gè)確定的身高分布與之相對(duì)應(yīng);身高與體重之間存在相關(guān)關(guān)系。X身高Y體重X體重Y身高相關(guān)關(guān)系第二節(jié):直線回歸LinearRegression一、直線回歸方程的建立二、直線回歸的數(shù)學(xué)模型和基本假定三、直線回歸的假設(shè)檢驗(yàn)四、直線回歸的區(qū)間估計(jì)簡(jiǎn)單回歸(SimpleRegression)一、直線回歸方程的建立直線回歸就是用來(lái)描述一個(gè)變量如何依賴(lài)于另一個(gè)變量

溫度天數(shù)Y=a+bx^直線回歸方程(linearregressionequation)截距(intercept)回歸截距斜率(slope)回歸系數(shù)(regerssioncoefficient)自變量與x值相對(duì)應(yīng)的依變量y的點(diǎn)估計(jì)值0xya>0,b>0a<0,b>0a>0,b<0a=0b=0變量1變量2收集數(shù)據(jù)散點(diǎn)圖溫度天數(shù)XY平均溫度(℃)歷期天數(shù)(d)11.830.114.717.315.616.716.813.617.111.918.810.719.58.320.46.7黏蟲(chóng)孵化歷期平均溫度與歷期天數(shù)關(guān)系圖01020304010121416182022溫度天數(shù)(天)(℃)回歸直線在平面坐標(biāo)系中的位置取決于a,b的取值。y最小最小二乘法(methodofleastsquare)最小為最小值基本性質(zhì)XY平均溫度(℃)歷期天數(shù)(d)11.830.114.717.315.616.716.813.617.111.918.810.719.58.320.46.701020304010121416182022溫度天數(shù)(天)(℃)11.8-----20.4用x估計(jì)y,存在隨機(jī)誤差,必須根據(jù)回歸的數(shù)學(xué)模型對(duì)隨機(jī)誤差進(jìn)行估計(jì),并對(duì)回歸方程進(jìn)行檢驗(yàn)。y誤差二、數(shù)學(xué)模型和基本假定yy的總體平均數(shù)因x引起y的變異y的隨機(jī)誤差總體回歸截踞總體回歸系數(shù)隨機(jī)誤差直線回歸的數(shù)學(xué)模型(modeloflinearregression)基本假定x是沒(méi)有誤差的固定變量,或其誤差可以忽略,而y是隨機(jī)變量,且有隨機(jī)誤差。x是的任一值對(duì)應(yīng)著一個(gè)y總體,且作正態(tài)分布,其平均數(shù)μ=α+βx,方差受偶然因素的影響,不因x的變化而改變。隨機(jī)誤差ε是相互獨(dú)立的,呈正態(tài)分布。y三、直線回歸的假設(shè)檢驗(yàn)有意義指導(dǎo)實(shí)踐?是否真正存在線性關(guān)系回歸關(guān)系是否顯著一、直線回歸的變異來(lái)源y=a+bxy(x,y)y-yy-yy-y實(shí)際值與估計(jì)值之差,剩余或殘差。y-y估計(jì)值與均值之差,它與回歸系數(shù)的大小有關(guān)。檢驗(yàn)線性回歸系數(shù)的顯著性,采用t檢驗(yàn)法進(jìn)行。假設(shè)H0:β=0

HA:β≠0檢驗(yàn)樣本回歸系數(shù)b是否來(lái)自β=0的雙變量總體,以推斷線性回歸的顯著性。(三)t檢驗(yàn)依變量y的平方和,總平方和,SSy,SS總回歸平方和U離回歸平方和Qy的離均差,反映了y的總變異程度,稱(chēng)為y的總平方和。說(shuō)明未考慮x與y的回歸關(guān)系時(shí)y的變異。反映了由于y與x間存在直線關(guān)系所引起的y的變異程度,因x的變異引起y變異的平方和,稱(chēng)為回歸平方和。它反映在y的總變異中由于x與y的直線關(guān)系,而使y變異減小的部分,在總平方和中可以用x解釋的部分。U值大,說(shuō)明回歸效果好?;貧w平方和(regressionsumofsquares)U誤差因素引起的平方和,反映了除去x與y的直線回歸關(guān)系以外的其余因素使y引起變化的大小。反映x對(duì)y的線性影響之外的一切因素對(duì)y的變異的作用,也就是在總平方和中無(wú)法用x解釋的部分。離回歸平方和誤差平方和,剩余平方和(residualsumofsquares)Q在散點(diǎn)圖上,各實(shí)測(cè)點(diǎn)離回歸直線越近,Q值越小,說(shuō)明直線回歸的估計(jì)誤差越小。依變量y的平方和,總平方和,SSy,SS總回歸平方和U離回歸平方和Q直線回歸分析中,回歸自由度等于自變量的個(gè)數(shù),只涉及到1個(gè)自變量df回歸=1df總=n-1df離回歸=n-2Q/n-2離回歸標(biāo)準(zhǔn)差回歸估計(jì)標(biāo)準(zhǔn)誤剩余標(biāo)準(zhǔn)差離回歸方差總體回歸截踞總體回歸系數(shù)隨機(jī)誤差α:它是y的本底水平,即x對(duì)y沒(méi)有任何作用時(shí),y的數(shù)量表現(xiàn)。βx:它描述了因變量y的取值改變中,由y與自變量x的線性關(guān)系所引起的部分,即可以由x直接估計(jì)的部分。誤差:它描述了因變量y的取值改變由x以外的可能與y有關(guān)的隨機(jī)和非隨機(jī)因素共同引起的部分,即不能由x直接估計(jì)的部分。兩個(gè)變量是否存在線性關(guān)系,可采用F檢驗(yàn)法進(jìn)行??傮w回歸截踞總體回歸系數(shù)隨機(jī)誤差若x與y間不存在直線關(guān)系,則總體回歸系數(shù)β=0;若x與y間存在直線關(guān)系,則總體回歸系數(shù)β≠0假設(shè)H0:兩變量間無(wú)線性關(guān)系HA:兩變量間有線性關(guān)系在無(wú)效假設(shè)存在下,回歸方差與離回歸方差的比值服從F分布。df1=1df2=n-2H0:黏蟲(chóng)孵化歷期平均溫度x與歷期天數(shù)y之間不存在線性關(guān)系HA:兩變量間有線性關(guān)系變異來(lái)源dfSSs2FF0.05F0.01回歸1353.6628353.662889.89**5.9913.74離回歸623.60603.9343總變異7377.2688df=n-2回歸系數(shù)的標(biāo)準(zhǔn)誤否定H0:β=0,接受HA:β≠0,認(rèn)為黏蟲(chóng)孵化歷期平均溫度與歷期天數(shù)間有真實(shí)直線回歸關(guān)系。同一概率值F(一尾)值(df1=1,df2=n-2)t值(兩尾)(df=n-2)四、直線回歸的區(qū)間估計(jì)點(diǎn)估計(jì)四、直線回歸的區(qū)間估計(jì)a和b的置信區(qū)間(一)μy/x

的置信區(qū)間和單個(gè)y的預(yù)測(cè)區(qū)間(二)μy/x

和單個(gè)y觀測(cè)值置信區(qū)間圖示(三)(一)a和b的置信區(qū)間(一)a和b的置信區(qū)間df=2(一)a和b的置信區(qū)間總體回歸截距α的置信區(qū)間(一)a和b的置信區(qū)間總體回歸系數(shù)β的置信區(qū)間95%的樣本回歸截距落在該區(qū)間內(nèi)95%的樣本回歸系數(shù)落在該區(qū)間內(nèi)(二)μy/x

的置信區(qū)間和單個(gè)y的預(yù)測(cè)區(qū)間不包含隨機(jī)誤差由回歸方程預(yù)測(cè)x為某一定值時(shí)y的觀測(cè)值所在區(qū)間,則y觀測(cè)值不僅受到y(tǒng)和b的影響,也受到隨機(jī)誤差的影響。y總體的平均數(shù)單個(gè)y值所在的區(qū)間x點(diǎn)估計(jì)(二)μy/x

的置信區(qū)間和單個(gè)y的預(yù)測(cè)區(qū)間df=n-2y總體的平均數(shù)單個(gè)y值所在的區(qū)間xy總體的平均數(shù)黏蟲(chóng)孵化歷期平均溫度為15℃時(shí),歷期天數(shù)為多少天(取95%置信概率)?df=n-2y總體的平均數(shù)x單個(gè)y值所在的區(qū)間單個(gè)y值所在的區(qū)間某年的歷期平均溫度為15℃時(shí),該年的歷期天數(shù)為多少天(取95%置信概率)?(二)μy/x

的置信區(qū)間和單個(gè)y的預(yù)測(cè)區(qū)間(三)μy/x

和單個(gè)y觀測(cè)值置信區(qū)間圖示正比反比愈靠近x,對(duì)y總體平均值或單個(gè)y的估計(jì)值就愈精確,而增大樣本含量,擴(kuò)大x的取值范圍亦可提高精確度。作回歸分析時(shí)要有實(shí)際意義。直線回歸注意問(wèn)題不能把毫無(wú)關(guān)聯(lián)的兩種現(xiàn)象勉強(qiáng)作回歸分析,即便有回歸關(guān)系也不一定是因果關(guān)系,還必須對(duì)兩種現(xiàn)象的內(nèi)在聯(lián)系有所認(rèn)識(shí),即能從專(zhuān)業(yè)理論上作出合理解釋或有所依據(jù)。進(jìn)行直線回歸分析之前,繪制散點(diǎn)圖。直線回歸注意問(wèn)題當(dāng)觀察點(diǎn)的分布有直線趨勢(shì)時(shí),才適宜作直線回歸分析。散點(diǎn)圖還能提示資料有無(wú)異常值,即對(duì)應(yīng)于殘差絕對(duì)值特別大的觀測(cè)數(shù)據(jù)。異常點(diǎn)的存在往往對(duì)回歸方程中的a和b的估計(jì)產(chǎn)生較大的影響。因此,需要復(fù)查此異常點(diǎn)的值。直線回歸的適應(yīng)范圍一般以自變量的取值為限。直線回歸注意問(wèn)題在自變量范圍內(nèi)求出的估計(jì)值,一般稱(chēng)為內(nèi)插(interpolation);超過(guò)自變量取值范圍所計(jì)算出的估計(jì)值,稱(chēng)為外延(extrapolation)。若無(wú)充分理由證明超過(guò)自變量取值范圍還是直線,應(yīng)該避免外延。描述兩變量間的依存關(guān)系。直線回歸的應(yīng)用利用回歸關(guān)系進(jìn)行預(yù)測(cè)(forecast)。直線回歸的應(yīng)用將自變量作為預(yù)報(bào)回子,代入方程對(duì)預(yù)報(bào)量進(jìn)行估計(jì),其波動(dòng)范圍可按個(gè)體y值容許區(qū)間方法計(jì)算?;貧w方程進(jìn)行統(tǒng)計(jì)控制(statisticalcontrol).直線回歸的應(yīng)用

NO2濃度Y(NO2濃度,mg/m3)=-0.064866+0.000133x(車(chē)流量,輛/小時(shí))^第三節(jié):直線相關(guān)LinearCorrelation一、相關(guān)系數(shù)和決定系數(shù)二、相關(guān)系數(shù)的假設(shè)檢驗(yàn)三、相關(guān)系數(shù)的區(qū)間估計(jì)一、相關(guān)系數(shù)和決定系數(shù)xy線性關(guān)系了解x和y相關(guān)以及相關(guān)的性質(zhì)相關(guān)系數(shù)相關(guān)類(lèi)型正相關(guān)負(fù)相關(guān)零相關(guān)IIIIIIIVIIIIIIIVIIIIIIIVIIIIIIIV正相關(guān)IIIIIIIV正相關(guān)IIIIIIIV負(fù)相關(guān)IIIIIIIV零相關(guān)直線相關(guān)的兩個(gè)變量的相關(guān)程度和性質(zhì)乘積和互變量(1)單位問(wèn)題(2)x與y本身的變異不影響x與y之間的相關(guān)性?nr兩個(gè)變量的變異程度兩個(gè)變量的度量單位兩個(gè)變量的個(gè)數(shù)r可以用來(lái)比較不同雙變量的相關(guān)程度和性質(zhì)。樣本總體兩個(gè)變量在相關(guān)系數(shù)計(jì)算中的地位是平等的,沒(méi)有自變量和依變量之分相關(guān)回歸區(qū)別聯(lián)系決定系數(shù)coefficientofdetermination變量x引起y變異的回歸平方和占y總變異平方和的比率當(dāng)SSy固定時(shí),回歸平方和U的大小取決于r2?;貧w平方和U是由于引入了相關(guān)變量而使總平方和SSy減少的部分。說(shuō)明引入相關(guān)的效果好用y可以準(zhǔn)確預(yù)測(cè)y值x與y完全相關(guān)。完全正相關(guān)完全負(fù)相關(guān)散點(diǎn)圖上所有點(diǎn)必在一條直線上?;貧w一點(diǎn)作用也沒(méi)有,即用x的線性函數(shù)完全不能預(yù)測(cè)y值的變化。x與y之間不存在直線相關(guān)關(guān)系,這時(shí)散點(diǎn)圖分布紊亂,沒(méi)有直線的趨勢(shì),但可能存在非線性關(guān)系。IIIIIIIVx的線性函數(shù)對(duì)預(yù)測(cè)y值的變化有一定作用,但不能準(zhǔn)確預(yù)測(cè),說(shuō)明y還受其他因素(包括隨機(jī)誤差)的影響。相關(guān)系數(shù)(r)和決定系數(shù)(r2)

的區(qū)別(1)除去r=1和0的情況外,r2<r,這樣可以防止對(duì)相關(guān)系數(shù)所表示的相關(guān)程度作夸張的解釋。(2)r可正可負(fù),r2取正,r2一般只用于表示相關(guān)程度而不表示相關(guān)性質(zhì)。溫度天數(shù)黏蟲(chóng)孵化歷期平均溫度與歷期天數(shù)成負(fù)相關(guān)。x和y的變異有93.74%可用二者之間的線性關(guān)系來(lái)解釋。ρ=0xy(x1,y1)(x2,y2)(x3,y3)(xn,yn)P?二、相關(guān)系數(shù)的假設(shè)檢驗(yàn)r是線性關(guān)系強(qiáng)弱的指標(biāo)H0

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論