版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
前幾章的方法都只涉及一種變量,主要是比較它的各組值之間的差異。對許多問題的研究需要考慮不只一個(gè)變量,例如生物的生長發(fā)育速度就與溫度,營養(yǎng),濕度……等許多因素有關(guān),我們常常需要研究類似的多個(gè)變量之間的關(guān)系。這種關(guān)系可分為兩大類,即相關(guān)關(guān)系與回歸關(guān)系。第五章回歸分析相關(guān)關(guān)系:兩變量X,Y均為隨機(jī)變量,任一變量的每一可能值都有另一變量的一個(gè)確定分布與之對應(yīng)。回歸關(guān)系:X是非隨機(jī)變量或隨機(jī)變量,Y是隨機(jī)變量,對X的每一確定值xi都有Y的一個(gè)確定分布與之對應(yīng)。
相關(guān)關(guān)系/回歸關(guān)系從上述定義可看出相關(guān)關(guān)系中的兩個(gè)變量地位是對稱的,可以認(rèn)為它們互為因果;而回歸關(guān)系中則不是這樣,我們常稱回歸關(guān)系中的X是自變量,而Y是因變量。即把X視為原因,而把Y視為結(jié)果。
兩個(gè)變量地位回歸分析和相關(guān)分析的目的也有所不同?;貧w分析研究的重點(diǎn)是建立X與Y之間的數(shù)學(xué)關(guān)系式,這種關(guān)系式常常用于預(yù)測,即知道一個(gè)新的X取值,然后預(yù)測在此情況下的Y的取值;而相關(guān)分析的重點(diǎn)則放在研究X與Y兩個(gè)隨機(jī)變量之間的共同變化規(guī)律,例如當(dāng)X增大時(shí)Y如何變化,以及這種共變關(guān)系的強(qiáng)弱。
目的也有所不同從兩個(gè)變量間相關(guān)(或回歸)的程度來看,可分為以下三種情況:(1)完全相關(guān)。此時(shí)一個(gè)變量的值確定后,另一個(gè)變量的值就可通過某種公式求出來;即一個(gè)變量的值可由另一個(gè)變量所完全決定。這種情況在生物學(xué)研究中是不太多見的。(2)不相關(guān)。變量之間完全沒有任何關(guān)系。此時(shí)知道一個(gè)變量的值不能提供有關(guān)另一個(gè)變量的任何信息。(3)統(tǒng)計(jì)相關(guān)(不完全相關(guān))。介于上述兩種情況之間。也就是說,知道一個(gè)變量的值通過某種公式就可以提供關(guān)于另一個(gè)變量一些信息,通常情況下是提供有關(guān)另一個(gè)變量的均值的信息。此時(shí)知道一個(gè)變量的取值并不能完全決定另一個(gè)變量的取值,但可或多或少地決定它的分布。
兩個(gè)變量間相關(guān)按相關(guān)中涉及公式類型可把相關(guān)關(guān)系分為線性相關(guān)和非線性相關(guān)。在多數(shù)情況下,我們提到相關(guān)關(guān)系時(shí)都是指線性相關(guān),這是因?yàn)榫€性相關(guān)的理論已經(jīng)很完善,數(shù)學(xué)處理也很簡單;而非線性問題則需要具體問題具體分析,常常沒有什么好的解決方法,理論上能得到的結(jié)果也很有限。因此在一般情況下我們常常只能解決線性相關(guān)的問題
線性相關(guān)和非線性相關(guān)回歸關(guān)系就是對每一個(gè)X的取值xi,都有Y的一個(gè)分布與之對應(yīng)。在這種情況下,怎么建立X與Y的關(guān)系呢?一個(gè)比較直觀的想法就是建立X與Y的分布的參數(shù)間的關(guān)系,首先是與Y的均值的關(guān)系。這就是條件均值的概念,記為:
一元線性回歸在X=x1的條件下,求Y的均值。更一般地,我們用代表X取一切值時(shí),Y的均值所構(gòu)成的集合。所謂一元線性回歸,就是假定X與之間的關(guān)系是線性關(guān)系,而且滿足:
此時(shí)進(jìn)行回歸分析的目標(biāo)就是給出參數(shù)α和β的估計(jì)值。
求Y的均值對大白鼠從出生第6天起,每三天稱一次體重,直到第18天。試計(jì)算日齡X與體重Y之間的回歸方程。
序號12345日齡xi69121518體重yi1116.5222629計(jì)算日齡X與體重Y之間的回歸
我們可以把數(shù)對(xi,yi)標(biāo)在X-Y坐標(biāo)系中,這種圖稱為散點(diǎn)圖。它的優(yōu)點(diǎn)是可以使我們對X、Y之間的關(guān)系有一個(gè)直觀的、整體上的印象,如它們是否有某種規(guī)律性,是接近一條直線還是一條曲線,等等。我們還可以畫很多條接近這些點(diǎn)的直線或曲線,但這些線中的哪一條可以最好地代表X,Y之間的關(guān)系,就不是憑直觀印象可以做出判斷的了
散點(diǎn)圖散點(diǎn)圖圖中的點(diǎn)看來是呈直線關(guān)系,但那條直線是否最好地反映了這種關(guān)系呢?或者換一種說法:該如何找到最好地反映這種關(guān)系的直線呢?這就是我們以下要討論的問題
如何找到最好地反映這種關(guān)系的直線線性回歸意味著條件平均數(shù)與X之間的關(guān)系是線性函數(shù)
一元正態(tài)線性回歸統(tǒng)計(jì)模型:對于每個(gè)Y的觀察值yi來說,由于條件均值由式?jīng)Q定,觀察值就應(yīng)該是在條件均值的基礎(chǔ)上再加上一個(gè)隨機(jī)誤差,即:
正態(tài)線性回歸中“正態(tài)”的意思是隨機(jī)誤差服從正態(tài)分布。上式就是一元正態(tài)線性回歸的統(tǒng)計(jì)模型。
統(tǒng)計(jì)模型中的α和β是總體參數(shù),一般是不知道的。由于只能得到有限的觀察數(shù)據(jù),我們無法算出準(zhǔn)確的α與β的值,只能求出它們的估計(jì)值a和b,并得到y(tǒng)i的估計(jì)值為:那么,什么樣的a和b是α和β最好的估計(jì)呢?換句話說,選取什么樣的a和b可以最好地反映X和Y之間的關(guān)系呢?一個(gè)合理的想法是使殘差最小。我們定義使殘差平方和達(dá)到最小的直線為回歸線
估計(jì)值a和b最小二乘法
B值對大白鼠從出生第6天起,每三天稱一次體重,直到第18天。試計(jì)算日齡X與體重Y之間的回歸方程。
序號12345日齡xi69121518體重yi1116.5222629計(jì)算日齡X與體重Y之間的回歸方程即:所求的回歸方程為:y=2.6996+1.5167x不管實(shí)際上X與Y之間有沒有線性關(guān)系,用這種方法總是可以得到解的。因此我們必須有一種方法可以檢驗(yàn)得到的結(jié)果是不是反映了X和Y之間的真實(shí)關(guān)系。
為估計(jì)σ2,令:稱為殘差或剩余。則殘差平方和為:
在對一個(gè)回歸方程的統(tǒng)計(jì)檢驗(yàn)中,我們更關(guān)心的是是否為0,而不是是否為0。這是因?yàn)槿?0,則線性模型變?yōu)閅=+,與X無關(guān);這意味著X與Y間根本沒有線性關(guān)系。反之,是否為0并不影響X與Y的線性關(guān)系。因此我們常常只對作統(tǒng)計(jì)檢驗(yàn)。
H0:=0
查表,t0.995(3)=5.841<t,
差異極顯著,應(yīng)拒絕H0,即
0,或X與Y有著極顯著的線性關(guān)系。一元回歸的方差分析
對回歸方程的統(tǒng)計(jì)檢驗(yàn)除可用上述t檢驗(yàn)外,還有一些其他方法。這里我們再介紹一種方差分析的方法,它的基本思想仍是對平方和的分解。
1.
無重復(fù)的情況
y的總校正平方和可進(jìn)行如下的分解:即:Syy=SSe+SSRy的總校正平方和殘差平方和回歸平方和自由度:n-1n-21這樣就把y的總校正平方和分解成了殘差平方和與回歸平方和。前已證明,MSe可作為總體方差2的估計(jì)量,而MSR可作為回歸效果好壞的評價(jià)。如果MSR僅由隨機(jī)誤差造成的話,說明回歸失敗,X和Y沒有線性關(guān)系;否則它應(yīng)顯著偏大。因此可用統(tǒng)計(jì)量對H0:=0進(jìn)行檢驗(yàn)。若F<F(1,n-2),則接受H0
,否則拒絕。F檢驗(yàn)與前述的t檢驗(yàn)是一致的
前已證明:SSe=Syy?bSxy,
SSR=Syy?SSe=bSxy,例5.1作方差分析
例5.1對大白鼠從出生第6天起,每三天稱一次體重,直到第18天。數(shù)據(jù)見表5.1。試計(jì)算日齡X與體重Y之間的回歸方程。表5.1大白鼠6-18日齡的體重序號12345日齡xi69121518體重yi1116.5222629解:由以前計(jì)算結(jié)果:Syy=210.2,df=4;SSe=3.1704,df=3,SSR=210.2?3.1704=207.03,df=1
查表得F0.95(1,3)=10.13,F0.99(1,3)=34.12F>F0.99(1,3),拒絕H0,差異極顯著。即應(yīng)認(rèn)為回歸方程有效。
一、
點(diǎn)估計(jì)與區(qū)間估計(jì)
前邊已經(jīng)證明a和b是α和β的點(diǎn)估計(jì),a+bx是y的點(diǎn)估計(jì);但作為預(yù)測值僅給出點(diǎn)估計(jì)是不夠的,一般要求給出區(qū)間估計(jì),即給出置信區(qū)間。本節(jié)的重點(diǎn)就是討論α,β,及y的置信區(qū)間。1.
α和β的區(qū)間估計(jì)
我們已經(jīng)證明a和b是α和β的點(diǎn)估計(jì),并求出了它們的方差。因此給出置信區(qū)間就很容易了:β的95%置信區(qū)間為:
這與以前假設(shè)檢驗(yàn)中的置信區(qū)間求法完全一樣。若置信水平為99%,把分位數(shù)相應(yīng)換為t0.995(n-2)即可。
的95%置信區(qū)間為:
這與以前假設(shè)檢驗(yàn)中的置信區(qū)間求法完全一樣。若置信水平為99%,把分位數(shù)相應(yīng)換為t0.995(n-2)即可。
對例5.1中的和給出95%置信區(qū)間
解:從前邊的計(jì)算可知:a=2.6996,b=1.5167,Sxx=90,MSe=1.0568,n=5,查表,得t0.975(3)=3.182
的95%置信區(qū)間為:2.69964.3887,即(-1.6891,7.0883)的95%置信區(qū)間為:1.51670.3448,
即(1.1719,1.8615)
對條件均值Y?X的估計(jì)。
的點(diǎn)估計(jì):區(qū)間估計(jì):首先需求出的方差。
用MSe代替2,可得1?置信區(qū)間為:
注意上述置信區(qū)間的寬度與有關(guān),當(dāng)時(shí),其寬度最小,偏離后,逐漸加大。對一次觀察值y0的估計(jì)
y0的點(diǎn)估計(jì):證明:
y0區(qū)間估計(jì):
由于下一次觀察值y0和以前所有的觀察值yi都是互相獨(dú)立的,而估計(jì)值是從以前的觀察值yi計(jì)算出來的,因此與y0獨(dú)立,從而有:
由于y0和均為正態(tài)分布,它們的差也為正態(tài)分布。用代替后,為t分布,即:
在x=x0處y0的1-置信區(qū)間為:
江蘇武進(jìn)縣測定1959-1964年間3月下旬至4月中旬平均溫度累積值x和一代三化螟蛾盛發(fā)期y的關(guān)系如下表(盛發(fā)期以5月10日為起算日):試作回歸分析。表5.2平均溫度累積值與一代三化螟盛發(fā)期年代195619571958195919601961196219631964累積溫x35.534.131.740.336.840.231.739.244.2盛發(fā)期y12169273139–1解:由原始數(shù)據(jù)算得:Sxx=144.6356,Syy=249.5556,Sxy=–159.0444,
b≈–1.0996,
SSR=bSxy=174.8886
查表,得:F0.95(1,7)=5.591,F0.99(1,7)=12.25,F>F0.99(1,7),
拒絕H0,差異極顯著。即X,Y有極顯著線性關(guān)系。為把上述回歸結(jié)果用于預(yù)報(bào),可給出觀察值y0的95%置信區(qū)間:
查表,得t0.975(7)=2.365,把數(shù)據(jù)代入上式,得:
條件均值的95%置信區(qū)間公式為:
把不同的x0取值代入上述公式,可得置信區(qū)間的數(shù)據(jù)及圖形如下:表5.3一代三化螟盛發(fā)期置信區(qū)間
x0
y0的95%置信區(qū)間y0的95%置信區(qū)間下限上限下限上限3015.610.320.86.224.93213.49.217.54.622.13411.27.914.42.819.5369.06.311.60.817.1386.84.19.4-1.414.9404.61.47.8-3.812.9422.4-1.76.4-6.411.1440.2-5.05.3-9.19.446-2.0-8.34.2-12.07.9一代三化螟盛發(fā)期置信區(qū)間
回歸分析的目的常常是為了預(yù)報(bào)
下一次我們知道了x0的取值后,在觀察前就對y0的取值作出估計(jì)。例如表5.3中的數(shù)據(jù)就是為了預(yù)報(bào)用的,下一年度如果我們知
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 預(yù)防腎絞痛復(fù)發(fā)的護(hù)理方法
- 2025年辦公設(shè)備采購安裝合同協(xié)議
- 倉儲(chǔ)中心建設(shè)與布局管理規(guī)范
- 2026 年中職掘進(jìn)技術(shù)(隧道開挖工藝)試題及答案
- 名著測試題及答案
- 昭通市昭陽區(qū)氣候條件
- 基于深度學(xué)習(xí)的醫(yī)學(xué)影像自動(dòng)修復(fù)
- 醫(yī)院培訓(xùn)課件:《患者保護(hù)性約束使用管理制度》
- 碭山中考地理試卷及答案
- 大樹城堡測試題目及答案
- 林業(yè)和草原局護(hù)林員招聘考試《森林資源管護(hù)》題庫(答案+解析)
- 中華人民共和國職業(yè)分類大典是(專業(yè)職業(yè)分類明細(xì))
- 電子票據(jù)管理辦法醫(yī)院
- 電子承兌支付管理辦法
- 學(xué)堂在線 知識產(chǎn)權(quán)法 章節(jié)測試答案
- 全檢員考試試題及答案
- 提高住院患者圍手術(shù)期健康宣教知曉率品管圈活動(dòng)報(bào)告
- 應(yīng)急救援個(gè)體防護(hù)
- 黨建陣地日常管理制度
- 車間醫(yī)藥箱管理制度
- 食葉草種植可行性報(bào)告
評論
0/150
提交評論