實(shí)驗(yàn)數(shù)據(jù)分析方法_回歸分析.ppt_第1頁
實(shí)驗(yàn)數(shù)據(jù)分析方法_回歸分析.ppt_第2頁
實(shí)驗(yàn)數(shù)據(jù)分析方法_回歸分析.ppt_第3頁
實(shí)驗(yàn)數(shù)據(jù)分析方法_回歸分析.ppt_第4頁
實(shí)驗(yàn)數(shù)據(jù)分析方法_回歸分析.ppt_第5頁
已閱讀5頁,還剩61頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.6,1,第二部分 實(shí)驗(yàn)數(shù)據(jù)的統(tǒng)計(jì)分析 第五章 誤差理論與最小二乘法 第六章 回歸分析 第七章 多變量分析 第八章 功率譜與周期分析,實(shí)驗(yàn)數(shù)據(jù)分析方法,基本理論 + 具體實(shí)例 + 上機(jī)實(shí)習(xí)(課后),實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.6,2,第六章 回歸分析,回歸分析是處理變量與變量之間統(tǒng)計(jì)相關(guān)關(guān)系的一種數(shù)理統(tǒng)計(jì)方法。在觀測天文學(xué)中,它是最基本的、被頻繁使用的統(tǒng)計(jì)工具。 變量間的統(tǒng)計(jì)相關(guān)關(guān)系是指變量間的關(guān)系是非確定性的。例如,某一天的氣溫與氣壓的關(guān)系;星系中氫含量與色指數(shù)、光度的關(guān)系;太陽耀斑與黑子相對(duì)數(shù)、某波段太陽射電輻射流量等因素的關(guān)系等。造成變量間關(guān)系的不確定性的原因通

2、常有兩個(gè)方面:一是,在影響一個(gè)量的眾多因素中,有些是屬于人們尚未認(rèn)識(shí)或掌握的;另一個(gè)原因是,與所用儀器的精度或觀測條件有關(guān)的觀測誤差及其它隨機(jī)因素的影響。但人們也發(fā)現(xiàn),只要對(duì)這種存在不確定性關(guān)系的變量進(jìn)行大量觀測或?qū)嶒?yàn),就可能會(huì)找到它們蘊(yùn)藏的內(nèi)在規(guī)律。也就是說,在一定條件下,從統(tǒng)計(jì)的意義上來說,它們又可能存在某種確定的關(guān)系。通常,把變量之間這種不完全確定的關(guān)系稱為統(tǒng)計(jì)相關(guān)關(guān)系。,實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.6,3,雖然統(tǒng)計(jì)相關(guān)關(guān)系和函數(shù)關(guān)系(變量間的關(guān)系完全是確定的)是兩種不同類型的變量關(guān)系,但它們之間也不是一成不變的:一方面,在理論上有函數(shù)關(guān)系的幾個(gè)變量由于觀測誤差的影響,每次測得變量的數(shù)值

3、之間并不是準(zhǔn)確的滿足這種函數(shù)關(guān)系,造成某種不確定性;另一方面,當(dāng)人們對(duì)事物的規(guī)律性了解得更加深入時(shí),相關(guān)關(guān)系又可能轉(zhuǎn)化為函數(shù)關(guān)系。事實(shí)上,自然科學(xué)中的許多定理、公式正是通過對(duì)研究對(duì)象的大量觀測數(shù)據(jù)的分析處理,通過總結(jié)和提高得到的。 回歸分析就是利用大量的觀測數(shù)據(jù)來確定變量間的相關(guān)關(guān)系的一種數(shù)學(xué)方法。在觀測天文學(xué)中,回歸分析常被用來定量描述某一研究對(duì)象兩個(gè)特征量之間的顯式關(guān)系;校準(zhǔn)和量化對(duì)宇宙大尺度結(jié)構(gòu)研究極其重要的“宇宙距離尺度”;在激光測月的資料處理中,回歸分析也起了很重要的作用。,實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.6,4,總的來說,回歸分析所要解決的主要問題是: 1、從一組數(shù)據(jù)出發(fā),確定這些變量

4、之間的數(shù)學(xué)表達(dá)式回歸方程或經(jīng)驗(yàn)公式; 2、對(duì)回歸方程的可信程度進(jìn)行統(tǒng)計(jì)檢驗(yàn); 3、進(jìn)行因素分析,例如從對(duì)共同影響一個(gè)變量的許多變量(因素)中,找出哪些是重要因素、哪些是次要因素。,實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.6,5,在許多情況下,兩個(gè)變量之間的相關(guān)關(guān)系呈線性關(guān)系,它是統(tǒng)計(jì)相關(guān)關(guān)系中最簡單的一種,也是天文上實(shí)際問題中最常見的情況。我們的目的則是要找出能描述這兩個(gè)變量之間的線性相關(guān)關(guān)系的定量表達(dá)式。 對(duì)于兩個(gè)大致成線性關(guān)系的變量y和x,通常用如下的回歸模型來描述它們之間的線性相關(guān)關(guān)系:,6.1 一元線性回歸,6.1.1 一元線性回歸模型及參數(shù)估計(jì),式中,x稱為自變量或預(yù)測變量,y為因變量,0,為待

5、定的模型參數(shù), 是隨機(jī)誤差項(xiàng),它表示除自變量x以外的隨機(jī)因素對(duì)因變量y影響的總和。,實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.6,6,設(shè)由觀測得到y(tǒng),x的N組數(shù)據(jù)(yk,xk),k1N,代人上式得: 對(duì)誤差項(xiàng)k,規(guī)定E(k)0,2(k)=2,當(dāng)kj時(shí),k與j不相關(guān),即協(xié)方差cov(k,j)0。 鑒于對(duì)隨機(jī)誤差項(xiàng)k的上述規(guī)定,不難得知因變量yk是隨機(jī)變量,它們都來自均值E(yk)0+xk 。方差為2的概率分布,且任何兩個(gè)觀測值之間是互不相關(guān)的。 上面我們對(duì)k的分布沒有作任何規(guī)定,無論k具有什么樣的分布函數(shù),我們都可以使用最小二乘法求得參數(shù)0,的估計(jì)值。但是在進(jìn)行區(qū)間估計(jì)和檢驗(yàn)時(shí),需要對(duì)k的分布函數(shù)的形式作出假

6、設(shè),通常的假設(shè)是誤差項(xiàng)kN (0,2),即k服從均值為0、方差為2的正態(tài)分布。因?yàn)檎`差項(xiàng)通常代表模型中略去的許多因素的影響,這些因素在一定范圍內(nèi)影響因變量取值,并且隨機(jī)的變化:依中心極限定理,它們近似服從正態(tài)分布。,實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.6,7,當(dāng)假設(shè)誤差項(xiàng)k為正態(tài)分布時(shí),上述模型被稱為正態(tài)誤差回歸模型。下圖給出了正態(tài)誤差回歸模型的圖示: 對(duì)于形如前式的模型,回歸分析的任務(wù)是找到回歸參數(shù)0, 的“好”的估計(jì)量,從而得到一條最能描述y和x關(guān)系的回歸直線(見上圖中的直線),它的方程可表為:,式中b0,b 為參數(shù)0, 的估計(jì)值,yk為y的回歸值。,實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.6,8,下面我們利

7、用最小二乘準(zhǔn)則給出b0,b 的計(jì)算公式: 由最小二乘原理,b0, b應(yīng)該是滿足殘差 平方和最小的解,記 則利用Qmin可得正規(guī)方程組: 解之可得:,實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.6,9,其中 在給定參數(shù)估計(jì)值b, b0后,可得到相應(yīng)的回歸方程(或回歸函數(shù))為: 由于yk是均值為 方差為2的隨機(jī)變量,對(duì)上述正規(guī)方程組及其解的形式稍加改變,并利用概率統(tǒng)計(jì)知識(shí),可以得到:,這表明回歸參數(shù)的最小二乘估計(jì)是無偏估計(jì),它們的方差和隨機(jī)變量的方差2,觀測數(shù)據(jù)的個(gè)數(shù)N及自變量的取值范圍的大小有關(guān);在相同2的條件下,觀測次數(shù)越多,自變量取值范圍越大,估計(jì)值的方差就越小。,實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.6,10,在前

8、一小節(jié)中,我們在兩個(gè)變量大致成線性關(guān)系的假定下,利用最小二乘法得到了描述這兩個(gè)變量相關(guān)關(guān)系的回歸直線方程。就這種數(shù)學(xué)方法本身而言,可以不加任何條件的約束:對(duì)任一組數(shù)據(jù)(xk,yk),k1-N,都可由回歸方程組求出一組b0,b, 從而得到一條回歸直線。但并非對(duì)每一組數(shù)據(jù)配的回歸直線都有實(shí)際意義:例如對(duì)平面上分布完全雜亂無章的散點(diǎn)所配的直線就毫無意義。因此,通常在求得直線回歸方程以后必須進(jìn)行檢驗(yàn),判別所配直線是否有實(shí)際意義。如果檢驗(yàn)結(jié)果回歸方程是顯著的,則表明所配回歸直線揭示了因變量y與自變量x之間有較強(qiáng)的線性相關(guān)性;如果檢驗(yàn)結(jié)果回歸方程不顯著,則表明所配回歸直線沒有實(shí)際意義。 衡量回歸效果好壞的

9、標(biāo)準(zhǔn),6.1.2 回歸方程的顯著性檢驗(yàn),在回歸分析中,通常把因變量y看作為隨機(jī)變量,并稱某一次觀測的實(shí)際觀測值yk與它的平均值 的差 為離差,N次觀測的離差平方和稱為總平方和,用lyy表示,即:,實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.6,11,將總平方和進(jìn)行分解,有: 上式右邊第一項(xiàng)是觀測值與回歸值之差的平方和,也就是殘差平方和,有時(shí)也稱它為剩余平方和,用Q表示。Q又可表為: 它是除了x對(duì)y的線性影響之外的一切因素(包括x對(duì)y的非線性影響)對(duì)y值變化的影響。 上式右邊第二項(xiàng)是回歸值與平均值 之差的平方和,我們稱它為回歸平方和,并記為U:, 可以看出,回歸平方和U是由于x的變化而引起的。因此U反映了在y的

10、總的變化中由于x和y的線性關(guān)系而引起的y的變化部分。 這樣我們就把引起因變量y變化的兩方面原因從數(shù)量上分開了。,實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.6,12,即,從回歸平方和U和剩余平方和Q的意義很易說明,回歸效果的好壞取決于U和Q的大小。下面我們從假設(shè)檢驗(yàn)的角度來給出衡量回歸效果好壞或判別回歸方程顯著與否的標(biāo)準(zhǔn)。,(一) F檢驗(yàn)法,假設(shè)檢驗(yàn)必須要給出原假設(shè),在討論兩個(gè)變量之間是否有線性關(guān)系時(shí),主要就是要檢驗(yàn)?zāi)P椭心P蛥?shù)是否為零:如果0,則兩個(gè)變量之間無線性關(guān)系。因此,我們把“0”作為檢驗(yàn)的原假設(shè)H0。 有了原假設(shè)后就要構(gòu)造一個(gè)統(tǒng)計(jì)量,這個(gè)統(tǒng)計(jì)量必須滿足三個(gè)條件:(1) 能用樣本值計(jì)算得到;(2)

11、和原假設(shè)有關(guān);(3) 已知這個(gè)統(tǒng)計(jì)量的分布。根據(jù)這三個(gè)條件,統(tǒng)計(jì)量應(yīng)該從反映y變化的回歸平方和及剩余平方和中去找。利用正交線性變換可以證明:總平方和、回歸平方和、剩余平方和都是變量2,且有:,實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.6,13,并且,當(dāng)O成立時(shí)回歸平方和與剩余平方和是相互獨(dú)立的。故構(gòu)成如下的統(tǒng)計(jì)量: 因總平方和lyy的自由度F總FU +FQ ,所以統(tǒng)計(jì)量F是服從第一自由度為l,第二自由度為N2的F分布。,確定了統(tǒng)計(jì)量F的分布以后,對(duì)給定的顯著水平(0.01,0.05,0.1),由F分布表查出置信限F(1,N-2):這意味著p(FF(1,N-2)1-,而FF(1,N-2)是否定域。因此,如果由

12、樣本算出的統(tǒng)計(jì)量FF(1,N-2),說明原假設(shè)H0不成立,我們則稱回歸直線方程是顯著的:且對(duì)于FF0.01(1,N-2)的情況屬于高度顯著,對(duì)FF0.05(1,N-2)的情況,稱為在0.05水平上顯著,對(duì)F F0.1(1,N-2)的情況是在0.1水平上顯著。當(dāng)FF(1,N-2)時(shí),則稱回歸方程在水平上不顯著,表明所求得回歸直線沒有實(shí)際意義。這種檢驗(yàn)方法就稱為F檢驗(yàn)法。在統(tǒng)計(jì)學(xué)中,也通常把上面的檢驗(yàn)過程稱為方差分析。,( ),實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.6,14,F檢驗(yàn)的步驟可歸納如下: (1) 建立原假設(shè)H0: 0。 (2) 確定統(tǒng)計(jì)量 ,確定其分布 (3) 給定顯著水平, 由分布表查得置信限

13、: F(1,N-2) (4) 由樣本計(jì)算統(tǒng)計(jì)量F, (5) 作出顯著性判斷:若FF(1,N-2),則回歸方程顯著;若FF(1,N-2),則回歸方程不顯著,例 試?yán)?0個(gè)B型旋渦星系SD的氫含量(MHMT)、色指數(shù)(BV)0的資料,求出它們之間的回歸關(guān)系,并檢驗(yàn)回歸結(jié)果是否顯著。(見書P125),實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.6,15,回歸平方和U反映了在y的總變化中由于x與y的線性關(guān)系而引起的部分。因此,可以用U在總平方和lyy中所占的比例大小來衡量回歸效果好壞通常,用r2表示比值Ulyy,并稱 為x與y的相關(guān)系數(shù)。,(二) 相關(guān)系數(shù)檢驗(yàn)法,由r的定義可知rl。當(dāng)r的絕對(duì)值較大時(shí),說明y與x的

14、線性相關(guān)較密切;r的絕對(duì)值較小時(shí),說明y與x的線性相關(guān)程度較弱,這時(shí)散點(diǎn)離回歸直線較分散;當(dāng)r1時(shí),所有的點(diǎn)都在回歸直線上,表示y與x完全線性相關(guān);而當(dāng)r0時(shí),則表示y與x毫無線性關(guān)系。下圖顯示了不同線性相關(guān)系數(shù)散點(diǎn)的分布情況。,實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.6,16,實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.6,17,從上面的討論看出,相關(guān)系數(shù)r可用來衡量兩變量之間線性相關(guān)的密切程度。但在一個(gè)具體問題中,r應(yīng)大到什么程度才能認(rèn)為它們之間確實(shí)存在線性相關(guān)關(guān)系,方可用一條回歸直線來表示? 這需要規(guī)定一個(gè)指標(biāo),作為鑒定回歸方程是否有效的標(biāo)準(zhǔn):當(dāng)實(shí)際計(jì)算的相關(guān)系數(shù)r達(dá)到或超過該指標(biāo)時(shí),就認(rèn)為r顯著。為此,應(yīng)建立相關(guān)

15、系數(shù)的顯著性檢驗(yàn)方法,并列出在各個(gè)顯著水平下,由相關(guān)系數(shù)的概率分布計(jì)算得到的相關(guān)系數(shù)檢驗(yàn)表:表中是顯著水平,N為觀測數(shù)據(jù)個(gè)數(shù)。對(duì)于某一和N,可在表中查得相應(yīng)的相關(guān)系數(shù)r達(dá)到顯著的最小值r。如由觀測數(shù)據(jù)算出的rr,則認(rèn)為相關(guān)系數(shù)在水平上顯著,這時(shí)就認(rèn)為對(duì)x和y所配的回歸直線有意義;反之,若相關(guān)系數(shù)不顯著,對(duì)x和y所配的回歸直線就沒有實(shí)際意義。例如,樣本個(gè)數(shù)N 30,對(duì)0.05由N-228,查得r0.36l:若由樣本算得r0.361,則說明它在0.05的水平上顯著;但若r0.463 (r0.01) 則說明它在0.0l水平上不顯著。越小,顯著程度越高。,可以證明,相關(guān)系數(shù)顯著性檢驗(yàn)和回歸方程F檢驗(yàn)是

16、完全等價(jià)的。,實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.6,18,實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.6,19,對(duì)回歸方程的顯著性檢驗(yàn)實(shí)際上是對(duì)回歸模型的檢驗(yàn)。在這一小節(jié)中,我們進(jìn)一步對(duì)回歸系數(shù)及回歸值的精度進(jìn)行討論,即給出它們的置信區(qū)間,這對(duì)了解利用回歸方程進(jìn)行預(yù)測的精度很有實(shí)際意義。,6.1.3 回歸系數(shù)和回歸值的估計(jì)精度,(一) 回歸系數(shù)的置信區(qū)間,由回歸系數(shù)的估計(jì)值b的計(jì)算公式,在k為正態(tài)分布的假定下,我們可以得到 故有:,利用參數(shù)的區(qū)間估計(jì)的基本原理可得的區(qū)間估計(jì)為,實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.6,20,或說估計(jì)量b的精度為 這里N為正態(tài)分布位數(shù),由正態(tài)分布表查得,2為誤差項(xiàng)的方差。 一般情況下,2是未知

17、的,常使用它的無偏估計(jì)量剩余均方差來代替,即: 這時(shí)有 相應(yīng)的區(qū)間估計(jì)為 在得到回歸方程以后,對(duì)于任一給定的自變量xi,回歸值就是實(shí)際值的估值。但由于參數(shù)估值b0,b是隨機(jī)變量,因此因變量yi的估值是有誤差的。下面我們推出這個(gè)估計(jì)值的精度公式,進(jìn)而討論利用回歸方程進(jìn)行預(yù)測的問題。,1/2,1/2,yy,yy,(二) 回歸值的置信區(qū)間,實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.6,21,定義殘差i為實(shí)際值yi與回歸值之差,有: 及:,實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.6,22,若用代替i,用x代替xi,則 這表明,回歸值對(duì)實(shí)際值的偏離 和隨機(jī)誤差項(xiàng)的方差2、觀測數(shù)據(jù)量及觀測點(diǎn)x與x的偏離有關(guān),N越大,x越靠近x,相

18、應(yīng)殘差的方差就越小。 由于 , y均屬于正態(tài)分布,所以也屬正態(tài)分布,由前式可得: 于是,對(duì)于給定的顯著水平,利用概率統(tǒng)計(jì)知識(shí)可得: 式中,實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.6,23,則得y的置信區(qū)間或置信帶為: 根據(jù)正態(tài)分布理論,y將以 99.7%概率落在區(qū)間3N內(nèi);95.4%概率落在區(qū)間2N內(nèi);68.3%概率落在區(qū)間N內(nèi)。,y的置信帶的示意圖,實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.6,24,由上圖不難看出,對(duì)于某一自變量x0,因變量的取值是以 為中心對(duì)稱分布的,分布的范圍由N的大小決定。由于一般情況2是未知的,若用它的無偏估計(jì)代替,則得回歸的誤差為: 當(dāng)N較大,且x靠近 時(shí),有: 這時(shí)估計(jì)值 的誤差僅由剩余

19、均方差 決定,故而通常將剩余的均方差Sy2作為衡量回歸方程精度的指標(biāo)。,預(yù)測問題與回歸方程的誤差問題是密切聯(lián)系的:對(duì)觀測數(shù)據(jù)以外的任一給定的自變量xo,相應(yīng)的因變量可由回歸方程 得到。根據(jù)回歸方程的誤差范圍可知, 是預(yù)測的最佳值,而回歸方程的誤差范圍也就是預(yù)測值的誤差范圍:N愈大,且靠近自變量的平均值 附近時(shí), ,預(yù)測的精度就愈高。這說明,回歸方程的適用范圍一般僅局限于原來觀測數(shù)據(jù)范圍,即適用于用來進(jìn)行所缺數(shù)據(jù)的補(bǔ)插,而超出這個(gè)范圍時(shí)預(yù)測精度就較差。,實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.6,25,一元回歸模型有以下幾個(gè)基本假定: 1) 變量間真正的關(guān)系是線性的; 2) 因變量y是隨機(jī)變量,x是自變量并

20、不包含誤差; 3) 隨機(jī)誤差項(xiàng)為零均值、同方差; 4) 因變量觀測值是相互獨(dú)立的。 當(dāng)這些假定中的任一個(gè)不滿足時(shí),所得回歸方程就不是嚴(yán)格有效的。,6.1.4 一元線性回歸及其在天文上的應(yīng)用,控制是預(yù)測的逆問題。要求因變量y在某區(qū)間(y1,y2)內(nèi)取值時(shí),則應(yīng)把自變量x控制在什么范圍內(nèi)? 也就是要求相應(yīng)的(x1,x2),使x1xx2時(shí),相應(yīng)的y至少以1-的置信水平落在區(qū)間(y1,y2)內(nèi)。,實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.6,26,例如在哈勃圖中,一個(gè)星系樣本可能具有精度為0.1的星等測量誤差和精度為0.001的紅移測量誤差,但不同星系本身的光度和非哈勃運(yùn)動(dòng)可能導(dǎo)致大于星等測量不確定度一個(gè)量級(jí)的彌散

21、!又如,觀測數(shù)據(jù)也具有各種各樣的特性,有的可能是正態(tài)分布,有的則非正態(tài),有的又是異方差的;離散的程度有的只依賴于一個(gè)變量,有的則依賴于兩個(gè)甚至多個(gè)變量!另外,回歸分析的目的也不總是相同:有的是需要最佳的斜率估計(jì),而有的則是利用回歸方程進(jìn)行預(yù)測。鑒于上述這些情況,對(duì)具有線性統(tǒng)計(jì)相關(guān)關(guān)系的兩個(gè)變量總用基于因變量y的殘差平方和最小的一元回歸方法得到回歸結(jié)果并不是最佳的,反之有時(shí)甚至是錯(cuò)誤的!,在實(shí)際應(yīng)用中,由于多種原因這些假定不一定都滿足。觀測天文學(xué)中最常見的是:x通常也是觀測量,它是有誤差的,因此兩個(gè)變量所處的位置是對(duì)稱的,不能明確指定哪個(gè)是因變量哪個(gè)是自變量;另外,數(shù)據(jù)的內(nèi)稟離散和觀測誤差相比占

22、了很大的比例,亦即我們在前面提到過的除了觀測誤差之外,兩個(gè)變量間關(guān)系本身的不確定性較突出。,實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.6,27,正因?yàn)槿绱?,?9世紀(jì)就已問世的線性回歸方法的統(tǒng)計(jì)研究在目前仍十分活躍。除了提出一些非最小二乘線性回歸,如穩(wěn)健回歸和對(duì)于多變量問題的貝葉斯回歸外,還提出了好幾種最小二乘線性回歸方法。 90年代初期,美國天文學(xué)家Isobe OLS(|L): 5.40.8; OLS平分線: 3.40.4; RMA: 3.60.4和OR:5.20.8。這個(gè)結(jié)果表明關(guān)于距離和星系形成模型的結(jié)論明顯依賴于所采用的回歸方法,而五種回歸線之間的離差大于任何一種估計(jì)的方差!,實(shí)驗(yàn)數(shù)據(jù)分析方法_Ch

23、ap.6,30,1. OLS(Y | X ) 2. OLS(X |Y ),3. OLS 平分線 (點(diǎn)虛線) 4. OR (虛線) 5. RMA (點(diǎn)線),實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.6,31,為了說明各種回歸方法的特性和它們的適用性,可以利用模擬試驗(yàn)。即對(duì)具有均值為零、且有不同的標(biāo)準(zhǔn)偏差x,y和不同的相關(guān)系數(shù)模擬出二維正態(tài)分布的數(shù)據(jù)點(diǎn),然后應(yīng)用五種回歸方法,得到各自的回歸系數(shù)及相應(yīng)的方差。 試驗(yàn)結(jié)果表明,五種方法給出的回歸系數(shù)相互間是不同的,它們并不是同一量的不同估計(jì)。只有在1這個(gè)特殊情況下,所有五種回歸的斜率才是相同的。對(duì)于0。當(dāng)xy時(shí), 有3451。另外,模擬試驗(yàn)表明,正交回歸斜率的不確定

24、度比其它方法要大,故一般情況它只能用于無量綱變量間的擬合;又如對(duì)觀測值取對(duì)數(shù)的情況,簡化主軸回歸的斜率和相關(guān)系數(shù)無關(guān),因此在討論X和Y的基本關(guān)系時(shí),使用這種方法是無助的。模擬結(jié)果還指出,對(duì)于足夠大的N(觀測點(diǎn))和相關(guān)系數(shù),所有方法斜率方差正確反映了斜率系數(shù)的彌散,但對(duì)于小的N和,得到的方差估計(jì)都偏小。,實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.6,32,根據(jù)最近幾年一些天文學(xué)家和其它領(lǐng)域的科學(xué)家對(duì)這五種回歸的應(yīng)用研究,可以得到如下幾點(diǎn)結(jié)論: (1) 如果觀測數(shù)據(jù)的散布基本上是由于測量過程造成的,并且測量誤差已知,那么一般采用前面介紹的常規(guī)的一元線性回歸。而這里介紹的五種回歸方法主要是針對(duì)數(shù)據(jù)點(diǎn)的散布是由未知

25、的變化引起的情況; (2) 一般來說,人們可以先對(duì)給定數(shù)據(jù)點(diǎn)擬合所有五條回歸線,如果各條線之間的差異并不大于任何一條回歸線的誤差,那么回歸方法的選擇就不會(huì)嚴(yán)重影響結(jié)果。在這種情況下,通常使用OLS(Y | X)回歸,因?yàn)樗唵蚊髁耍?(3) 如果我們研究的問題是這樣的情況,即兩個(gè)變量中一個(gè)變量明顯是因變量,另一個(gè)是原因變量,那么亦應(yīng)利用OLS(Y | X),這里X是原因變量。如果我們的問題是從另一個(gè)變量的測量值來預(yù)測一個(gè)變量的值,則也應(yīng)使用OLS(Y | X)回歸,這里Y是被預(yù)測的變量。后一種情況在宇宙距離尺度應(yīng)用中普遍存在,因?yàn)樘煳膶W(xué)家常常需要從一些已知距離的樣本中產(chǎn)生的一條線性回歸線來預(yù)測

26、另外某一天體的距離。 (4) 如果研究目的是了解變量間的基本關(guān)系,那么處理對(duì)稱變量的三種回歸方法(OLS平分線,OR方法和RMA方法)都可以使用,但普遍認(rèn)為OLS平分線方法是值得推薦的。,實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.6,33,在許多實(shí)際問題中,兩個(gè)變量之間的關(guān)系并不是線性相關(guān)關(guān)系,而是某種曲線相關(guān)關(guān)系。例如,大多數(shù)新星在亮度下降階段光度和時(shí)間的關(guān)系;恒星的光譜型和光度的關(guān)系(即恒星赫羅圖)。這時(shí),選擇適當(dāng)?shù)那€來表征它們之間的關(guān)系比直線更符合實(shí)際情況,或者說能得到更好的回歸效果。 曲線回歸分析包括三個(gè)內(nèi)容:一是確定曲線回歸方程的類型:二是確定曲線回歸方程中的參數(shù);三是回歸效果的檢驗(yàn)。,6.1.

27、5 曲線回歸分析,(一) 曲線回歸類型的確定,實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.6,34,為了確定兩個(gè)變量之間的曲線關(guān)系類型,常采用兩種方法。 一種方法是利用觀測數(shù)據(jù)的散點(diǎn)圖,根據(jù)散點(diǎn)圖的分布形狀和特點(diǎn),對(duì)比各種函數(shù)形式已知的標(biāo)準(zhǔn)曲線的圖形,把與散點(diǎn)圖分布最接近的標(biāo)準(zhǔn)曲線作為觀測數(shù)據(jù)所屬的回歸方程的類型。,實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.6,35,另一種方法是采用多項(xiàng)式回歸。有時(shí)觀測數(shù)據(jù)的散點(diǎn)圖呈現(xiàn)的趨勢較為復(fù)雜,難以用一條已知合適的曲線類型去擬合它們,這時(shí)可用自變量x的m次多項(xiàng)式: 作為描述變量y和x關(guān)系的回歸模型,即多項(xiàng)式回歸。因此多項(xiàng)式可用來擬合相當(dāng)廣泛的一類曲線,其中二次多項(xiàng)式即二次曲線回歸是最

28、常用的一種類型。在多項(xiàng)式回歸中,多項(xiàng)式次數(shù)m的選擇也是一個(gè)很重要的問題,但在實(shí)際應(yīng)用中往往并不能確知m等于多少,通常是采用統(tǒng)計(jì)檢驗(yàn)的方法。 關(guān)于兩個(gè)變量間的曲線回歸類型的確定,有一點(diǎn)需要說明的是,所確定的類型均可通過變量代換轉(zhuǎn)化為一元線性回歸來處理。,實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.6,36,曲線回歸類型確定以后,可采用變量變換的方法將曲線模型轉(zhuǎn)化一元線性回歸模型,然后利用前面介紹過的解一元線性回歸的方法求解,得到一元線性回歸參數(shù),最后再進(jìn)行變量的逆變換得到曲線回歸參數(shù)以及曲線回歸值。 例如,對(duì)y和x關(guān)系確定的曲線類型為 作變量代換 則上面的曲線類型可轉(zhuǎn)化為直線關(guān)系: 引進(jìn)隨機(jī)誤差項(xiàng)得到一元線性回

29、歸模型:,(二) 回歸參數(shù)的確定,利用一元線性回歸分析,由N組觀測值(xk,yk)可以解得回歸參數(shù) , 的估計(jì)值 ,利用變量代換關(guān)系可以得到曲線回歸參數(shù)的估值: 及曲線回歸值:,+,實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.6,37,為了檢驗(yàn)對(duì)兩個(gè)變量的非線性關(guān)系所配曲線的適宜性,我們給出兩個(gè)指標(biāo):相關(guān)指數(shù)和剩余標(biāo)準(zhǔn)差。在曲線回歸中,亦用類似于上文中定義的相關(guān)系數(shù)r來衡量所配曲線效果的好壞,即: 并稱它為相關(guān)指數(shù),式中 為曲線回歸值, 為因變量觀測值的平均值。一般來說,R越接近于1,表明所配曲線的效果越好;另外,剩余標(biāo)準(zhǔn)差 亦可以用來衡量所配的效果,Sy越小,表明所配曲線精度越高。 在選擇曲線類型時(shí),有時(shí)很

30、難一下確定,這時(shí)可同時(shí)選擇兩種或兩種以上曲線類型進(jìn)行曲線回歸,然后進(jìn)行比較。選取相關(guān)指數(shù)較大或剩余標(biāo)準(zhǔn)差較小者為最佳的曲線類型。,(三) 一元曲線回歸的有效性檢驗(yàn),實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.6,38,課后練習(xí)(5月9日交),測量某導(dǎo)線在一定溫度x下的電阻值y得到如下結(jié)果: 請(qǐng)采用一元線性回歸找出y與x間關(guān)系的表達(dá)式,畫出散點(diǎn)與回歸線圖,并用相關(guān)系數(shù)檢驗(yàn)其顯著性,實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.6,39,在相當(dāng)多的實(shí)際問題中,影響因變量的因素有很多,例如。太陽耀斑可能和一群黑子面積、半球面黑子相對(duì)數(shù)、日面綜合譜斑指數(shù)、某波段太陽射電輻射流量等10多個(gè)因素有關(guān);激光測月觀測中,時(shí)延的觀測值與理論值之

31、差可能和望遠(yuǎn)鏡位置坐標(biāo)、月球反射器位置坐標(biāo)、月球和地球軌道參數(shù)等40多個(gè)參數(shù)采用值有關(guān)。為此,需要用多元回歸來描述它們之間的統(tǒng)計(jì)相關(guān)關(guān)系。另外,我們在前面提到的多項(xiàng)式回歸,最后也必須轉(zhuǎn)化為多元線性回歸問題.,6.3 多元線性回歸,實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.6,40,在研究因變量y與多個(gè)自變量xi之間的統(tǒng)計(jì)關(guān)系時(shí),常常利用多元線性回歸模型: 式中i ( i0m)稱為y對(duì)xi的回歸系數(shù),為正態(tài)隨機(jī)變量。上式表示了多維空間的一個(gè)“超平面”. 和一元回歸類似,多元線性回歸就是要利用N組觀測數(shù)據(jù): ,根據(jù)最小二乘法,對(duì)模型參數(shù)作出估計(jì)。 設(shè)b0, b1, . bm為參數(shù)0, 1, . m的最小二乘估計(jì)

32、,則所得回歸方程應(yīng)為,6.3.1 多元線性回歸方程的求解,實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.6,41,由最小二乘原理,估計(jì)值b0, b1, . bm 應(yīng)使剩余平方和最?。?由極值定理,將Q分別對(duì)i ( i 0 m)求偏導(dǎo)數(shù),并令它們?yōu)榱?,則得到b0, b1, . bm所滿足的方程組: 又, 式中:,實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.6,42,常稱lij為協(xié)方差,上頁之線性方程組被稱為正規(guī)方程組。解此方程組就可以求得各回歸系數(shù)bi (i1 m),再由此求得常數(shù)項(xiàng)b0 。為了方便,通常用矩陣形式表示上述正規(guī)方程組:令: 則正規(guī)方程組可表為: LB = Ly 線性方程組的解法很多,一般的情況可用消元法,或求逆陣

33、法。在多元回歸分析中,正規(guī)方程組的系數(shù)矩陣的逆陣有其特殊的作用,因此常用求逆矩陣的方法。 不難看出,L為對(duì)稱陣,其逆矩陣用C表示,即: C = L-1 = (Cij),實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.6,43,則正規(guī)方程組有唯一解,并可表為:B = CLy 或:,在多元回歸中,由于各自變量的量綱往往是不一致的,這會(huì)使正規(guī)方程中各系數(shù)之間產(chǎn)生較大差異,影響了求解精度。如果我們采用標(biāo)準(zhǔn)化回歸模型,則可在一定程度上避免這方面誤差的影響。另外。從最后得到的標(biāo)準(zhǔn)回歸系數(shù)的大小,可以觀察各自變量對(duì)因變量關(guān)系的密切程度。 所謂標(biāo)準(zhǔn)化模型,就是將原來的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化變換,而對(duì)變換后的數(shù)據(jù)建立的回歸模型。將原觀測數(shù)

34、據(jù)作如下的標(biāo)準(zhǔn)化變換: 其中:,實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.6,44,則得到標(biāo)準(zhǔn)化數(shù)據(jù): 處理標(biāo)準(zhǔn)化數(shù)據(jù)還有很多方便之處:因?yàn)橛蓸?biāo)準(zhǔn)化變換定義式不難得到: 對(duì)標(biāo)準(zhǔn)化數(shù)據(jù)仍用最小二乘法可得一組新的正規(guī)方程組: 式中: b為標(biāo)準(zhǔn)化回歸系數(shù),記,實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.6,45,則得到標(biāo)準(zhǔn)化正規(guī)方程組: 通常,定義rij為自變量xi與xj的簡單相關(guān)系數(shù)。而由它們構(gòu)成的矩陣稱為相關(guān)陣,用R表示,即: 并用C表示R的逆陣;Ry表示列 向量,rjy(j1 m);B表示標(biāo)準(zhǔn) 化回歸系數(shù)的列向量,即:,實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.6,46,則上頁之標(biāo)準(zhǔn)化正規(guī)方程組可寫成 解此方程組,得標(biāo)準(zhǔn)回歸系數(shù): 即:

35、 由推導(dǎo)可知 ,故得標(biāo)準(zhǔn)化正規(guī)方程: 同時(shí)可得標(biāo)準(zhǔn)回歸系數(shù)與實(shí)際回歸系數(shù)之間的轉(zhuǎn)換關(guān)系: 利用這個(gè)關(guān)系最后可把標(biāo)準(zhǔn)回歸系數(shù)化回到實(shí)際回歸系數(shù)。,實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.6,47,和一元回歸分析一樣,對(duì)于給定的一組觀測數(shù)據(jù),總可以利用多元線性回歸模型按最小二乘原理配一個(gè)回歸超平面。但這個(gè)回歸超平面是否有實(shí)際意義,則需要通過顯著性檢驗(yàn)才能作出判斷。多元回歸的顯著性檢驗(yàn),包括對(duì)總的回歸效果的檢驗(yàn)及對(duì)每個(gè)自變量的回歸系數(shù)的檢驗(yàn)兩個(gè)方面。,6.3.2 多元線性回歸的顯著性檢驗(yàn),(一) 回歸方程的顯著性檢驗(yàn),多元線性回歸的顯著性檢驗(yàn)又稱多元回歸的方差分析,和一元回歸的檢驗(yàn)類似。我們?nèi)匀焕眉僭O(shè)檢驗(yàn),并

36、用全部回歸系數(shù)均不為“0”的假設(shè)的對(duì)立假設(shè)為原假設(shè)。即:,實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.6,48,通過將總平方和進(jìn)行分解,確定檢驗(yàn)用的統(tǒng)計(jì)量及其分布,然后對(duì)給定的顯著水平確定置信限,將它和由觀測資料算得的統(tǒng)計(jì)量進(jìn)行比較,從而作出對(duì)原假設(shè)接受與否的判斷。在多元情況,我們?nèi)匀欢x: 總平方和 回歸平方和 剩余平方和,原假設(shè)H0成立的條件下,U 2(m),Q 2(Nm1),且U和Q相互獨(dú)立。于是,統(tǒng)計(jì)量 服從第一自由度為m,第二自由 度為Nm1的F分布。,實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.6,49,對(duì)于給定的顯著水平, 由F分布表可查得置信限F(m,Nm1),當(dāng)由樣本值算出的FF(m,Nm1)時(shí),拒絕原假設(shè)

37、,也就是說,對(duì)這組數(shù)據(jù)用模型擬合得到的回歸方程可以接受,且稱它為顯著的;如若FF(m,Nm1), 則說所得的回歸方程不顯著。,和一元回歸類似,多元回歸方程的顯著性檢驗(yàn)也可以應(yīng)用相關(guān)系數(shù)檢驗(yàn)法。定義:,為y與各個(gè)自變量xi( i1 m)的復(fù)(或全)相關(guān)系數(shù)。R的大小在一定的程度上反映了y與這些變量之間的密切程度:R越大表明y與這些變量之間的線性關(guān)系越密切;反之則表示這種線性關(guān)系不密切。但是必須提出,我們不能單純從R的大小來評(píng)定回歸效果的好壞,因?yàn)镽的大小還與自變量個(gè)數(shù)m及觀測組數(shù)N有關(guān)。,實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.6,50,因此,必須將算得的R與和F等價(jià)的相關(guān)系數(shù)臨界值R進(jìn)行比較來決定,具體方

38、法和一元回歸的情況也相同。由R的定義式可以得到關(guān)系式:,(二) 回歸系數(shù)的顯著性檢驗(yàn),在多元回歸中,我們并不只滿足于回歸方程是顯著的這個(gè)結(jié)論。因?yàn)榛貧w方程顯著只是拒絕了“回歸系數(shù)全部為0”這一假設(shè),但這并不意味著每個(gè)自變量對(duì)因變量y的影響都是重要的;即可能其中的某些回歸系數(shù)為或接近零。我們總是希望在線性回歸方程中包含與y有顯著關(guān)系的那些變量,不包含那些次要的、可有可無的變量。因此對(duì)于多元回歸來說,除了進(jìn)行回歸方程的顯著性檢驗(yàn)以外,還必須對(duì)每個(gè)變量相應(yīng)的回歸系數(shù)進(jìn)行檢驗(yàn)。,實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.6,51,式中,Um是m個(gè)變量的回歸平方和,Ujm-1表示y對(duì)去掉xj 之后的m-1個(gè)變量的回歸

39、平方和。因此,不難看出,偏回歸平方和可以用來衡量每個(gè)自變量在回歸中所起作用的大小。凡偏回歸平方和大的變量,一定是對(duì)y有重要影響的因素;凡偏回歸平方和小的變量,雖然不一定不顯著,但可以肯定,偏回歸平方和最小的那個(gè)變量,肯定是所有變量中對(duì)y貢獻(xiàn)最小的一個(gè)。,為了進(jìn)行回歸系數(shù)的顯著性檢驗(yàn),必須考察每個(gè)自變量在多元回歸中所起的作用,故而引入偏回歸平方和概念?;貧w平方和是所有自變量對(duì)y變差的總貢獻(xiàn),所考慮的自變量愈多,回歸平方和就愈大。如果在所考慮的幾個(gè)變量中,剔除一個(gè)變量,回歸平方和就會(huì)減少;減少的數(shù)值愈多,說明該變量在回歸中所起的作用愈大。我們把取消一個(gè)自變量x后回歸平方和減少的數(shù)值稱為y對(duì)自變量x

40、j的偏回歸平方和,記作pj,即,檢驗(yàn)的基本方法,實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.6,52,因此, 檢驗(yàn)就從這個(gè)變量開始。我們將檢驗(yàn)的原假設(shè)取為: H0 : j = 0 可以證明, 在j 0成立的條件下,服從第一自由度為l,第二自由度為N-m-1的F分布。于是對(duì)給定的置信度,由F分布表可查得F(1,N-m-1)。當(dāng)統(tǒng)計(jì)量FjF(1,N-m-1)時(shí),則認(rèn)為變量xj對(duì)y的影響在水平上顯著,在回歸方程中應(yīng)保留這個(gè)變量。由于xj是所有變量中對(duì)y貢獻(xiàn)最小的一個(gè),所以對(duì)其他變量可不必再作檢驗(yàn)。如果計(jì)算的統(tǒng)計(jì)量FjF, 則接受原假設(shè),認(rèn)為和xj對(duì)應(yīng)的回歸系數(shù)不顯著,應(yīng)從回歸方程中將變量xj剔除,然后,重新建立m1

41、元的新的回歸方程,計(jì)算回歸系數(shù)和偏回歸平方和,再按上面的方法進(jìn)行回歸系數(shù)的顯著性檢驗(yàn)。,實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.6,53,在進(jìn)行回歸系數(shù)的顯著性檢驗(yàn)時(shí),必須要計(jì)算偏回歸平方和。而由偏回歸平方和的定義式要計(jì)算每個(gè)變量的偏回歸平方和pj (j1 m),必須要計(jì)算剔除每個(gè)變量xi (i1 m)后重新建立的m1元回歸方程的回歸平方和Uim-1(i1 m)。這個(gè)重新建立的m1元回歸方程,回歸系數(shù)和原方程的回歸系數(shù)是不同的,為了避免重建方程的大量計(jì)算,人們找到了原方程回歸系數(shù)與剔除某個(gè)變量后重新建立的回歸方程的系數(shù)的關(guān)系,大大地簡化了計(jì)算。 設(shè)bj ( j 1 m)為m個(gè)自變量的回歸方程的回歸系數(shù),b

42、j*(jk)為在m元回歸方程中剔除變量xk后,m-1元回歸方程的新回歸系數(shù)。利用行列式的雅可比定理可以證明,新、老回歸系數(shù)之間有如下關(guān)系:,偏回歸平方和的計(jì)算,其中ckk,ckj是原m元回歸方程中系數(shù)矩陣的逆陣C中對(duì)應(yīng)的元素,實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.6,54,我們由此可以得到一個(gè)直接利用m元回歸方程的結(jié)果計(jì)算偏回歸平方和的公式:,6.3.3 殘差檢驗(yàn),在實(shí)用回歸分析中,除了對(duì)回歸方程和回歸系數(shù)的顯著性檢驗(yàn)以外,還可以通過對(duì)殘差的分析來檢驗(yàn)?zāi)P偷倪m度。殘差即因變量觀測值yi和回歸值 之差,記為ei:這個(gè)差是回歸方程不能解釋的量,如果模型正確,可將ei看作觀測誤差。在進(jìn)行回歸之前,對(duì)誤差(未知

43、的真誤差iyiE(yi))已作了假定,即誤差相互獨(dú)立、具有零均值和固定方差2;為了求置信區(qū)間和進(jìn)行假設(shè)檢驗(yàn),又假定誤差服從正態(tài)分布。因此,如果擬合的模型正確,殘差就應(yīng)當(dāng)呈現(xiàn)出所假定的誤差的特性。如果回歸函數(shù)非線性,誤差項(xiàng)不獨(dú)立,誤差項(xiàng)方差不相等,模型中缺少一個(gè)或幾個(gè)自變量等偏離模型的情況,都可以通過殘差圖直觀地反映出來。,實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.6,55,所謂殘差圖是指以殘差為縱坐標(biāo)、以任何其它指定的量為橫坐標(biāo)的散點(diǎn)圖。這里的橫坐標(biāo)可以是自變量xi,可以是回歸值,也可以是時(shí)間(如果觀測數(shù)據(jù)是按時(shí)間順序獲得的)。下圖是幾種典型的殘差圖:,(一) 殘差圖分析,線性模型適合,模型不適,應(yīng)包含更多

44、項(xiàng),方差不是常數(shù),誤差項(xiàng)不獨(dú)立或缺少自變量,實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.6,56,另外,從殘差圖中還可以檢測是否有異常觀測值存在。在殘差圖中,異常值的殘差絕對(duì)值比其它殘差大得多,一般離殘差均值有34個(gè)標(biāo)準(zhǔn)誤差的距離。當(dāng)出現(xiàn)異常殘差時(shí),必須仔細(xì)分析其來源,如果確認(rèn)是由觀測的異常值(可利用觀測數(shù)據(jù)的散點(diǎn)圖)引起,則應(yīng)予以放棄。如果模型中缺少某一自變量也會(huì)產(chǎn)生殘差異常值,這時(shí)異常值可能提供重要信息,不能隨便剔除。因此比較穩(wěn)妥的辦法是,只有探查出異常值是由過失誤差造成的,才將其剔除。 殘差的圖示分析能比較直觀地檢驗(yàn)?zāi)P偷倪m度。而且因?yàn)槿魏我环N回歸分析都能很方便提供擬合值和殘差,因此得到各種類型的殘差圖

45、也是簡單易行的。,實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.6,57,殘差的統(tǒng)計(jì)檢驗(yàn)是指用統(tǒng)計(jì)的方法檢驗(yàn)殘差的隨機(jī)性、等方差性及正態(tài)性等:它們是在殘差圖分析的基礎(chǔ)上的進(jìn)一步檢驗(yàn)。當(dāng)殘差圖顯示出方差可能系統(tǒng)地隨著X或E(y)增加或減小時(shí),一種簡單的等方差的檢驗(yàn)方法是按X把觀測值分為兩段,分別擬合回歸函數(shù),然后計(jì)算誤差均方,用F檢驗(yàn)法檢驗(yàn)方差是否相等。 檢驗(yàn)一個(gè)分布是否為正態(tài)的方法很多,常用的一個(gè)較簡單的方法是利用殘差的直方圖:如果直方圖中間高、兩邊低,呈正態(tài)密度曲線形狀,則可認(rèn)為殘差來自正態(tài)母體??紤]一組殘差,設(shè)共有n個(gè)符號(hào),其中n1個(gè)正號(hào),n2個(gè)負(fù)號(hào),每種符號(hào)都被另外一種符號(hào)隔成一些子序列,每個(gè)子序列稱為一

46、個(gè)游程,兩種符號(hào)的游程總數(shù)記為R,(二) 殘差的統(tǒng)計(jì)檢驗(yàn),實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.6,58,如看下面的一個(gè)符號(hào)序列: 則n111,n212,n23,共有R10個(gè)游程。 假定n個(gè)元素的任一排列出現(xiàn)的概率是相等的,則游程總數(shù)R的概率函數(shù)為: 及,實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.6,59,利用概率函數(shù)可以證明,離散隨機(jī)變量R的均值和方差分別為:,對(duì)給定的顯著水平,由R的概率分布可得拒絕域0, R(n1,n2)的臨界值R(n1,n2),它可以從數(shù)理統(tǒng)計(jì)表中的“游程總數(shù)檢驗(yàn)表”查出。 例如對(duì)前面列出的殘差符號(hào)排列,n111, n212,R10,取顯著水平0.05,查“游程總數(shù)檢驗(yàn)表”得R0.05(11,

47、12)8,則有RR0.05,應(yīng)該接受殘差序列為隨機(jī)的假設(shè)。,實(shí)際上,當(dāng)n1, n210時(shí),游程總數(shù)R漸近服從正態(tài)分布,即,服從標(biāo)準(zhǔn)正態(tài)分布。其中的 是連續(xù)性修正值,用以補(bǔ)償用連續(xù)型分布近似離散型分布所造成的損失,因此可以其進(jìn)行游程數(shù)檢驗(yàn)。,實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.6,60,游程檢驗(yàn)不僅用于檢驗(yàn)殘差的隨機(jī)性,也可以用來檢驗(yàn)樣本的隨機(jī)性。只要先確定樣本的中位數(shù),對(duì)中位數(shù)以上的數(shù)記以“”,中位數(shù)以下的數(shù)記以“”,對(duì)應(yīng)于觀測樣本原來的次序得到一個(gè)符號(hào)序列,這樣就可以利用游程檢驗(yàn)了。 另外,游程數(shù)檢驗(yàn)也可以作為分布函數(shù)的2檢驗(yàn)的一個(gè)補(bǔ)充。因?yàn)槠栠d2量的數(shù)值只依賴于實(shí)測頻數(shù)與理論頻數(shù)偏差的絕對(duì)值,同偏差的符號(hào)無關(guān),因此2檢驗(yàn)沒有利用偏差的符號(hào)含有的信息,而游程數(shù)檢驗(yàn)可以彌補(bǔ)這一不足。只要將實(shí)測頻數(shù)超過理論頻數(shù)的偏差記為“”,否則記為“”,將它們按原序號(hào)排列又可得到一個(gè)符號(hào)序列。如果游程數(shù)檢驗(yàn)的結(jié)果是只在否定域內(nèi),表明隨機(jī)變量的概率密度比假設(shè)的概率密度可能偏大或偏小,因而應(yīng)拒絕假設(shè)H : p (x

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論