實(shí)驗(yàn)數(shù)據(jù)分析方法_第1頁
實(shí)驗(yàn)數(shù)據(jù)分析方法_第2頁
實(shí)驗(yàn)數(shù)據(jù)分析方法_第3頁
實(shí)驗(yàn)數(shù)據(jù)分析方法_第4頁
實(shí)驗(yàn)數(shù)據(jù)分析方法_第5頁
已閱讀5頁,還剩61頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

實(shí)驗(yàn)數(shù)據(jù)分析方法實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.61第一頁,共六十六頁,2022年,8月28日實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.62第六章回歸分析

回歸分析是處理變量與變量之間統(tǒng)計(jì)相關(guān)關(guān)系的一種數(shù)理統(tǒng)計(jì)方法。在觀測(cè)天文學(xué)中,它是最基本的、被頻繁使用的統(tǒng)計(jì)工具。

變量間的統(tǒng)計(jì)相關(guān)關(guān)系是指變量間的關(guān)系是非確定性的。例如,某一天的氣溫與氣壓的關(guān)系;星系中氫含量與色指數(shù)、光度的關(guān)系;太陽耀斑與黑子相對(duì)數(shù)、某波段太陽射電輻射流量等因素的關(guān)系等。造成變量間關(guān)系的不確定性的原因通常有兩個(gè)方面:一是,在影響一個(gè)量的眾多因素中,有些是屬于人們尚未認(rèn)識(shí)或掌握的;另一個(gè)原因是,與所用儀器的精度或觀測(cè)條件有關(guān)的觀測(cè)誤差及其它隨機(jī)因素的影響。但人們也發(fā)現(xiàn),只要對(duì)這種存在不確定性關(guān)系的變量進(jìn)行大量觀測(cè)或?qū)嶒?yàn),就可能會(huì)找到它們蘊(yùn)藏的內(nèi)在規(guī)律。也就是說,在一定條件下,從統(tǒng)計(jì)的意義上來說,它們又可能存在某種確定的關(guān)系。通常,把變量之間這種不完全確定的關(guān)系稱為統(tǒng)計(jì)相關(guān)關(guān)系。

第二頁,共六十六頁,2022年,8月28日實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.63雖然統(tǒng)計(jì)相關(guān)關(guān)系和函數(shù)關(guān)系(變量間的關(guān)系完全是確定的)是兩種不同類型的變量關(guān)系,但它們之間也不是一成不變的:一方面,在理論上有函數(shù)關(guān)系的幾個(gè)變量由于觀測(cè)誤差的影響,每次測(cè)得變量的數(shù)值之間并不是準(zhǔn)確的滿足這種函數(shù)關(guān)系,造成某種不確定性;另一方面,當(dāng)人們對(duì)事物的規(guī)律性了解得更加深入時(shí),相關(guān)關(guān)系又可能轉(zhuǎn)化為函數(shù)關(guān)系。事實(shí)上,自然科學(xué)中的許多定理、公式正是通過對(duì)研究對(duì)象的大量觀測(cè)數(shù)據(jù)的分析處理,通過總結(jié)和提高得到的。

回歸分析就是利用大量的觀測(cè)數(shù)據(jù)來確定變量間的相關(guān)關(guān)系的一種數(shù)學(xué)方法。在觀測(cè)天文學(xué)中,回歸分析常被用來定量描述某一研究對(duì)象兩個(gè)特征量之間的顯式關(guān)系;校準(zhǔn)和量化對(duì)宇宙大尺度結(jié)構(gòu)研究極其重要的“宇宙距離尺度”;在激光測(cè)月的資料處理中,回歸分析也起了很重要的作用。第三頁,共六十六頁,2022年,8月28日實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.64總的來說,回歸分析所要解決的主要問題是:1、從一組數(shù)據(jù)出發(fā),確定這些變量之間的數(shù)學(xué)表達(dá)式——回歸方程或經(jīng)驗(yàn)公式;2、對(duì)回歸方程的可信程度進(jìn)行統(tǒng)計(jì)檢驗(yàn);3、進(jìn)行因素分析,例如從對(duì)共同影響一個(gè)變量的許多變量(因素)中,找出哪些是重要因素、哪些是次要因素。第四頁,共六十六頁,2022年,8月28日實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.65在許多情況下,兩個(gè)變量之間的相關(guān)關(guān)系呈線性關(guān)系,它是統(tǒng)計(jì)相關(guān)關(guān)系中最簡(jiǎn)單的一種,也是天文上實(shí)際問題中最常見的情況。我們的目的則是要找出能描述這兩個(gè)變量之間的線性相關(guān)關(guān)系的定量表達(dá)式。

對(duì)于兩個(gè)大致成線性關(guān)系的變量y和x,通常用如下的回歸模型來描述它們之間的線性相關(guān)關(guān)系:§6.1一元線性回歸6.1.1一元線性回歸模型及參數(shù)估計(jì)式中,x稱為自變量或預(yù)測(cè)變量,y為因變量,0,為待定的模型參數(shù),

是隨機(jī)誤差項(xiàng),它表示除自變量x以外的隨機(jī)因素對(duì)因變量y影響的總和。第五頁,共六十六頁,2022年,8月28日實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.66設(shè)由觀測(cè)得到y(tǒng),x的N組數(shù)據(jù)(yk,xk),k=1―N,代人上式得:

對(duì)誤差項(xiàng)k,規(guī)定E(k)=0,2(k)=2,當(dāng)k≠j時(shí),k與j不相關(guān),即協(xié)方差cov(k,j)=0。鑒于對(duì)隨機(jī)誤差項(xiàng)k的上述規(guī)定,不難得知因變量yk是隨機(jī)變量,它們都來自均值E(yk)=0+xk。方差為2的概率分布,且任何兩個(gè)觀測(cè)值之間是互不相關(guān)的。上面我們對(duì)k的分布沒有作任何規(guī)定,無論k具有什么樣的分布函數(shù),我們都可以使用最小二乘法求得參數(shù)0,的估計(jì)值。但是在進(jìn)行區(qū)間估計(jì)和檢驗(yàn)時(shí),需要對(duì)k的分布函數(shù)的形式作出假設(shè),通常的假設(shè)是誤差項(xiàng)k~N(0,2),即k服從均值為0、方差為2的正態(tài)分布。因?yàn)檎`差項(xiàng)通常代表模型中略去的許多因素的影響,這些因素在一定范圍內(nèi)影響因變量取值,并且隨機(jī)的變化:依中心極限定理,它們近似服從正態(tài)分布。第六頁,共六十六頁,2022年,8月28日實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.67當(dāng)假設(shè)誤差項(xiàng)k為正態(tài)分布時(shí),上述模型被稱為正態(tài)誤差回歸模型。下圖給出了正態(tài)誤差回歸模型的圖示:對(duì)于形如前式的模型,回歸分析的任務(wù)是找到回歸參數(shù)0,

的“好”的估計(jì)量,從而得到一條最能描述y和x關(guān)系的回歸直線(見上圖中的直線),它的方程可表為:式中b0,b為參數(shù)0,

的估計(jì)值,yk為y的回歸值。第七頁,共六十六頁,2022年,8月28日實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.68下面我們利用最小二乘準(zhǔn)則給出b0,b的計(jì)算公式:由最小二乘原理,b0,b應(yīng)該是滿足殘差平方和最小的解,記則利用Q=min可得正規(guī)方程組:

解之可得:第八頁,共六十六頁,2022年,8月28日實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.69其中在給定參數(shù)估計(jì)值b,b0后,可得到相應(yīng)的回歸方程(或回歸函數(shù))為:由于yk是均值為方差為2的隨機(jī)變量,對(duì)上述正規(guī)方程組及其解的形式稍加改變,并利用概率統(tǒng)計(jì)知識(shí),可以得到:這表明回歸參數(shù)的最小二乘估計(jì)是無偏估計(jì),它們的方差和隨機(jī)變量的方差2,觀測(cè)數(shù)據(jù)的個(gè)數(shù)N及自變量的取值范圍的大小有關(guān);在相同2的條件下,觀測(cè)次數(shù)越多,自變量取值范圍越大,估計(jì)值的方差就越小。第九頁,共六十六頁,2022年,8月28日實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.610在前一小節(jié)中,我們?cè)趦蓚€(gè)變量大致成線性關(guān)系的假定下,利用最小二乘法得到了描述這兩個(gè)變量相關(guān)關(guān)系的回歸直線方程。就這種數(shù)學(xué)方法本身而言,可以不加任何條件的約束:對(duì)任一組數(shù)據(jù)(xk,yk),k=1-N,都可由回歸方程組求出一組b0,b,從而得到一條回歸直線。但并非對(duì)每一組數(shù)據(jù)配的回歸直線都有實(shí)際意義:例如對(duì)平面上分布完全雜亂無章的散點(diǎn)所配的直線就毫無意義。因此,通常在求得直線回歸方程以后必須進(jìn)行檢驗(yàn),判別所配直線是否有實(shí)際意義。如果檢驗(yàn)結(jié)果回歸方程是顯著的,則表明所配回歸直線揭示了因變量y與自變量x之間有較強(qiáng)的線性相關(guān)性;如果檢驗(yàn)結(jié)果回歸方程不顯著,則表明所配回歸直線沒有實(shí)際意義。衡量回歸效果好壞的標(biāo)準(zhǔn)6.1.2回歸方程的顯著性檢驗(yàn)在回歸分析中,通常把因變量y看作為隨機(jī)變量,并稱某一次觀測(cè)的實(shí)際觀測(cè)值yk與它的平均值的差為離差,N次觀測(cè)的離差平方和稱為總平方和,用lyy表示,即:第十頁,共六十六頁,2022年,8月28日實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.611將總平方和進(jìn)行分解,有:上式右邊第一項(xiàng)是觀測(cè)值與回歸值之差的平方和,也就是殘差平方和,有時(shí)也稱它為剩余平方和,用Q表示。Q又可表為:

—它是除了x對(duì)y的線性影響之外的一切因素(包括x對(duì)y的非線性影響)對(duì)y值變化的影響。上式右邊第二項(xiàng)是回歸值?與平均值之差的平方和,我們稱它為回歸平方和,并記為U:—可以看出,回歸平方和U是由于x的變化而引起的。因此U反映了在y的總的變化中由于x和y的線性關(guān)系而引起的y的變化部分。

這樣我們就把引起因變量y變化的兩方面原因從數(shù)量上分開了。第十一頁,共六十六頁,2022年,8月28日實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.612即從回歸平方和U和剩余平方和Q的意義很易說明,回歸效果的好壞取決于U和Q的大小。下面我們從假設(shè)檢驗(yàn)的角度來給出衡量回歸效果好壞或判別回歸方程顯著與否的標(biāo)準(zhǔn)。(一)F檢驗(yàn)法假設(shè)檢驗(yàn)必須要給出原假設(shè),在討論兩個(gè)變量之間是否有線性關(guān)系時(shí),主要就是要檢驗(yàn)?zāi)P椭心P蛥?shù)是否為零:如果=0,則兩個(gè)變量之間無線性關(guān)系。因此,我們把“=0”作為檢驗(yàn)的原假設(shè)H0。有了原假設(shè)后就要構(gòu)造一個(gè)統(tǒng)計(jì)量,這個(gè)統(tǒng)計(jì)量必須滿足三個(gè)條件:(1)能用樣本值計(jì)算得到;(2)和原假設(shè)有關(guān);(3)已知這個(gè)統(tǒng)計(jì)量的分布。根據(jù)這三個(gè)條件,統(tǒng)計(jì)量應(yīng)該從反映y變化的回歸平方和及剩余平方和中去找。利用正交線性變換可以證明:總平方和、回歸平方和、剩余平方和都是變量2,且有:第十二頁,共六十六頁,2022年,8月28日實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.613并且,當(dāng)=O成立時(shí)回歸平方和與剩余平方和是相互獨(dú)立的。故構(gòu)成如下的統(tǒng)計(jì)量:因總平方和lyy的自由度F總=FU+FQ,所以統(tǒng)計(jì)量F是服從第一自由度為l,第二自由度為N―2的F分布。確定了統(tǒng)計(jì)量F的分布以后,對(duì)給定的顯著水平α(0.01,0.05,0.1),由F分布表查出置信限Fα(1,N-2):這意味著p(F<Fα(1,N-2))=1-α,而F>Fα(1,N-2)是否定域。因此,如果由樣本算出的統(tǒng)計(jì)量F>Fα(1,N-2),說明原假設(shè)H0不成立,我們則稱回歸直線方程是顯著的:且對(duì)于F>F0.01(1,N-2)的情況屬于高度顯著,對(duì)F>F0.05(1,N-2)的情況,稱為在0.05水平上顯著,對(duì)F>F0.1(1,N-2)的情況是在0.1水平上顯著。當(dāng)F<Fα(1,N-2)時(shí),則稱回歸方程在α水平上不顯著,表明所求得回歸直線沒有實(shí)際意義。這種檢驗(yàn)方法就稱為F檢驗(yàn)法。在統(tǒng)計(jì)學(xué)中,也通常把上面的檢驗(yàn)過程稱為方差分析。()第十三頁,共六十六頁,2022年,8月28日實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.614F檢驗(yàn)的步驟可歸納如下:(1)建立原假設(shè)H0:=0。(2)確定統(tǒng)計(jì)量,確定其分布(3)給定顯著水平α,由分布表查得置信限:

Fα(1,N-2)

(4)由樣本計(jì)算統(tǒng)計(jì)量F,(5)作出顯著性判斷:若F>Fα(1,N-2),則回歸方程顯著;若F<Fα(1,N-2),則回歸方程不顯著.例試?yán)?0個(gè)B型旋渦星系SD的氫含量(MH/MT)、色指數(shù)(B-V)0的資料,求出它們之間的回歸關(guān)系,并檢驗(yàn)回歸結(jié)果是否顯著。(見書P125)第十四頁,共六十六頁,2022年,8月28日實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.615回歸平方和U反映了在y的總變化中由于x與y的線性關(guān)系而引起的部分。因此,可以用U在總平方和lyy中所占的比例大小來衡量回歸效果好壞.通常,用r2表示比值U/lyy,并稱為x與y的相關(guān)系數(shù)。

(二)相關(guān)系數(shù)檢驗(yàn)法由r的定義可知r<l。當(dāng)r的絕對(duì)值較大時(shí),說明y與x的線性相關(guān)較密切;r的絕對(duì)值較小時(shí),說明y與x的線性相關(guān)程度較弱,這時(shí)散點(diǎn)離回歸直線較分散;當(dāng)r=1時(shí),所有的點(diǎn)都在回歸直線上,表示y與x完全線性相關(guān);而當(dāng)r=0時(shí),則表示y與x毫無線性關(guān)系。下圖顯示了不同線性相關(guān)系數(shù)散點(diǎn)的分布情況。第十五頁,共六十六頁,2022年,8月28日實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.616第十六頁,共六十六頁,2022年,8月28日實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.617從上面的討論看出,相關(guān)系數(shù)r可用來衡量?jī)勺兞恐g線性相關(guān)的密切程度。但在一個(gè)具體問題中,r應(yīng)大到什么程度才能認(rèn)為它們之間確實(shí)存在線性相關(guān)關(guān)系,方可用一條回歸直線來表示?這需要規(guī)定一個(gè)指標(biāo),作為鑒定回歸方程是否有效的標(biāo)準(zhǔn):當(dāng)實(shí)際計(jì)算的相關(guān)系數(shù)r達(dá)到或超過該指標(biāo)時(shí),就認(rèn)為r顯著。為此,應(yīng)建立相關(guān)系數(shù)的顯著性檢驗(yàn)方法,并列出在各個(gè)顯著水平下,由相關(guān)系數(shù)的概率分布計(jì)算得到的相關(guān)系數(shù)檢驗(yàn)表:表中α是顯著水平,N為觀測(cè)數(shù)據(jù)個(gè)數(shù)。對(duì)于某一α和N,可在表中查得相應(yīng)的相關(guān)系數(shù)r達(dá)到顯著的最小值rα。如由觀測(cè)數(shù)據(jù)算出的r>rα,則認(rèn)為相關(guān)系數(shù)在α水平上顯著,這時(shí)就認(rèn)為對(duì)x和y所配的回歸直線有意義;反之,若相關(guān)系數(shù)不顯著,對(duì)x和y所配的回歸直線就沒有實(shí)際意義。例如,樣本個(gè)數(shù)N=30,對(duì)α=0.05由N-2=28,查得rα=0.36l:若由樣本算得r>0.361,則說明它在α=0.05的水平上顯著;但若r<0.463(r0.01)則說明它在α=0.0l水平上不顯著。α越小,顯著程度越高??梢宰C明,相關(guān)系數(shù)顯著性檢驗(yàn)和回歸方程F檢驗(yàn)是完全等價(jià)的。

第十七頁,共六十六頁,2022年,8月28日實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.618rααk0.100.050.020.010.001αrαk

1234567891011121314151617181920253035404550607080901000.98770.90000.80540.72930.66940.62150.58220.54940.52140.49730.47620.45750.44090.42590.41240.40000.38870.37830.36870.35980.32330.29600.27460.25730.24280.23060.21080.19540.18290.17260.16380.99690.95000.87830.81140.75450.70670.66640.63190.60210.57600.55290.53240.51390.49730.48210.46830.45550.44380.43290.42270.38090.34940.32460.30440.28750.27320.25000.23190.21720.20500.19460.99950.98000.93430.88220.83290.78870.74980.71550.68510.65810.63390.61200.59230.57420.55770.54250.52850.51550.50340.49210.44510.40930.38100.35780.33840.32180.29480.27370.25650.24220.23010.99990.99000.95870.91720.87450.83430.79770.76460.73480.70790.68350.66140.64110.62260.60550.58970.57510.56140.54870.53680.48690.44870.41820.39320.37210.35410.32480.30170.28300.26730.25400.99990.99900.99120.97410.95070.92490.89820.87210.84710.82330.80100.78000.76030.74200.72460.70840.69320.67870.66520.65240.59740.55410.51890.48960.46480.44330.40780.37990.35680.33750.3211123456789101112131415161718192025303540455060708090100第十八頁,共六十六頁,2022年,8月28日實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.619對(duì)回歸方程的顯著性檢驗(yàn)實(shí)際上是對(duì)回歸模型的檢驗(yàn)。在這一小節(jié)中,我們進(jìn)一步對(duì)回歸系數(shù)及回歸值的精度進(jìn)行討論,即給出它們的置信區(qū)間,這對(duì)了解利用回歸方程進(jìn)行預(yù)測(cè)的精度很有實(shí)際意義。6.1.3回歸系數(shù)和回歸值的估計(jì)精度(一)回歸系數(shù)β的置信區(qū)間由回歸系數(shù)的估計(jì)值b的計(jì)算公式,在k為正態(tài)分布的假定下,我們可以得到故有:利用參數(shù)的區(qū)間估計(jì)的基本原理可得的區(qū)間估計(jì)為第十九頁,共六十六頁,2022年,8月28日實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.620或說估計(jì)量b的精度為這里Nα為正態(tài)分布位數(shù),由正態(tài)分布表查得,2為誤差項(xiàng)的方差。一般情況下,2是未知的,常使用它的無偏估計(jì)量—剩余均方差來代替,即:這時(shí)有相應(yīng)β的區(qū)間估計(jì)為

在得到回歸方程以后,對(duì)于任一給定的自變量xi,回歸值就是實(shí)際值的估值。但由于參數(shù)估值b0,b是隨機(jī)變量,因此因變量yi的估值是有誤差的。下面我們推出這個(gè)估計(jì)值的精度公式,進(jìn)而討論利用回歸方程進(jìn)行預(yù)測(cè)的問題。1/21/2yyyy(二)回歸值的置信區(qū)間第二十頁,共六十六頁,2022年,8月28日實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.621定義殘差δi為實(shí)際值yi與回歸值之差,有:及:第二十一頁,共六十六頁,2022年,8月28日實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.622若用δ代替δi,用x代替xi,則

這表明,回歸值對(duì)實(shí)際值的偏離

和隨機(jī)誤差項(xiàng)的方差2、觀測(cè)數(shù)據(jù)量及觀測(cè)點(diǎn)x與x的偏離有關(guān),N越大,x越靠近x,相應(yīng)殘差的方差就越小。由于,y均屬于正態(tài)分布,所以也屬正態(tài)分布,由前式可得:于是,對(duì)于給定的顯著水平α,利用概率統(tǒng)計(jì)知識(shí)可得:式中第二十二頁,共六十六頁,2022年,8月28日實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.623則得y的置信區(qū)間或置信帶為:根據(jù)正態(tài)分布理論,y將以

99.7%概率落在區(qū)間?±3δN內(nèi);95.4%概率落在區(qū)間?±2δN內(nèi);68.3%概率落在區(qū)間?±δN內(nèi)。

y的置信帶的示意圖第二十三頁,共六十六頁,2022年,8月28日實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.624由上圖不難看出,對(duì)于某一自變量x0,因變量的取值是以為中心對(duì)稱分布的,分布的范圍由δN的大小決定。由于一般情況δ2是未知的,若用它的無偏估計(jì)代替,則得回歸的誤差為:當(dāng)N較大,且x靠近時(shí),有:這時(shí)估計(jì)值的誤差僅由剩余均方差決定,故而通常將剩余的均方差Sy2作為衡量回歸方程精度的指標(biāo)。

預(yù)測(cè)問題與回歸方程的誤差問題是密切聯(lián)系的:對(duì)觀測(cè)數(shù)據(jù)以外的任一給定的自變量xo,相應(yīng)的因變量可由回歸方程得到。根據(jù)回歸方程的誤差范圍可知,是預(yù)測(cè)的最佳值,而回歸方程的誤差范圍也就是預(yù)測(cè)值的誤差范圍:N愈大,且靠近自變量的平均值附近時(shí),,預(yù)測(cè)的精度就愈高。這說明,回歸方程的適用范圍一般僅局限于原來觀測(cè)數(shù)據(jù)范圍,即適用于用來進(jìn)行所缺數(shù)據(jù)的補(bǔ)插,而超出這個(gè)范圍時(shí)預(yù)測(cè)精度就較差。第二十四頁,共六十六頁,2022年,8月28日實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.625一元回歸模型有以下幾個(gè)基本假定:1)變量間真正的關(guān)系是線性的;2)因變量y是隨機(jī)變量,x是自變量并不包含誤差;3)隨機(jī)誤差項(xiàng)為零均值、同方差;4)因變量觀測(cè)值是相互獨(dú)立的。

當(dāng)這些假定中的任一個(gè)不滿足時(shí),所得回歸方程就不是嚴(yán)格有效的。6.1.4一元線性回歸及其在天文上的應(yīng)用

控制是預(yù)測(cè)的逆問題。要求因變量y在某區(qū)間(y1,y2)內(nèi)取值時(shí),則應(yīng)把自變量x控制在什么范圍內(nèi)?也就是要求相應(yīng)的(x1,x2),使x1<x<x2時(shí),相應(yīng)的y至少以1-α的置信水平落在區(qū)間(y1,y2)內(nèi)。第二十五頁,共六十六頁,2022年,8月28日實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.626例如在哈勃圖中,一個(gè)星系樣本可能具有精度為0.1的星等測(cè)量誤差和精度為0.001的紅移測(cè)量誤差,但不同星系本身的光度和非哈勃運(yùn)動(dòng)可能導(dǎo)致大于星等測(cè)量不確定度一個(gè)量級(jí)的彌散!又如,觀測(cè)數(shù)據(jù)也具有各種各樣的特性,有的可能是正態(tài)分布,有的則非正態(tài),有的又是異方差的;離散的程度有的只依賴于一個(gè)變量,有的則依賴于兩個(gè)甚至多個(gè)變量!另外,回歸分析的目的也不總是相同:有的是需要最佳的斜率估計(jì),而有的則是利用回歸方程進(jìn)行預(yù)測(cè)。鑒于上述這些情況,對(duì)具有線性統(tǒng)計(jì)相關(guān)關(guān)系的兩個(gè)變量總用基于因變量y的殘差平方和最小的一元回歸方法得到回歸結(jié)果并不是最佳的,反之有時(shí)甚至是錯(cuò)誤的!在實(shí)際應(yīng)用中,由于多種原因這些假定不一定都滿足。觀測(cè)天文學(xué)中最常見的是:x通常也是觀測(cè)量,它是有誤差的,因此兩個(gè)變量所處的位置是對(duì)稱的,不能明確指定哪個(gè)是因變量哪個(gè)是自變量;另外,數(shù)據(jù)的內(nèi)稟離散和觀測(cè)誤差相比占了很大的比例,亦即我們?cè)谇懊嫣岬竭^的除了觀測(cè)誤差之外,兩個(gè)變量間關(guān)系本身的不確定性較突出。第二十六頁,共六十六頁,2022年,8月28日實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.627正因?yàn)槿绱?,?9世紀(jì)就已問世的線性回歸方法的統(tǒng)計(jì)研究在目前仍十分活躍。除了提出一些非最小二乘線性回歸,如穩(wěn)健回歸和對(duì)于多變量問題的貝葉斯回歸外,還提出了好幾種最小二乘線性回歸方法。90年代初期,美國(guó)天文學(xué)家Isobe&Feigelson等對(duì)雙變量數(shù)據(jù)提出了五種線性回歸方法:普通最小二乘回歸(OLS(Y|X))、X對(duì)Y的回歸(OLS(X|Y))、正交回歸(orthogonalregression,簡(jiǎn)記為OR)、簡(jiǎn)化主軸回歸(reducedmajor-axisregression,簡(jiǎn)記為RMA)和回歸平分線,并討論了它們的特性及在觀測(cè)天文學(xué)特別是在宇宙距離尺度研究中的應(yīng)用。第二十七頁,共六十六頁,2022年,8月28日實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.628a)OLS(Y|X):觀測(cè)點(diǎn)和回歸直線上同一x的y的差,b)逆回歸OLS(X|Y):觀測(cè)點(diǎn)和回歸直線上相應(yīng)點(diǎn)x值之差,即點(diǎn)到回歸線的水平距離c)正交回歸線OR:觀測(cè)點(diǎn)到回歸線的垂直距離,即d)簡(jiǎn)化主軸回歸RMA:觀測(cè)點(diǎn)對(duì)回歸線在垂直、水平兩個(gè)方向測(cè)量的距離。第二十八頁,共六十六頁,2022年,8月28日實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.629利用觀測(cè)點(diǎn)到回歸直線距離的極小化原理和估計(jì)理論,經(jīng)過復(fù)雜的推導(dǎo)可以得到各種方法的斜率j及其方差var(j)的估計(jì)(見書)下面我們首先給出把五種回歸方法應(yīng)用到一個(gè)實(shí)際的天文例子中,即橢圓星系中恒星的速度彌散和其光學(xué)光度之間的關(guān)系:L?n(Faber-Jackson關(guān)系)。研究這個(gè)問題的目的是:①?gòu)牡臏y(cè)量值估計(jì)星系的光度,亦即到星系的距離;②比較n的經(jīng)驗(yàn)測(cè)量值和從橢圓星系形成模型預(yù)測(cè)的值。下圖示出L和的測(cè)量數(shù)據(jù)及利用五種回歸方法的系數(shù)公式得到的5根回歸線。計(jì)算的斜率是:OLS(L|):2.4±0.4;OLS(|L):5.4±0.8;OLS平分線:3.4±0.4;RMA:3.6±0.4和OR:5.2±0.8。這個(gè)結(jié)果表明關(guān)于距離和星系形成模型的結(jié)論明顯依賴于所采用的回歸方法,而五種回歸線之間的離差大于任何一種估計(jì)的方差!第二十九頁,共六十六頁,2022年,8月28日實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.6301.OLS(Y|X)2.OLS(X|Y)3.OLS平分線(點(diǎn)虛線)4.OR(虛線)5.RMA(點(diǎn)線)第三十頁,共六十六頁,2022年,8月28日實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.631為了說明各種回歸方法的特性和它們的適用性,可以利用模擬試驗(yàn)。即對(duì)具有均值為零、且有不同的標(biāo)準(zhǔn)偏差x,y和不同的相關(guān)系數(shù)模擬出二維正態(tài)分布的數(shù)據(jù)點(diǎn),然后應(yīng)用五種回歸方法,得到各自的回歸系數(shù)及相應(yīng)的方差。試驗(yàn)結(jié)果表明,五種方法給出的回歸系數(shù)相互間是不同的,它們并不是同一量的不同估計(jì)。只有在=1這個(gè)特殊情況下,所有五種回歸的斜率才是相同的。對(duì)于≠0。當(dāng)x=y(tǒng)時(shí),有3=4=5=1。另外,模擬試驗(yàn)表明,正交回歸斜率的不確定度比其它方法要大,故一般情況它只能用于無量綱變量間的擬合;又如對(duì)觀測(cè)值取對(duì)數(shù)的情況,簡(jiǎn)化主軸回歸的斜率和相關(guān)系數(shù)無關(guān),因此在討論X和Y的基本關(guān)系時(shí),使用這種方法是無助的。模擬結(jié)果還指出,對(duì)于足夠大的N(觀測(cè)點(diǎn))和相關(guān)系數(shù),所有方法斜率方差正確反映了斜率系數(shù)的彌散,但對(duì)于小的N和,得到的方差估計(jì)都偏小。第三十一頁,共六十六頁,2022年,8月28日實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.632根據(jù)最近幾年一些天文學(xué)家和其它領(lǐng)域的科學(xué)家對(duì)這五種回歸的應(yīng)用研究,可以得到如下幾點(diǎn)結(jié)論:

(1)如果觀測(cè)數(shù)據(jù)的散布基本上是由于測(cè)量過程造成的,并且測(cè)量誤差已知,那么一般采用前面介紹的常規(guī)的一元線性回歸。而這里介紹的五種回歸方法主要是針對(duì)數(shù)據(jù)點(diǎn)的散布是由未知的變化引起的情況;(2)一般來說,人們可以先對(duì)給定數(shù)據(jù)點(diǎn)擬合所有五條回歸線,如果各條線之間的差異并不大于任何一條回歸線的誤差,那么回歸方法的選擇就不會(huì)嚴(yán)重影響結(jié)果。在這種情況下,通常使用OLS(Y|X)回歸,因?yàn)樗?jiǎn)單明了;(3)如果我們研究的問題是這樣的情況,即兩個(gè)變量中一個(gè)變量明顯是因變量,另一個(gè)是原因變量,那么亦應(yīng)利用OLS(Y|X),這里X是原因變量。如果我們的問題是從另一個(gè)變量的測(cè)量值來預(yù)測(cè)一個(gè)變量的值,則也應(yīng)使用OLS(Y|X)回歸,這里Y是被預(yù)測(cè)的變量。后一種情況在宇宙距離尺度應(yīng)用中普遍存在,因?yàn)樘煳膶W(xué)家常常需要從一些已知距離的樣本中產(chǎn)生的一條線性回歸線來預(yù)測(cè)另外某一天體的距離。(4)如果研究目的是了解變量間的基本關(guān)系,那么處理對(duì)稱變量的三種回歸方法(OLS平分線,OR方法和RMA方法)都可以使用,但普遍認(rèn)為OLS平分線方法是值得推薦的。

第三十二頁,共六十六頁,2022年,8月28日實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.633在許多實(shí)際問題中,兩個(gè)變量之間的關(guān)系并不是線性相關(guān)關(guān)系,而是某種曲線相關(guān)關(guān)系。例如,大多數(shù)新星在亮度下降階段光度和時(shí)間的關(guān)系;恒星的光譜型和光度的關(guān)系(即恒星赫羅圖)。這時(shí),選擇適當(dāng)?shù)那€來表征它們之間的關(guān)系比直線更符合實(shí)際情況,或者說能得到更好的回歸效果。曲線回歸分析包括三個(gè)內(nèi)容:一是確定曲線回歸方程的類型:二是確定曲線回歸方程中的參數(shù);三是回歸效果的檢驗(yàn)。

6.1.5曲線回歸分析

(一)曲線回歸類型的確定第三十三頁,共六十六頁,2022年,8月28日實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.634為了確定兩個(gè)變量之間的曲線關(guān)系類型,常采用兩種方法。一種方法是利用觀測(cè)數(shù)據(jù)的散點(diǎn)圖,根據(jù)散點(diǎn)圖的分布形狀和特點(diǎn),對(duì)比各種函數(shù)形式已知的標(biāo)準(zhǔn)曲線的圖形,把與散點(diǎn)圖分布最接近的標(biāo)準(zhǔn)曲線作為觀測(cè)數(shù)據(jù)所屬的回歸方程的類型。第三十四頁,共六十六頁,2022年,8月28日實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.635另一種方法是采用多項(xiàng)式回歸。有時(shí)觀測(cè)數(shù)據(jù)的散點(diǎn)圖呈現(xiàn)的趨勢(shì)較為復(fù)雜,難以用一條已知合適的曲線類型去擬合它們,這時(shí)可用自變量x的m次多項(xiàng)式:作為描述變量y和x關(guān)系的回歸模型,即多項(xiàng)式回歸。因此多項(xiàng)式可用來擬合相當(dāng)廣泛的一類曲線,其中二次多項(xiàng)式即二次曲線回歸是最常用的一種類型。在多項(xiàng)式回歸中,多項(xiàng)式次數(shù)m的選擇也是一個(gè)很重要的問題,但在實(shí)際應(yīng)用中往往并不能確知m等于多少,通常是采用統(tǒng)計(jì)檢驗(yàn)的方法。關(guān)于兩個(gè)變量間的曲線回歸類型的確定,有一點(diǎn)需要說明的是,所確定的類型均可通過變量代換轉(zhuǎn)化為一元線性回歸來處理。第三十五頁,共六十六頁,2022年,8月28日實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.636曲線回歸類型確定以后,可采用變量變換的方法將曲線模型轉(zhuǎn)化一元線性回歸模型,然后利用前面介紹過的解一元線性回歸的方法求解,得到一元線性回歸參數(shù),最后再進(jìn)行變量的逆變換得到曲線回歸參數(shù)以及曲線回歸值。例如,對(duì)y和x關(guān)系確定的曲線類型為作變量代換則上面的曲線類型可轉(zhuǎn)化為直線關(guān)系:引進(jìn)隨機(jī)誤差項(xiàng)得到一元線性回歸模型:(二)回歸參數(shù)的確定利用一元線性回歸分析,由N組觀測(cè)值(xk,yk)可以解得回歸參數(shù),的估計(jì)值,利用變量代換關(guān)系可以得到曲線回歸參數(shù)的估值:及曲線回歸值:+第三十六頁,共六十六頁,2022年,8月28日實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.637為了檢驗(yàn)對(duì)兩個(gè)變量的非線性關(guān)系所配曲線的適宜性,我們給出兩個(gè)指標(biāo):相關(guān)指數(shù)和剩余標(biāo)準(zhǔn)差。在曲線回歸中,亦用類似于上文中定義的相關(guān)系數(shù)r來衡量所配曲線效果的好壞,即:并稱它為相關(guān)指數(shù),式中為曲線回歸值,為因變量觀測(cè)值的平均值。一般來說,R越接近于1,表明所配曲線的效果越好;另外,剩余標(biāo)準(zhǔn)差

亦可以用來衡量所配的效果,Sy越小,

表明所配曲線精度越高。

在選擇曲線類型時(shí),有時(shí)很難一下確定,這時(shí)可同時(shí)選擇兩種或兩種以上曲線類型進(jìn)行曲線回歸,然后進(jìn)行比較。選取相關(guān)指數(shù)較大或剩余標(biāo)準(zhǔn)差較小者為最佳的曲線類型。(三)一元曲線回歸的有效性檢驗(yàn)第三十七頁,共六十六頁,2022年,8月28日實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.638課后練習(xí)(5月9日交)測(cè)量某導(dǎo)線在一定溫度x下的電阻值y得到如下結(jié)果:請(qǐng)采用一元線性回歸找出y與x間關(guān)系的表達(dá)式,畫出散點(diǎn)與回歸線圖,并用相關(guān)系數(shù)檢驗(yàn)其顯著性x/C19.125.030.136.040.046.550.0y/76.3077.8079.7580.8082.3583.9085.10第三十八頁,共六十六頁,2022年,8月28日實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.639在相當(dāng)多的實(shí)際問題中,影響因變量的因素有很多,例如。太陽耀斑可能和一群黑子面積、半球面黑子相對(duì)數(shù)、日面綜合譜斑指數(shù)、某波段太陽射電輻射流量等10多個(gè)因素有關(guān);激光測(cè)月觀測(cè)中,時(shí)延的觀測(cè)值與理論值之差可能和望遠(yuǎn)鏡位置坐標(biāo)、月球反射器位置坐標(biāo)、月球和地球軌道參數(shù)等40多個(gè)參數(shù)采用值有關(guān)。為此,需要用多元回歸來描述它們之間的統(tǒng)計(jì)相關(guān)關(guān)系。另外,我們?cè)谇懊嫣岬降亩囗?xiàng)式回歸,最后也必須轉(zhuǎn)化為多元線性回歸問題.§6.3多元線性回歸第三十九頁,共六十六頁,2022年,8月28日實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.640在研究因變量y與多個(gè)自變量xi之間的統(tǒng)計(jì)關(guān)系時(shí),常常利用多元線性回歸模型:式中i

(i=0~m)稱為y對(duì)xi的回歸系數(shù),為正態(tài)隨機(jī)變量。上式表示了多維空間的一個(gè)“超平面”.和一元回歸類似,多元線性回歸就是要利用N組觀測(cè)數(shù)據(jù):,根據(jù)最小二乘法,對(duì)模型參數(shù)作出估計(jì)。設(shè)b0,b1,...bm為參數(shù)0,1,...

m的最小二乘估計(jì),則所得回歸方程應(yīng)為6.3.1多元線性回歸方程的求解

第四十頁,共六十六頁,2022年,8月28日實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.641由最小二乘原理,估計(jì)值b0,b1,...bm

應(yīng)使剩余平方和最?。河蓸O值定理,將Q分別對(duì)i

(i=0~m)求偏導(dǎo)數(shù),并令它們?yōu)榱?,則得到b0,b1,...bm所滿足的方程組:又,式中:第四十一頁,共六十六頁,2022年,8月28日實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.642常稱lij為協(xié)方差,上頁之線性方程組被稱為正規(guī)方程組。解此方程組就可以求得各回歸系數(shù)bi

(i=1~m),再由此求得常數(shù)項(xiàng)b0。為了方便,通常用矩陣形式表示上述正規(guī)方程組:令:則正規(guī)方程組可表為:

LB=Ly

線性方程組的解法很多,一般的情況可用消元法,或求逆陣法。在多元回歸分析中,正規(guī)方程組的系數(shù)矩陣的逆陣有其特殊的作用,因此常用求逆矩陣的方法。不難看出,L為對(duì)稱陣,其逆矩陣用C表示,即:

C=L-1=(Cij)

第四十二頁,共六十六頁,2022年,8月28日實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.643則正規(guī)方程組有唯一解,并可表為:B=CLy

或:在多元回歸中,由于各自變量的量綱往往是不一致的,這會(huì)使正規(guī)方程中各系數(shù)之間產(chǎn)生較大差異,影響了求解精度。如果我們采用標(biāo)準(zhǔn)化回歸模型,則可在一定程度上避免這方面誤差的影響。另外。從最后得到的標(biāo)準(zhǔn)回歸系數(shù)的大小,可以觀察各自變量對(duì)因變量關(guān)系的密切程度。

所謂標(biāo)準(zhǔn)化模型,就是將原來的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化變換,而對(duì)變換后的數(shù)據(jù)建立的回歸模型。將原觀測(cè)數(shù)據(jù)作如下的標(biāo)準(zhǔn)化變換:其中:第四十三頁,共六十六頁,2022年,8月28日實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.644則得到標(biāo)準(zhǔn)化數(shù)據(jù):

處理標(biāo)準(zhǔn)化數(shù)據(jù)還有很多方便之處:因?yàn)橛蓸?biāo)準(zhǔn)化變換定義式不難得到:對(duì)標(biāo)準(zhǔn)化數(shù)據(jù)仍用最小二乘法可得一組新的正規(guī)方程組:式中:

b’為標(biāo)準(zhǔn)化回歸系數(shù),記

第四十四頁,共六十六頁,2022年,8月28日實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.645則得到標(biāo)準(zhǔn)化正規(guī)方程組:通常,定義rij為自變量xi與xj的簡(jiǎn)單相關(guān)系數(shù)。而由它們構(gòu)成的矩陣稱為相關(guān)陣,用R表示,即:并用C’表示R的逆陣;Ry表示列向量,rjy(j=1~m);B’表示標(biāo)準(zhǔn)化回歸系數(shù)的列向量,即:第四十五頁,共六十六頁,2022年,8月28日實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.646則上頁之標(biāo)準(zhǔn)化正規(guī)方程組可寫成解此方程組,得標(biāo)準(zhǔn)回歸系數(shù):即:

由推導(dǎo)可知,故得標(biāo)準(zhǔn)化正規(guī)方程:同時(shí)可得標(biāo)準(zhǔn)回歸系數(shù)與實(shí)際回歸系數(shù)之間的轉(zhuǎn)換關(guān)系:

利用這個(gè)關(guān)系最后可把標(biāo)準(zhǔn)回歸系數(shù)化回到實(shí)際回歸系數(shù)。第四十六頁,共六十六頁,2022年,8月28日實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.647和一元回歸分析一樣,對(duì)于給定的一組觀測(cè)數(shù)據(jù),總可以利用多元線性回歸模型按最小二乘原理配一個(gè)回歸超平面。但這個(gè)回歸超平面是否有實(shí)際意義,則需要通過顯著性檢驗(yàn)才能作出判斷。多元回歸的顯著性檢驗(yàn),包括對(duì)總的回歸效果的檢驗(yàn)及對(duì)每個(gè)自變量的回歸系數(shù)的檢驗(yàn)兩個(gè)方面。6.3.2多元線性回歸的顯著性檢驗(yàn)(一)回歸方程的顯著性檢驗(yàn)多元線性回歸的顯著性檢驗(yàn)又稱多元回歸的方差分析,和一元回歸的檢驗(yàn)類似。我們?nèi)匀焕眉僭O(shè)檢驗(yàn),并用全部回歸系數(shù)均不為“0”的假設(shè)的對(duì)立假設(shè)為原假設(shè)。即:第四十七頁,共六十六頁,2022年,8月28日實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.648通過將總平方和進(jìn)行分解,確定檢驗(yàn)用的統(tǒng)計(jì)量及其分布,然后對(duì)給定的顯著水平確定置信限,將它和由觀測(cè)資料算得的統(tǒng)計(jì)量進(jìn)行比較,從而作出對(duì)原假設(shè)接受與否的判斷。在多元情況,我們?nèi)匀欢x:總平方和

回歸平方和

剩余平方和原假設(shè)H0成立的條件下,U~χ2(m),Q~χ2(N-m-1),且U和Q相互獨(dú)立。于是,統(tǒng)計(jì)量

服從第一自由度為m,第二自由度為N-m-1的F分布。第四十八頁,共六十六頁,2022年,8月28日實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.649對(duì)于給定的顯著水平α,由F分布表可查得置信限Fα(m,N-m-1),當(dāng)由樣本值算出的F>Fα(m,N-m-1)時(shí),拒絕原假設(shè),也就是說,對(duì)這組數(shù)據(jù)用模型擬合得到的回歸方程可以接受,且稱它為顯著的;如若F<Fα(m,N-m-1),則說所得的回歸方程不顯著。和一元回歸類似,多元回歸方程的顯著性檢驗(yàn)也可以應(yīng)用相關(guān)系數(shù)檢驗(yàn)法。定義:為y與各個(gè)自變量xi(i=1~m)的復(fù)(或全)相關(guān)系數(shù)。R的大小在一定的程度上反映了y與這些變量之間的密切程度:R越大表明y與這些變量之間的線性關(guān)系越密切;反之則表示這種線性關(guān)系不密切。但是必須提出,我們不能單純從R的大小來評(píng)定回歸效果的好壞,因?yàn)镽的大小還與自變量個(gè)數(shù)m及觀測(cè)組數(shù)N有關(guān)。第四十九頁,共六十六頁,2022年,8月28日實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.650因此,必須將算得的R與和F等價(jià)的相關(guān)系數(shù)臨界值Rα進(jìn)行比較來決定,具體方法和一元回歸的情況也相同。由R的定義式可以得到關(guān)系式:

(二)回歸系數(shù)的顯著性檢驗(yàn)在多元回歸中,我們并不只滿足于回歸方程是顯著的這個(gè)結(jié)論。因?yàn)榛貧w方程顯著只是拒絕了“回歸系數(shù)全部為0”這一假設(shè),但這并不意味著每個(gè)自變量對(duì)因變量y的影響都是重要的;即可能其中的某些回歸系數(shù)為或接近零。我們總是希望在線性回歸方程中包含與y有顯著關(guān)系的那些變量,不包含那些次要的、可有可無的變量。因此對(duì)于多元回歸來說,除了進(jìn)行回歸方程的顯著性檢驗(yàn)以外,還必須對(duì)每個(gè)變量相應(yīng)的回歸系數(shù)進(jìn)行檢驗(yàn)。第五十頁,共六十六頁,2022年,8月28日實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.651式中,Um是m個(gè)變量的回歸平方和,Ujm-1表示y對(duì)去掉xj

之后的m-1個(gè)變量的回歸平方和。因此,不難看出,偏回歸平方和可以用來衡量每個(gè)自變量在回歸中所起作用的大小。凡偏回歸平方和大的變量,一定是對(duì)y有重要影響的因素;凡偏回歸平方和小的變量,雖然不一定不顯著,但可以肯定,偏回歸平方和最小的那個(gè)變量,肯定是所有變量中對(duì)y貢獻(xiàn)最小的一個(gè)。為了進(jìn)行回歸系數(shù)的顯著性檢驗(yàn),必須考察每個(gè)自變量在多元回歸中所起的作用,故而引入偏回歸平方和概念?;貧w平方和是所有自變量對(duì)y變差的總貢獻(xiàn),所考慮的自變量愈多,回歸平方和就愈大。如果在所考慮的幾個(gè)變量中,剔除一個(gè)變量,回歸平方和就會(huì)減少;減少的數(shù)值愈多,說明該變量在回歸中所起的作用愈大。我們把取消一個(gè)自變量x后回歸平方和減少的數(shù)值稱為y對(duì)自變量xj的偏回歸平方和,記作pj,即

檢驗(yàn)的基本方法第五十一頁,共六十六頁,2022年,8月28日實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.652因此,檢驗(yàn)就從這個(gè)變量開始。我們將檢驗(yàn)的原假設(shè)取為:H0

:j

=0

可以證明,在j

=0成立的條件下服從第一自由度為l,第二自由度為N-m-1的F分布。于是對(duì)給定的置信度α,由F分布表可查得F(1,N-m-1)。當(dāng)統(tǒng)計(jì)量Fj>Fα(1,N-m-1)時(shí),則認(rèn)為變量xj對(duì)y的影響在α水平上顯著,在回歸方程中應(yīng)保留這個(gè)變量。由于xj是所有變量中對(duì)y貢獻(xiàn)最小的一個(gè),所以對(duì)其他變量可不必再作檢驗(yàn)。如果計(jì)算的統(tǒng)計(jì)量Fj>Fα,則接受原假設(shè),認(rèn)為和xj對(duì)應(yīng)的回歸系數(shù)不顯著,應(yīng)從回歸方程中將變量xj剔除,然后,重新建立m―1元的新的回歸方程,計(jì)算回歸系數(shù)和偏回歸平方和,再按上面的方法進(jìn)行回歸系數(shù)的顯著性檢驗(yàn)。

第五十二頁,共六十六頁,2022年,8月28日實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.653在進(jìn)行回歸系數(shù)的顯著性檢驗(yàn)時(shí),必須要計(jì)算偏回歸平方和。而由偏回歸平方和的定義式要計(jì)算每個(gè)變量的偏回歸平方和pj(j=1~m),必須要計(jì)算剔除每個(gè)變量xi(i=1~m)后重新建立的m-1元回歸方程的回歸平方和Uim-1(i=1~m)。這個(gè)重新建立的m-1元回歸方程,回歸系數(shù)和原方程的回歸系數(shù)是不同的,為了避免重建方程的大量計(jì)算,人們找到了原方程回歸系數(shù)與剔除某個(gè)變量后重新建立的回歸方程的系數(shù)的關(guān)系,大大地簡(jiǎn)化了計(jì)算。設(shè)bj(j=1~m)為m個(gè)自變量的回歸方程的回歸系數(shù),bj*(j≠k)為在m元回歸方程中剔除變量xk后,m-1元回歸方程的新回歸系數(shù)。利用行列式的雅可比定理可以證明,新、老回歸系數(shù)之間有如下關(guān)系:偏回歸平方和的計(jì)算其中ckk,ckj是原m元回歸方程中系數(shù)矩陣的逆陣C中對(duì)應(yīng)的元素第五十三頁,共六十六頁,2022年,8月28日實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.654我們由此可以得到一個(gè)直接利用m元回歸方程的結(jié)果計(jì)算偏回歸平方和的公式:6.3.3殘差檢驗(yàn)在實(shí)用回歸分析中,除了對(duì)回歸方程和回歸系數(shù)的顯著性檢驗(yàn)以外,還可以通過對(duì)殘差的分析來檢驗(yàn)?zāi)P偷倪m度。殘差即因變量觀測(cè)值yi和回歸值之差,記為ei:這個(gè)差是回歸方程不能解釋的量,如果模型正確,可將ei看作觀測(cè)誤差。在進(jìn)行回歸之前,對(duì)誤差(未知的真誤差i=y(tǒng)i-E(yi))已作了假定,即誤差相互獨(dú)立、具有零均值和固定方差σ2;為了求置信區(qū)間和進(jìn)行假設(shè)檢驗(yàn),又假定誤差服從正態(tài)分布。因此,如果擬合的模型正確,殘差就應(yīng)當(dāng)呈現(xiàn)出所假定的誤差的特性。如果回歸函數(shù)非線性,誤差項(xiàng)不獨(dú)立,誤差項(xiàng)方差不相等,模型中缺少一個(gè)或幾個(gè)自變量等偏離模型的情況,都可以通過殘差圖直觀地反映出來。第五十四頁,共六十六頁,2022年,8月28日實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.655所謂殘差圖是指以殘差為縱坐標(biāo)、以任何其它指定的量為橫坐標(biāo)的散點(diǎn)圖。這里的橫坐標(biāo)可以是自變量xi,可以是回歸值,也可以是時(shí)間(如果觀測(cè)數(shù)據(jù)是按時(shí)間順序獲得的)。下圖是幾種典型的殘差圖:(一)殘差圖分析線性模型適合模型不適,應(yīng)包含更多項(xiàng)方差不是常數(shù)誤差項(xiàng)不獨(dú)立或缺少自變量第五十五頁,共六十六頁,2022年,8月28日實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.656另外,從殘差圖中還可以檢測(cè)是否有異常觀測(cè)值存在。在殘差圖中,異常值的殘差絕對(duì)值比其它殘差大得多,一般離殘差均值有34個(gè)標(biāo)準(zhǔn)誤差的距離。當(dāng)出現(xiàn)異常殘差時(shí),必須仔細(xì)分析其來源,如果確認(rèn)是由觀測(cè)的異常值(可利用觀測(cè)數(shù)據(jù)的散點(diǎn)圖)引起,則應(yīng)予以放棄。如果模型中缺少某一自變量也會(huì)產(chǎn)生殘差異常值,這時(shí)異常值可能提供重要信息,不能隨便剔除。因此比較穩(wěn)妥的辦法是,只有探查出異常值是由過失誤差造成的,才將其剔除。殘差的圖示分析能比較直觀地檢驗(yàn)?zāi)P偷倪m度。而且因?yàn)槿魏我环N回歸分析都能很方便提供擬合值和殘差,因此得到各種類型的殘差圖也是簡(jiǎn)單易行的。

第五十六頁,共六十六頁,2022年,8月28日實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.657殘差的統(tǒng)計(jì)檢驗(yàn)是指用統(tǒng)計(jì)的方法檢驗(yàn)殘差的隨機(jī)性、等方差性及正態(tài)性等:它們是在殘差圖分析的基礎(chǔ)上的進(jìn)一步檢驗(yàn)。當(dāng)殘差圖顯示出方差可能系統(tǒng)地隨著X或E(y)增加或減小時(shí),一種簡(jiǎn)單的等方差的檢驗(yàn)方法是按X把觀測(cè)值分為兩段,分別擬合回歸函數(shù),然后計(jì)算誤差均方,用F檢驗(yàn)法檢驗(yàn)方差是否相等。檢驗(yàn)一個(gè)分布是否為正態(tài)的方法很多,常用的一個(gè)較簡(jiǎn)單的方法是利用殘差的直方圖:如果直方圖中間高、兩邊低,呈正態(tài)密度曲線形狀,則可認(rèn)為殘差來自正態(tài)母體??紤]一組殘差,設(shè)共有n個(gè)符號(hào),其中n1個(gè)正號(hào),n2個(gè)負(fù)號(hào),每種符號(hào)都被另外一種符號(hào)隔成一些子序列,每個(gè)子序列稱為一個(gè)游程,兩種符號(hào)的游程總數(shù)記為R(二)殘差的統(tǒng)計(jì)檢驗(yàn)第五十七頁,共六十六頁,2022年,8月28日實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.658如看下面的一個(gè)符號(hào)序列:

++---+--+++----+++-++--則n1=11,n2=12,n=23,共有R=10個(gè)游程。假定n個(gè)元素的任一排列出現(xiàn)的概率是相等的,則游程總數(shù)R的概率函數(shù)為:及第五十八頁,共六十六頁,2022年,8月28日實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.659利用概率函數(shù)可以證明,離散隨機(jī)變量R的均值和方差分別為:對(duì)給定的顯著水平α,由R的概率分布可得拒絕域[0,Rα(n1,n2)]的臨界值Rα(n1,n2),它可以從數(shù)理統(tǒng)計(jì)表中的“游程總數(shù)檢驗(yàn)表”查出。

例如對(duì)前面列出的殘差符號(hào)排列,n1=11,n2=12,R=10,取顯著水平α=0.05,查“游程總數(shù)檢驗(yàn)表”得R0.05(11,12)=8,則有R>R0.05,應(yīng)該接受殘差序列為隨機(jī)的假設(shè)。實(shí)際上,當(dāng)n1,n2>10時(shí),游程總數(shù)R漸近服從正態(tài)分布,即服從標(biāo)準(zhǔn)正態(tài)分布。其中的是連續(xù)性修正值,用以補(bǔ)償用連續(xù)型分布近似離散型分布所造成的損失,因此可以其進(jìn)行游程數(shù)檢驗(yàn)。第五十九頁,共六十六頁,2022年,8月28日實(shí)驗(yàn)數(shù)據(jù)分析方法_Chap.660游程檢驗(yàn)不僅用于檢驗(yàn)殘差的隨機(jī)性,也可以用來檢驗(yàn)樣本的隨機(jī)性。只要先確定樣本的中位數(shù),對(duì)中位數(shù)以上的數(shù)記

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論