版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、回歸模型的診斷第四講回歸分析回歸診斷回歸模型的診斷第四講回歸分析回歸診斷 通過簡單回歸和多元回歸模型可以有了計算結(jié)果。這些結(jié)果能做推斷,需要建立在一些概述性統(tǒng)計量的基礎(chǔ)之上,這些統(tǒng)計量由數(shù)據(jù)來計算。而只有當(dāng)標(biāo)準(zhǔn)的回歸假定滿足時,所做的推斷才有可能是合理的,有意義的。而對假定的核定,可以用圖形的方法,也可以用嚴(yán)格的數(shù)值去檢查。數(shù)據(jù)也需要考慮還有模型的設(shè)定第四講回歸分析回歸診斷 通過簡單回歸和多元回歸模型可以有了計算結(jié)果。第四講回第四講回歸分析回歸診斷第四講回歸分析回歸診斷標(biāo)準(zhǔn)的回歸假定:1,關(guān)于模型設(shè)定的假定2,關(guān)于誤差的假定3,關(guān)于預(yù)測變量的假定 非隨機的 其取值是誤差取得的,但幾乎不可能。測
2、量誤差將影響到誤差方差,相關(guān)系數(shù),復(fù)相關(guān)系數(shù)及回歸系數(shù)的估計,其影響程度的大小取決于多個因素。 是線性無關(guān)的4,關(guān)于觀測的假定 所有觀測是同樣可靠性第四講回歸分析回歸診斷標(biāo)準(zhǔn)的回歸假定:1,關(guān)于模型設(shè)定的假定第四講回歸分析回歸診斷數(shù)據(jù)的診斷 異常值 強影響點 假定是否滿足模型的診斷第四講回歸分析回歸診斷數(shù)據(jù)的診斷 異常值 強影響點線性回歸模型中的異常點分析第四講回歸分析回歸診斷6線性回歸模型中的異常點分析第四講回歸分析回歸診斷6異常點的識別與處理,是統(tǒng)計診斷中很重要的一項內(nèi)容。異常點的出現(xiàn)會影響分析結(jié)果的可信度。異常點的存在往往蘊涵著重要的信息。在有些情況下,異常點的出現(xiàn)是因為有新事物出現(xiàn)或者
3、新情況發(fā)生,比如經(jīng)濟模型中某種經(jīng)濟政策的出臺等,都能表現(xiàn)出異常,這通常是我們的研究興趣所在。第四講回歸分析回歸診斷異常點的識別與處理,是統(tǒng)計診斷中很重要的一項內(nèi)容。第四講回歸在另外一些情況下,異常點的出現(xiàn)是由于人為差錯或者儀器的故障所引起的。在我們需要根據(jù)樣本對模型進(jìn)行參數(shù)估計或者根據(jù)模型對將來進(jìn)行預(yù)測與控制的時候,異常點的出現(xiàn)會對我們的工作產(chǎn)生很強的影響,這樣的結(jié)果是令人懷疑的。因此,異常點的研究受到了廣大研究者的重視,自Bernoulli首次提出了異常點的概念,接下來對異常點的概念、類型以及處理問題的討論一直沒有停止過。第四講回歸分析回歸診斷在另外一些情況下,異常點的出現(xiàn)是由于人為差錯或者
4、儀器的故障所異常點的成因與處理為什么會出現(xiàn)異常點?對這個問題的回答大致可以歸結(jié)為以下三種情況:整體模型變化、局部模型變化和自然變異。在前兩種情況下,異常點出現(xiàn)的多而且連續(xù),往往蘊涵著機制的變化、新事物的出現(xiàn)或者新局面的形成,大量而且連續(xù)的異常點可以用新的模型來擬合。對于整個數(shù)據(jù)集,實質(zhì)上已經(jīng)成為一個混合模型。而第三種成因更為常見,偶爾的人為差錯或者儀器的故障都可以引起異常。對于由不同的原因引起的異常點,它們的處理方法是不同的。在進(jìn)行統(tǒng)計診斷時,判斷異常點的成因是很重要的,是對異常點進(jìn)行正確處理的先決條件。第四講回歸分析回歸診斷異常點的成因與處理為什么會出現(xiàn)異常點?對這個問題的回答大致可通常對異
5、常值的處理方法有兩種。一種是把異常點作為工作重點,目標(biāo)就是發(fā)現(xiàn)異常點并確定是否要作進(jìn)一步的研究,這樣的異常點往往含有很重要的信息。這時不僅要判斷出異常點的存在與否,還要確定異常點出現(xiàn)的位置以及影響大小。這是統(tǒng)計診斷中一個重要內(nèi)容,圍繞此類問題出現(xiàn)了大量的統(tǒng)計量檢驗方法及影響分析研究。第四講回歸分析回歸診斷通常對異常值的處理方法有兩種。一種是把異常點作為工作重點,目對于由第三種成因引起的異常點,發(fā)現(xiàn)之后可以進(jìn)行刪除,以免影響參數(shù)估計等以后的工作效果。另外一種方法就是對于異常點采取容忍的態(tài)度,把整個數(shù)據(jù)集作為研究的基礎(chǔ),對于一定比例的壞數(shù)據(jù)或者遠(yuǎn)離數(shù)據(jù)中心的數(shù)據(jù)采取一定的容忍或適應(yīng)政策第四講回歸分
6、析回歸診斷對于由第三種成因引起的異常點,發(fā)現(xiàn)之后可以進(jìn)行刪除,以免影響回歸系數(shù)一般采用“最小二乘估計”(least squares estimator,LS estimator)求解,但是在應(yīng)用中容易忽視的問題是LS估計只有在數(shù)據(jù)滿足相應(yīng)條件的情況下才會具有統(tǒng)計描述和推斷的優(yōu)良性質(zhì),如要求誤差服從正態(tài)分布、總體方差相同且相互獨立等。當(dāng)實際數(shù)據(jù)沒有近似滿足這些假定時,就會出現(xiàn)一些異常點(outliers)、杠桿點(leverage point)及影響點(influential observations),使分析結(jié)果變得不可靠,不能發(fā)現(xiàn)數(shù)據(jù)中的真實結(jié)構(gòu),從專業(yè)上難以解釋結(jié)果,甚至得到完全錯誤的結(jié)論
7、。尤其是隨著統(tǒng)計軟件的日漸普及,我們傾向于簡單地將數(shù)據(jù)交給軟件來分析,而不注意具體方法的應(yīng)用條件,盡管采用了SAS、SPSS這些國際標(biāo)準(zhǔn)軟件,但是輸出結(jié)果有時卻與專業(yè)解釋相悖。第四講回歸分析回歸診斷回歸系數(shù)一般采用“最小二乘估計”(least squares異常點在統(tǒng)計診斷中的地位異常點(outlier)是統(tǒng)計診斷中很重要的一個概念。統(tǒng)計診斷(Statistical Diagnostics)就是對從實際問題中收集起來的數(shù)據(jù)、提煉出來的模型以及由此出發(fā)所作的推斷方法的合理性進(jìn)行深入而細(xì)致的分析,并通過一些診斷統(tǒng)計量來檢查數(shù)據(jù)、模型及推斷方法中可能存在的毛病,進(jìn)而提出治療方案,進(jìn)行模型或者推斷方法
8、的改進(jìn)。統(tǒng)計診斷主要包括異常點識別、殘差分析、影響分析和數(shù)據(jù)變換等內(nèi)容,異常點的識別是處理統(tǒng)計診斷的重要內(nèi)容之一,它進(jìn)行的好壞通常影響到整個過程的診斷。第四講回歸分析回歸診斷異常點在統(tǒng)計診斷中的地位異常點(outlier)是統(tǒng)計診斷中第四講回歸分析回歸診斷第四講回歸分析回歸診斷第四講回歸分析回歸診斷第四講回歸分析回歸診斷第四講回歸分析回歸診斷第四講回歸分析回歸診斷第四講回歸分析回歸診斷第四講回歸分析回歸診斷異常值有時一個,有時多個第四講回歸分析回歸診斷異常值有時一個,有時多個第四講回歸分析回歸診斷在回歸模型中,異常點是指對既定模型偏離很大的數(shù)據(jù)點。但究竟偏離達(dá)到何促程度才算是異常,這就必須對模
9、型誤差項的分布有一定的假設(shè)(通常假定為正態(tài)分布)。目前對異常點有以下兩種較為流行的看法:異常點第四講回歸分析回歸診斷在回歸模型中,異常點是指對既定模型偏離很大的數(shù)據(jù)點。但究竟偏把異常點看成是那些與數(shù)據(jù)集的主體明顯不協(xié)調(diào),使得研究者大感驚訝的數(shù)據(jù)點。這時,異常點可解釋為所假定的分布中的極端點,即落在分布的單側(cè)或雙側(cè) 分位點以外的點,而 通常取很小的值(如:0.005 ),致使觀察者對數(shù)據(jù)中出現(xiàn)如此極端的點感到意外。把異常點視為雜質(zhì)點。它與數(shù)據(jù)集的主體不是來自同一分布,是在絕大多數(shù)來自某一共同分布的數(shù)據(jù)點中摻入的來自另一分布的少量“雜質(zhì)”第四講回歸分析回歸診斷把異常點看成是那些與數(shù)據(jù)集的主體明顯不
10、協(xié)調(diào),使得研究者大感驚殘差在回歸分析中,異常數(shù)據(jù)的發(fā)現(xiàn)或模型的檢測、標(biāo)準(zhǔn)假設(shè)的檢測的一個簡單而有效的方法是研究殘差圖。殘差圖能夠指明哪個或哪些標(biāo)準(zhǔn)假定不成立。更重要的是,殘差分析可能引導(dǎo)我們發(fā)現(xiàn)數(shù)據(jù)中的結(jié)構(gòu),也可能指出那些蘊涵在數(shù)據(jù)中的、在只用一些概述性統(tǒng)計量分析時容易被疏漏的信息。這些啟發(fā)或線索可能幫助我們更好地理解所研究的問題,或者找到更好的模型。對殘差進(jìn)行圖形分析往往是回歸分析中最重要的一部分工作。第四講回歸分析回歸診斷殘差在回歸分析中,異常數(shù)據(jù)的發(fā)現(xiàn)或模型的檢測、標(biāo)準(zhǔn)假設(shè)的檢測殘差普通最小二乘法的殘差:學(xué)生化殘差:第四講回歸分析回歸診斷殘差普通最小二乘法的殘差:第四講回歸分析回歸診斷第
11、四講回歸分析回歸診斷第四講回歸分析回歸診斷強影響點強影響點和異常點是兩個不同的概念,它們之間既有聯(lián)系也有區(qū)別。強影響點可能同時又是異常點也可能不是;反之,異常點可能同時又是強影響點也可能不是。第四講回歸分析回歸診斷強影響點強影響點和異常點是兩個不同的概念,它們之間既有聯(lián)系也已知20條河流流域的有關(guān)測量數(shù)據(jù).研究者感興趣的是,河流周邊地區(qū)土地的利用程度對水污染(平均氮濃度)有何影響河流農(nóng)田覆蓋率森林覆蓋率住宅地占土地總面積百分比工業(yè)及商業(yè)用地占總面積百分比春夏秋冬各季度采集到的樣本的平均氮濃度mg/升RiverAgrForestRsdntialComIndlNitrogenOlean26631.
12、20.291.1Cassadaga29570.70.091.01Oatka54261.80.581.9Neversink2841.91.981Hackensack32729.43.111.9919613.40.561.42Fishkill16605.61.112.04Honeoye 40431.30.241.65Susquehanna28621.10.151.01Chenango26600.90.231.21East Canada6840.50.120.73Saranac3810.80.350.8Ausable2890.70.350.76Black6820.50.150.87Schoharie
13、22700.90.220.8Raquette4750.40.180.87 Oswegatchie21560.50.130.66Cohocton40491.10.131.25第四講回歸分析回歸診斷已知20條河流流域的有關(guān)測量數(shù)據(jù).河流農(nóng)田覆蓋率森林覆蓋率住利用三個數(shù)據(jù)集合獲得的回歸系數(shù)和其T檢驗統(tǒng)計量相差很大1.用全部數(shù)據(jù)2.剔除NEVERSINK數(shù)據(jù)(4)3.提出HACKENSACK數(shù)據(jù)(5)第四講回歸分析回歸診斷利用三個數(shù)據(jù)集合獲得的回歸系數(shù)和其T檢驗統(tǒng)計量相差很大第四講回歸統(tǒng)計Multiple R0.842257R Square0.709398Adjusted R Square0.6319
14、04標(biāo)準(zhǔn)誤差0.264919觀測值20方差分析dfSSMSFSignificance F回歸分析42.5698460.6424629.1542310.000596殘差151.0527290.070182總計193.622575Coefficients標(biāo)準(zhǔn)誤差t StatP-valueLower 95%Upper 95%Intercept1.7222141.2340821.3955430.183169-0.908174.352596X 10.0058090.0150340.38640.704626-0.026240.037853X 2-0.012970.013931-0.930830.36668
15、-0.042660.016726X 3-0.007230.03383-0.213620.83372-0.079330.06488X 40.3050280.1638171.8620070.08231-0.044140.654195第四講回歸分析回歸診斷回歸統(tǒng)計Multiple R0.842257R Square回歸統(tǒng)計Multiple R0.925064R Square0.855744Adjusted R Square0.814528標(biāo)準(zhǔn)誤差0.192504觀測值19方差分析dfSSMSF回歸分析43.0776520.76941320.76242殘差140.5188110.037058總計183
16、.596463Coefficients標(biāo)準(zhǔn)誤差t StatP-valueIntercept1.0994710.9116361.2060420.247788X Variable 10.0101370.0109840.9228730.371705X Variable 2-0.007590.010222-0.742440.470098X Variable 3-0.123790.039337-3.146980.007134X Variable 41.5289560.3437194.4482730.000551第四講回歸分析回歸診斷回歸統(tǒng)計Multiple R0.925064R Square第四講回歸分
17、析回歸診斷第四講回歸分析回歸診斷盡管三個數(shù)據(jù)集只差一觀測數(shù)據(jù),但回歸結(jié)果有巨大差異比如,看X3回歸系數(shù)的T檢驗值,使用全部數(shù)據(jù)時該檢驗是不顯著的,剔除掉數(shù)據(jù)4后,顯著為正;可見,僅一個觀測就能導(dǎo)致根本不同的結(jié)論數(shù)據(jù)(4)(5)稱為強影響觀測,因為他們對回歸的影響遠(yuǎn)強于其他觀測。第四講回歸分析回歸診斷盡管三個數(shù)據(jù)集只差一觀測數(shù)據(jù),但回歸結(jié)果有巨大差異第四講回歸看數(shù)據(jù),一眼就能發(fā)現(xiàn)數(shù)據(jù)(5)其X3的值突出的高。然后再分析其背景第四講回歸分析回歸診斷看數(shù)據(jù),一眼就能發(fā)現(xiàn)數(shù)據(jù)(5)其X3的值突出的高。第四講回歸數(shù)據(jù)集中的強影響點是指那些對統(tǒng)計量的取值有非常大的影響力的點。在考慮強影響點時,有幾個基本問
18、題需要考慮:首先必須明確“是對哪個統(tǒng)計量的影響?”例如,對線性回歸模型所考慮的是對回歸系數(shù)的估計量的影響;不是對誤差方差的估計影響;或是對擬合優(yōu)度統(tǒng)計量的影響等等。分析目標(biāo)不同,所考慮的影響亦有所不同。強影響點第四講回歸分析回歸診斷數(shù)據(jù)集中的強影響點是指那些對統(tǒng)計量的取值有非常大的影響力的點其次,必須確定“度量影響的尺度是什么?”為了定量地刻劃影響的大小,迄今為止已提出多種尺度,基于置信域的尺度,基于似然函數(shù)的尺度等等。在每一種類型中又可能有不同的統(tǒng)計量。每一種度量都是著眼于某一方面的影響,并在某種具體場合下較為有效。這一方面反映了度量影響問題的復(fù)雜性,另一方面也說明了影響分析的研究在統(tǒng)計診斷
19、中是一個甚為活躍的議程。第四講回歸分析回歸診斷其次,必須確定“度量影響的尺度是什么?”為了定量地刻劃影響的強影響點通常是數(shù)據(jù)集中更為重要的數(shù)據(jù)點,它往往能提供比一般數(shù)據(jù)點更多的信息,因此需引起特別注意。第四講回歸分析回歸診斷強影響點通常是數(shù)據(jù)集中更為重要的數(shù)據(jù)點,它往往能提供比一般數(shù)有影響的觀測值(圖示)第四講回歸分析回歸診斷有影響的觀測值(圖示)第四講回歸分析回歸診斷有影響的觀測值(圖示)第四講回歸分析回歸診斷有影響的觀測值(圖示)第四講回歸分析回歸診斷有影響的觀測值(圖示)第四講回歸分析回歸診斷有影響的觀測值(圖示)第四講回歸分析回歸診斷有影響的觀測值(圖示)有影響的觀測值存在影響值的趨勢
20、第四講回歸分析回歸診斷有影響的觀測值(圖示)有影響的觀測值存在影響值的趨勢第四講有影響的觀測值(圖示)不存在影響值的趨勢有影響的觀測值存在影響值的趨勢第四講回歸分析回歸診斷有影響的觀測值(圖示)不存在影響值的趨勢有影響的觀測值存在強影響觀測或者其影響變量取值異常,或者其預(yù)測變量取值異常。響應(yīng)變量取值異常 標(biāo)準(zhǔn)化殘差大的觀測其響應(yīng)變量的取值異常,因為在Y方向上他們遠(yuǎn)離擬合的回歸方程。由于各標(biāo)準(zhǔn)化殘差近似服從標(biāo)準(zhǔn)正態(tài)分布,那么標(biāo)準(zhǔn)化的殘差之絕對值大于2或3的點稱為異常點。第四講回歸分析回歸診斷強影響觀測或者其影響變量取值異常,或者其預(yù)測變量取值異常。第預(yù)測變量取值異常異常點也可能出現(xiàn)在預(yù)測變量中,
21、他們同樣也會影響回歸結(jié)果,杠桿值可用于度量觀測在預(yù)測變量中的異常程度。第四講回歸分析回歸診斷預(yù)測變量取值異常第四講回歸分析回歸診斷偽裝與淹沒的問題第四講回歸分析回歸診斷偽裝與淹沒的問題第四講回歸分析回歸診斷第四講回歸分析回歸診斷第四講回歸分析回歸診斷光看殘差是不夠的,需要其他的度量指標(biāo)第四講回歸分析回歸診斷光看殘差是不夠的,需要其他的度量指標(biāo)第四講回歸分析回歸診斷看這個圖形,(5)(4)是強影響點第四講回歸分析回歸診斷看這個圖形,(5)(4)是強影響點第四講回歸分析回歸診斷但看標(biāo)準(zhǔn)化殘差看不出來第四講回歸分析回歸診斷但看標(biāo)準(zhǔn)化殘差看不出來第四講回歸分析回歸診斷殘差圖也看不出來第四講回歸分析回歸
22、診斷殘差圖也看不出來第四講回歸分析回歸診斷杠桿值的序列圖可以看出來了第四講回歸分析回歸診斷杠桿值的序列圖可以看出來了第四講回歸分析回歸診斷第四講回歸分析回歸診斷第四講回歸分析回歸診斷我們還需要相關(guān)的度量指標(biāo)第四講回歸分析回歸診斷我們還需要相關(guān)的度量指標(biāo)第四講回歸分析回歸診斷影響的各種度量第四講回歸分析回歸診斷影響的各種度量第四講回歸分析回歸診斷影響的各種度量如果有些數(shù)據(jù)的C比其余點突出,那么該對此點打上標(biāo)記第四講回歸分析回歸診斷影響的各種度量第四講回歸分析回歸診斷第四講回歸分析回歸診斷第四講回歸分析回歸診斷第四講回歸分析回歸診斷第四講回歸分析回歸診斷第四講回歸分析回歸診斷第四講回歸分析回歸診斷
23、影響點第四講回歸分析回歸診斷影響點第四講回歸分析回歸診斷通過圖顯示強影響點第四講回歸分析回歸診斷通過圖顯示強影響點第四講回歸分析回歸診斷第四講回歸分析回歸診斷第四講回歸分析回歸診斷圖形方法圖形方法在數(shù)據(jù)分析中起著重要的作用,在對數(shù)據(jù)擬合線性模型時,圖形方法尤其重要.沒有哪種統(tǒng)計工具能象一張精選出來的圖形一樣有威力.圖形方法可以被視為探索性的工具,同時也是驗證分析或統(tǒng)計推斷不可缺少的一部分.第四講回歸分析回歸診斷圖形方法圖形方法在數(shù)據(jù)分析中起著重要的作用,在對數(shù)據(jù)擬合線性圖形方法的作用1.發(fā)現(xiàn)數(shù)據(jù)中的錯誤(如印刷錯誤)2.辨別數(shù)據(jù)中的模式(如密集群,異常點,明顯的差距等)3.探索變量間的關(guān)系4.
24、發(fā)現(xiàn)新現(xiàn)象5.確認(rèn)或否認(rèn)各項假定6.評價擬合的模型是否充分7.建議修正措施(例如數(shù)據(jù)變換,收集更多的數(shù)據(jù)等)第四講回歸分析回歸診斷圖形方法的作用1.發(fā)現(xiàn)數(shù)據(jù)中的錯誤(如印刷錯誤)第四講回歸分圖形1.一維圖(看變量的分布)2.二維圖3.旋轉(zhuǎn)圖4.動態(tài)圖第四講回歸分析回歸診斷圖形1.一維圖(看變量的分布)第四講回歸分析回歸診斷一維圖直方圖莖葉圖點圖箱線圖第四講回歸分析回歸診斷一維圖直方圖第四講回歸分析回歸診斷二維圖第四講回歸分析回歸診斷二維圖第四講回歸分析回歸診斷我們希望圖中的各散點圖看上去是怎么樣的呢?對于簡單回歸,我們預(yù)期Y與X之間呈現(xiàn)某種直線模式,但對于多元回歸,Y與各自變量之間的散點圖可能
25、呈直線狀.在線性模式較為肯定的場合,這些散點圖的非線性狀態(tài)并不說明線性模型不正確.第四講回歸分析回歸診斷我們希望圖中的各散點圖看上去是怎么樣的呢?對于簡單回歸,我們應(yīng)同時依賴于各個預(yù)測變量而不是單個從上面的二維圖看到,Y與X1之間,Y與X2之間都不存在線性關(guān)系,然而作Y關(guān)于X1和X2兩個變量的回歸時,擬合程度幾近完美.第四講回歸分析回歸診斷應(yīng)同時依賴于各個預(yù)測變量而不是單個第四講回歸分析回歸診斷第四講回歸分析回歸診斷第四講回歸分析回歸診斷第四講回歸分析回歸診斷第四講回歸分析回歸診斷我們假定預(yù)測變量之間是線性無關(guān)的,所以預(yù)測變量對散點圖不應(yīng)該呈直線狀,更理想地,我們希望從中看不出任何可辯識的模式
26、.無論是線性的還是非線性的.但是上面例中,該假定是不成立.因為X1和X2有明顯的線性關(guān)系.當(dāng)然這些散點圖不呈直線狀還不能說明全部變量間的線性無關(guān)的,因為線性關(guān)系可能存在與多個預(yù)測變量之間.第四講回歸分析回歸診斷我們假定預(yù)測變量之間是線性無關(guān)的,所以預(yù)測變量對散點圖不應(yīng)該旋轉(zhuǎn)圖第四講回歸分析回歸診斷旋轉(zhuǎn)圖第四講回歸分析回歸診斷如何處理異常點?異常點和強影響觀測值不應(yīng)該機械被刪除或自動降低權(quán)重,因為他們不一定是壞的觀測。相反,如果它們是準(zhǔn)確的,它們就可能是數(shù)據(jù)中含信息最多的點。比如,他們可能指出數(shù)據(jù)并非來自正態(tài)總體,或者模型不是線性的,我們看下例中的數(shù)據(jù)看異常點及強影響點可能是數(shù)據(jù)中含信息量最多的
27、點。第四講回歸分析回歸診斷如何處理異常點?異常點和強影響觀測值不應(yīng)該機械被刪除或自動降 圖中是XY兩個變量的散點圖,數(shù)據(jù)主體顯示了X與Y之間的某種線性關(guān)系。但右上角的22和23兩個點是異常值。如果這兩個點是正確的,那么它們則是數(shù)據(jù)集中僅有的、顯示著這批數(shù)據(jù)可能服從某種非線性模型的觀測。 我們把這想象為一個細(xì)菌的群體,它在異端時間內(nèi)最后的非常緩慢,但過了某個時間的臨界點之后,迅速增長。第四講回歸分析回歸診斷 圖中是XY兩個變量的散點圖,數(shù)據(jù)主體顯示了X與Y之間一旦鑒別出了異常點和強影響觀測后,如何處理呢?因為異常點和強影響觀測可能是數(shù)據(jù)集中信息最豐富的觀測,因而不應(yīng)該不加說明、自動地拋棄它們。相
28、反,應(yīng)當(dāng)通過考察,判斷它們?yōu)楹问钱惓5幕驈娪绊扅c。根據(jù)這些考察才可能采取合適、正確的措施正確的措施包括:改正數(shù)據(jù)中的錯誤、刪除異常點或降低他們的權(quán)重、變換數(shù)據(jù)、考慮不同的模型、重新收集或補充更多的數(shù)據(jù)。第四講回歸分析回歸診斷一旦鑒別出了異常點和強影響觀測后,如何處理呢?第四講回歸分析模型的誤設(shè)及其后果1. 包含不相干的解釋變量:則估計量是一致、無偏的,但不是最佳線性無偏估計量。假設(shè)檢驗是有效的。此外,如果包含的不相干的變量與其它解釋變量相關(guān),則引起的主要后果是解釋變量之間的多重共線性.第四講回歸分析回歸診斷模型的誤設(shè)及其后果第四講回歸分析回歸診斷 設(shè) Y=0+ 1X1+v (*) 為正確模型,
29、但卻估計了 Y=0+1X1+2X2+ (*) 如果2=0,則(*)與(*)相同,因此,可將(*)式視為以2=0為約束的(*)式的特殊形式。包含無關(guān)變量偏誤第四講回歸分析回歸診斷 設(shè) Y=0+ 1X1 由于所有的經(jīng)典假設(shè)都滿足,因此對 Y=0+1X1+2X2+ (*)式進(jìn)行OLS估計,可得到無偏且一致的估計量。 但是,OLS估計量卻不具有最小方差性。Y=0+ 1X1+v 中X1的方差:Y=0+1X1+2X2+ 中X1的方差: 當(dāng)X1與X2完全線性無關(guān)時: 否則:注意:第四講回歸分析回歸診斷 由于所有的經(jīng)典假設(shè)都滿足,因此對 但是,OLS估計量卻則 擾動項的性質(zhì)完全起了變化。模型的估計會由于自相關(guān)
30、而引起誤差,估計量將不會是最佳線性無偏估計。假設(shè)檢驗將是無效的.2. 遺漏解釋變量第四講回歸分析回歸診斷則 擾動項的性質(zhì)完全起了變化。2. 遺漏解釋變量第四講回歸分例如,如果“正確”的模型為而我們將模型設(shè)定為 即設(shè)定模型時漏掉了一個相關(guān)的解釋變量。 動態(tài)設(shè)定偏誤:遺漏相關(guān)變量表現(xiàn)為對Y或X滯后項的遺漏 。 第四講回歸分析回歸診斷例如,如果“正確”的模型為而我們將模型設(shè)定為 即設(shè)定模型時漏 采用遺漏相關(guān)變量的模型進(jìn)行估計而帶來的偏誤稱為遺漏相關(guān)變量偏誤。 設(shè)正確的模型為 Y=0+1X1+2X2+卻對 Y=0+ 1X1+v進(jìn)行回歸,得遺漏相關(guān)變量偏誤第四講回歸分析回歸診斷 采用遺漏相關(guān)變量的模型進(jìn)
31、行估計而帶來的偏誤稱為遺漏相關(guān)將正確模型 Y=0+1X1+2X2+ 的離差形式 代入得(1)如果漏掉的X2與X1相關(guān),則式中的第二項在小樣本下求期望與大樣本下求概率極限都不會為零,從而使得OLS估計量在小樣本下有偏,在大樣本下非一致。第四講回歸分析回歸診斷將正確模型 Y=0+1X1+2X2+ 的離差形式 代 (2)如果X2與X1不相關(guān),則1的估計滿足無偏性與一致性;但這時0的估計卻是有偏的。 由 Y=0+ 1X1+v 得由 Y=0+1X1+2X2+ 得第四講回歸分析回歸診斷 (2)如果X2與X1不相關(guān),則1的估計滿足無偏性與模型的估計會由于自相關(guān)而引起誤差,估計量將不會是最佳線性無偏估計。假設(shè)
32、檢驗將是無效的.例如,如果“真實”的回歸函數(shù)為 但卻將模型設(shè)定為 顯然,兩者的參數(shù)具有完全不同的經(jīng)濟含義,且估計結(jié)果一般也是不相同的。 3.模型形式的誤設(shè)第四講回歸分析回歸診斷模型的估計會由于自相關(guān)而引起誤差,估計量將不會是最佳線性無偏4.如果在設(shè)定的模型里用錯誤的解釋變量代替正確的解釋變量,則可看成出現(xiàn) 1和2兩種情形誤設(shè)的復(fù)合,即遺漏解釋變量的同時加入不相干的變量。分析四種模型誤設(shè)的情形,后果最嚴(yán)重的是哪一種情況.第四講回歸分析回歸診斷4.如果在設(shè)定的模型里用錯誤的解釋變量代替正確的解釋變量,則 可用t 檢驗與F檢驗完成。 檢驗的基本思想:如果模型中誤選了無關(guān)變量,則其系數(shù)的真值應(yīng)為零。因
33、此,只須對無關(guān)變量系數(shù)的顯著性進(jìn)行檢驗。 t檢驗:檢驗?zāi)?個變量是否應(yīng)包括在模型中; F檢驗:檢驗若干個變量是否應(yīng)同時包括在模型中 模型設(shè)定偏誤的檢驗 1、檢驗是否含有無關(guān)變量 第四講回歸分析回歸診斷 可用t 檢驗與F檢驗完成。模型設(shè)定偏誤的檢驗 1、 (1)殘差圖示法2、檢驗是否有相關(guān)變量的遺漏或函數(shù)形式設(shè)定偏誤第四講回歸分析回歸診斷 (1)殘差圖示法2、檢驗是否有相關(guān)變量的遺漏或函數(shù)形 殘差序列變化圖趨勢變化 :模型設(shè)定時可能遺漏了一隨著時間的推移而持續(xù)上升的變量 循環(huán)變化:模型設(shè)定時可能遺漏了一隨著時間的推移而呈現(xiàn)循環(huán)變化的變量 第四講回歸分析回歸診斷 殘差序列變化圖趨勢變化 :模型設(shè)定
34、時可能遺漏了一隨著時間 模型函數(shù)形式設(shè)定偏誤時殘差序列呈現(xiàn)正負(fù)交替變化 第四講回歸分析回歸診斷 模型函數(shù)形式設(shè)定偏誤時殘差序列呈現(xiàn)正負(fù)交替變化 第四講回 (2)一般性設(shè)定偏誤檢驗 但更準(zhǔn)確更常用的判定方法是拉姆齊(Ramsey)于1969年提出的所謂RESET 檢驗 基本思想: 如果事先知道遺漏了哪個變量,只需將此變量引入模型,估計并檢驗其參數(shù)是否顯著不為零即可; 問題是不知道遺漏了哪個變量,需尋找一個替代變量Z,來進(jìn)行上述檢驗。 RESET檢驗中,采用所設(shè)定模型中被解釋變量Y的估計值的若干次冪來充當(dāng)該“替代”變量。 3、檢驗是否有相關(guān)變量的遺漏或函數(shù)形式設(shè)定偏誤第四講回歸分析回歸診斷 (2)
35、一般性設(shè)定偏誤檢驗 但更準(zhǔn)確更常用的判定方法是 例如,先估計 Y=0+ 1X1+v 得 然后再利用F檢驗來判斷是否增加這些“替代”變量。 若僅增加一個“替代”變量,也可通過t檢驗來判斷。 第四講回歸分析回歸診斷 例如,先估計 Y=0+ 1X1+v 例如,在一元回歸中,假設(shè)真實的函數(shù)形式是非線性的,用泰勒定理將其近似地表示為多項式:因此,如果設(shè)定了線性模型,就意味著遺漏了相關(guān)變量X12、 X13 ,等等。 因此,在一元回歸中,可通過檢驗各高次冪參數(shù)的顯著性來判斷是否將非線性模型誤設(shè)成了線性模型。(*) RESET檢驗也可用來檢驗函數(shù)形式設(shè)定偏誤的問題。 第四講回歸分析回歸診斷 例如,在一元回歸中
36、,假設(shè)真實的函數(shù)形式是非線性的,用泰勒 對多元回歸,非線性函數(shù)可能是關(guān)于若干個或全部解釋變量的非線性,這時可按遺漏變量的程序進(jìn)行檢驗。 例如,估計 Y=0+1X1+2X2+但卻懷疑真實的函數(shù)形式是非線性的。 這時,只需以估計出的的若干次冪為“替代”變量,進(jìn)行類似于如下模型的估計再判斷各“替代”變量的參數(shù)是否顯著地不為零即可。 第四講回歸分析回歸診斷 對多元回歸,非線性函數(shù)可能是關(guān)于若干個或全部解釋變量的 例:建立了中國商品進(jìn)口M與GDP的一元線性關(guān)系:并發(fā)現(xiàn)具有強烈的一階自相關(guān)性。 序列相關(guān)性的主要原因之一可能就是建模時遺漏了重要的相關(guān)變量造成的。 下面進(jìn)行RESET檢驗。 R2=0.9484
37、第四講回歸分析回歸診斷 例:建立了中國商品進(jìn)口M與GDP的一元線性關(guān)系: (-0.085) (8.274) (-6.457) (6.692) R2=0.9842 在=5%下,查得臨界值F0.05(2, 20)=3.49判斷:拒絕原模型與引入新變量的模型可決系數(shù)無顯著差異的假設(shè),表明原模型確實存在遺漏相關(guān)變量的設(shè)定偏誤。 第四講回歸分析回歸診斷 (-0.085) (8.274) (-6.457 (3)同期相關(guān)性的豪斯蔓(Hausman)檢驗 由于在遺漏相關(guān)變量的情況下,往往導(dǎo)致解釋變量與隨機擾動項出現(xiàn)同期相關(guān)性,從而使得OLS估計量有偏且非一致。 因此,對模型遺漏相關(guān)變量的檢驗可以用模型是否出現(xiàn)
38、解釋變量與隨機擾動項同期相關(guān)性的檢驗來替代。這就是豪斯蔓檢驗的主要思想。 第四講回歸分析回歸診斷 (3)同期相關(guān)性的豪斯蔓(Hausman)檢驗 當(dāng)解釋變量與隨機擾動項同期相關(guān)時,通過工具變量法可得到參數(shù)的一致估計量。 而當(dāng)解釋變量與隨機擾動項同期無關(guān)時, OLS估計量就可得到參數(shù)的一致估計量。 因此,只須檢驗IV估計量與OLS估計量是否有顯著差異來檢驗解釋變量與隨機擾動項是否同期無關(guān)。對一元線性回歸模型 Y=0+1X+所檢驗的假設(shè)是 H0:X與無同期相關(guān)。 第四講回歸分析回歸診斷 當(dāng)解釋變量與隨機擾動項同期相關(guān)時,通過工具變量法可得到設(shè)一元樣本回歸模型為 以Z為工具變量,則IV估計量為: (
39、*) (*)式表明,IV估計量與OLS估計量無差異當(dāng)且僅當(dāng)ziei=0,即工具變量與OLS估計的殘差項無關(guān)。 第四講回歸分析回歸診斷設(shè)一元樣本回歸模型為 以Z為工具變量,則IV估計量為: (*檢驗時,求Y關(guān)于X與Z的OLS回歸式: 在實際檢驗中,豪斯蔓檢驗主要針對多元回歸進(jìn)行,而且也不是直接對工具變量回歸,而是對以各工具變量為自變量、分別以各解釋變量為因變量進(jìn)行回歸。 第四講回歸分析回歸診斷檢驗時,求Y關(guān)于X與Z的OLS回歸式: 在實際檢驗中如對二元回歸模型 通過增加解釋變量的F檢驗,檢驗聯(lián)合假設(shè): H0:1=2=0 。 拒絕原假設(shè),就意味著(*)式中的解釋變量與隨機擾動項相關(guān)。 (*)第四講回歸分析回歸診斷如對二元回歸模型 通過增加解釋變量的F檢驗,檢驗聯(lián)合假設(shè)模型設(shè)定的方法 之”從一般到簡單”作為建模起點的總體模型必須能夠包容所有經(jīng)過約化得到的“簡潔”的模型。它應(yīng)該包含所有對被解
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中學(xué)學(xué)生社團財務(wù)管理制度
- 企業(yè)招聘與選拔標(biāo)準(zhǔn)制度
- 企業(yè)財務(wù)預(yù)算與審核制度
- 2026年律師資格考試邏輯推理與法律實務(wù)題集
- 2026年體育賽事組織與管理規(guī)范題庫
- 2026年虛擬化技術(shù)專家認(rèn)證考試題及答案詳解
- 2026年IT項目管理師專業(yè)知識與實踐技能認(rèn)證題集
- 2025年煤矸石山生態(tài)修復(fù)合同
- 加油站安全事故報告與處理制度內(nèi)容
- 2025年鄭州智能科技職業(yè)學(xué)院馬克思主義基本原理概論期末考試模擬題帶答案解析(必刷)
- 2026屆南通市高二數(shù)學(xué)第一學(xué)期期末統(tǒng)考試題含解析
- 寫字樓保潔培訓(xùn)課件
- 2026中國電信四川公用信息產(chǎn)業(yè)有限責(zé)任公司社會成熟人才招聘備考題庫有完整答案詳解
- 計量宣貫培訓(xùn)制度
- 2026中國電信四川公用信息產(chǎn)業(yè)有限責(zé)任公司社會成熟人才招聘備考題庫有答案詳解
- 《老年服務(wù)禮儀與溝通技巧》-《老年服務(wù)禮儀與溝通技巧》-老年服務(wù)禮儀與溝通技巧
- 2026.05.01施行的中華人民共和國漁業(yè)法(2025修訂)課件
- 原始股認(rèn)購協(xié)議書
- 八年級數(shù)學(xué)人教版下冊第十九章《二次根式》單元測試卷(含答案)
- 嚴(yán)肅財經(jīng)紀(jì)律培訓(xùn)班課件
- 上海市復(fù)旦大學(xué)附中2026屆數(shù)學(xué)高一上期末質(zhì)量檢測試題含解析
評論
0/150
提交評論