版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第六講多元回歸分析:其他問(wèn)題
MultipleRegressionAnalysis:FurtherIssues一、變量的測(cè)量單位(DataScaling)二、函數(shù)形式(FunctionalForm)三、擬合優(yōu)度(Goodness-of-Fit)四、預(yù)測(cè)和殘差分析(PredictionandResidualAnalysis)第一節(jié)變量的測(cè)量單位(DataScaling)一、改變變量測(cè)量單位對(duì)OLS的影響1.改變變量測(cè)量單位的原因:數(shù)據(jù)測(cè)度單位變換經(jīng)常被用于減少被估參數(shù)小數(shù)點(diǎn)后的零的個(gè)數(shù),這樣結(jié)果更好看一些。有時(shí)候,為了解釋的方便,我們需要改變自變量或因變量的測(cè)量單位。既然這樣做主要為了解釋的方便,或者僅僅是結(jié)果更好看,我們希望回歸之后本質(zhì)的東西并不會(huì)因?yàn)樽兞繙y(cè)量單位的改變而改變。2.改變變量測(cè)量單位對(duì)參數(shù)估計(jì)值的影響被解釋變量測(cè)量單位改變被解釋變量測(cè)量單位改變后,新解釋變量變?yōu)樵瓉?lái)的α倍原模型:yi=b0+b1xi1
+b2xi2+ui新模型:αyi
=α0+α1xi1
+α2xi2+vi則有:αyi=αb0+αb1xi1
+αb2xi2+αui因此:α0=αb0
α1=αb1α2=αb2也就是說(shuō),被解釋變量測(cè)量單位的改變,新的被解釋變量變?yōu)樵瓉?lái)的α倍之后,會(huì)引起新模型中各參數(shù)的估計(jì)值變?yōu)樵P椭邢鄳?yīng)參數(shù)估計(jì)值的相同倍數(shù)。解釋變量測(cè)量單位的改變假定因?yàn)榻忉屪兞繙y(cè)量單位的改變,新解釋變量變?yōu)樵瓉?lái)的α倍原模型:yi=b0+b1xi1
+b2xi2+ui新模型:yi=α0+α1αxi1
+α2xi2+vi因此:α0=b0
α1=b1/α
α2=b2也就是說(shuō),解釋變量測(cè)量單位的改變,使得新解釋變量變?yōu)樵瓉?lái)的α倍之后,會(huì)引起新模型中參數(shù)的估計(jì)值變?yōu)樵P椭邢鄳?yīng)參數(shù)估計(jì)值的1/α倍,但其他參數(shù)的估計(jì)值并不發(fā)生改變。3.改變變量測(cè)量單位對(duì)擬合優(yōu)度R2的影響被解釋變量測(cè)量單位改變?cè)P停簓i=b0+b1xi1
+b2xi2+ui新模型:αyi
=α0+α1xi1
+α2xi2+vi
α0=αb0
α1=αb1α2=αb2vi=αui解釋變量測(cè)量單位改變?cè)P停簓i=b0+b1xi1
+b2xi2+ui新模型:yi=α0+α1αxi1
+α2xi2+vi
α0=b0
α1=b1/α
α2=b2
vi=ui由此可見,不管是被解釋變量還是解釋變量的測(cè)量單位改變,都不會(huì)影響模型估計(jì)的擬合優(yōu)度R2。4.改變變量測(cè)量單位對(duì)參數(shù)顯著性的影響被解釋變量測(cè)量單位改變?cè)P停簓i=b0+b1xi1
+b2xi2+uiR12為將x1對(duì)其他所有解釋變量(這里為x2)進(jìn)行回歸(包含一個(gè)截距項(xiàng))所得到的的擬合優(yōu)度。被解釋變量測(cè)量單位改變并不能改變SST1以及R12。但模型估計(jì)的回歸標(biāo)準(zhǔn)誤差會(huì)發(fā)生改變:回歸標(biāo)準(zhǔn)誤的改變并不意味著誤差的縮小或者變大,只能表明測(cè)量單位的不同。因?yàn)榛貧w標(biāo)準(zhǔn)誤的變化,參數(shù)β1估計(jì)值的標(biāo)準(zhǔn)差變?yōu)樵瓉?lái)的α倍,但由于β1的估計(jì)值也變?yōu)樵P椭泄烙?jì)值的α倍。參數(shù)β1的t統(tǒng)計(jì)量不變,即參數(shù)的顯著性并不受影響。解釋變量測(cè)量單位改變新模型:yi=α0+α1αxi1
+α2xi2+vi
α0=b0
α1=b1/α
α2=b2
vi=ui解釋變量測(cè)量單位改變并不改變回歸標(biāo)準(zhǔn)誤差:又因?yàn)镽12不變,因此,
參數(shù)β1的標(biāo)準(zhǔn)誤是原模型中β1標(biāo)準(zhǔn)誤的1/α倍,又因?yàn)樗墓烙?jì)值也變?yōu)樵P偷?/α倍,因此,參數(shù)β1的t統(tǒng)計(jì)量也不發(fā)生改變,即解釋變量測(cè)量單位的改變也不能改變待估參數(shù)的顯著性。值得注意的是,變量x2的測(cè)量單位不變,它的估計(jì)值和標(biāo)準(zhǔn)誤都不變,顯著性也不發(fā)生改變。5.改變變量測(cè)量單位對(duì)模型整體顯著性的影響無(wú)論是被解釋變量還是解釋變量的測(cè)量單位發(fā)生改變都不會(huì)改變回歸的擬合優(yōu)度R2,因此,變量測(cè)量單位的改變也不能改變模型整體的顯著性。6.改變變量測(cè)量單位對(duì)置信區(qū)間的影響被解釋變量測(cè)量單位改變由于各參數(shù)估計(jì)值和標(biāo)準(zhǔn)差都變成原來(lái)的α倍,因此,置信區(qū)間兩端值也變成原來(lái)的α倍。解釋變量測(cè)量單位改變參數(shù)β1估計(jì)值和標(biāo)準(zhǔn)差都變成原來(lái)的1/α倍,因此,置信區(qū)間兩端值也變成原來(lái)的1/α倍。但參數(shù)β2估計(jì)值和標(biāo)準(zhǔn)差都不變,因此,其置信區(qū)間也不變。被解釋變量測(cè)量單位改變,α=1/16原模型回歸結(jié)果:新模型回歸結(jié)果:解釋變量測(cè)量單位改變,α=1/20原模型回歸結(jié)果:新模型回歸結(jié)果:Y(1)bwght(2)bwghtlbs(3)bwghtCigs-0.4634***(0.0916)t=-5.06[-0.643,-0.284]-0.0289***
(0.0057)t=-5.06[-0.040,-0.018]--Packs-----9.268***(1.832)t=-5.06[-12.861,-5.675]Faminc0.0927***
(0.0292)t=3.18[0.036,0.150]0.0058***(0.0018)t=3.18[0.002,0.009]0.0927***(0.0292)t=3.18[0.036,0.150]Intercept116.794***(1.049)t=111.51[114.916,119.032]7.3109***
(0.0656)t=111.51[7.182,7.439]116.974***(1.049)t=111.51[114.916,119.032]Obs138813881388R20.02980.02980.0298SSR557485.512177.5778557485.51SST574611.722244.5770574611.72SER20.0631.253920.063F-value21.2721.2721.27表6.1通過(guò)上面的分析,我們發(fā)現(xiàn):當(dāng)變量的測(cè)量單位發(fā)生變化時(shí),變量的估計(jì)系數(shù)、標(biāo)準(zhǔn)差和置信區(qū)間有可能發(fā)生變化,但回歸的一些本質(zhì)性的東西,例如參數(shù)的顯著性,模型的顯著性,模型的擬合優(yōu)度等并不會(huì)發(fā)生變化。
因此,在適當(dāng)?shù)那闆r下,我們完全可以根據(jù)研究的需要以及其他方面的考慮調(diào)整變量的測(cè)量單位,對(duì)變量進(jìn)行重新定義。這么做并不會(huì)損壞問(wèn)題的實(shí)質(zhì)。7.變量以對(duì)數(shù)形式出現(xiàn)時(shí)改變測(cè)量單位被解釋變量為對(duì)數(shù)形式,且測(cè)量單位改變被解釋變量測(cè)量單位改變后,新解釋變量變?yōu)樵瓉?lái)的α倍原模型:logyi=b0+b1xi1
+b2xi2+ui新模型:log(αyi)
=α0+α1xi1
+α2xi2+vi則有:log(αyi)
=logα+b0+b1xi1
+b2xi2+ui因此:α0=logα+b0
α1=b1α2=b2也就是說(shuō),被解釋變量為對(duì)數(shù)形式時(shí),隨著測(cè)量單位的改變,新的被解釋變量變?yōu)樵瓉?lái)的α倍之后,只會(huì)引起截距項(xiàng)的估計(jì)值發(fā)生改變,并不會(huì)影響任何一個(gè)斜率估計(jì)值。解釋變量測(cè)量單位的改變假定因?yàn)榻忉屪兞繙y(cè)量單位的改變,新解釋變量變?yōu)樵瓉?lái)的α倍原模型:yi=b0+b1logxi1
+b2xi2+ui新模型:yi=α0+α1log(αxi1)
+α2xi2+vi因此:α0=b0-b1logα
α1=b1α2=b2也就是說(shuō),解釋變量為對(duì)數(shù)形式時(shí),因測(cè)量單位的改變,使得新解釋變量變?yōu)樵瓉?lái)的α倍之后,只引起截距項(xiàng)的估計(jì)值發(fā)生改變,并不會(huì)影響任何一個(gè)斜率估計(jì)值。變量為對(duì)數(shù)形式時(shí),測(cè)量單位變化對(duì)其他估計(jì)量的影響請(qǐng)自己分析。二、標(biāo)準(zhǔn)化系數(shù)(BetaCoefficients)1.定義當(dāng)我們把被解釋變量y和各解釋變量xj進(jìn)行標(biāo)準(zhǔn)化處理(也就是,減去其各自的均值后除以其各自的標(biāo)準(zhǔn)離差)之后進(jìn)行回歸,所得到的參數(shù)估計(jì)值就是相應(yīng)解釋變量的標(biāo)準(zhǔn)化系數(shù)。標(biāo)準(zhǔn)化系數(shù)反映解釋變量xj變動(dòng)一單位的標(biāo)準(zhǔn)離差時(shí)被解釋變量y變動(dòng)的標(biāo)準(zhǔn)離差。2.使用標(biāo)準(zhǔn)化系數(shù)的原因當(dāng)變量大小差別過(guò)大時(shí),在回歸中因運(yùn)算近似而導(dǎo)致的誤差會(huì)比較大。便于比較各解釋變量相對(duì)于被解釋變量的重要程度考慮樣本回歸方程:
?=200+0.2x1+20,000x2很顯然,變量x2的系數(shù)遠(yuǎn)遠(yuǎn)大于變量x1的系數(shù),我們是否可以斷定變量x2相對(duì)于變量x1而言是更最重要的變量?各個(gè)變量的度量單位如下:被解釋變量y:美元解釋變量x1
:美分解釋變量x2
:千美元將各變量的度量單位都調(diào)整為美元時(shí),回歸方程為:
?=200+20x1+20x2樣本回歸方程的標(biāo)準(zhǔn)形式為:
對(duì)被解釋變量y和解釋變量xj進(jìn)行標(biāo)準(zhǔn)化:將Zy對(duì)Zxj回歸可以得到(注意,這個(gè)方程無(wú)截距項(xiàng)):
3.標(biāo)準(zhǔn)化系數(shù)的推導(dǎo)標(biāo)準(zhǔn)化之后的每一個(gè)變量都服從均值為0,方差為1的分布。4.標(biāo)準(zhǔn)化系數(shù)與水平值方程中系數(shù)的關(guān)系即:因此有:由于解釋變量xj的標(biāo)準(zhǔn)差為,當(dāng)xj變化一個(gè)標(biāo)準(zhǔn)差單位時(shí):例:污染對(duì)住房?jī)r(jià)格的影響(HPRICE2.RAW)P189price:社區(qū)中的平均住房?jī)r(jià)格nox:空氣中氧化亞氮的含量rooms:平均每套住房的房間數(shù)dist:社區(qū)商業(yè)中心的加權(quán)距離crime:所報(bào)告的人均犯罪次數(shù)stratio:社區(qū)學(xué)校的平均生師比水平值模型回歸結(jié)果:
price=20871.13?2706.433nox
?153.601crime
+6735.498rooms?1026.806dist?1149.204stratio各變量的單位并不相同,而且也無(wú)法調(diào)整為相同。各變量的系數(shù)衡量了其他條件不變的情況下,該變量對(duì)住房絕對(duì)價(jià)格的影響。標(biāo)注化回歸結(jié)果:
zprice=?0.340znox?0.143zcrime+0.514zrooms?0.235zdist?0.279zstratio各變量的系數(shù)衡量了其他條件不變的情況下,該變量標(biāo)準(zhǔn)差的變化對(duì)住房?jī)r(jià)格標(biāo)準(zhǔn)差的影響。第二節(jié)函數(shù)形式(FunctionalForm)一、對(duì)數(shù)函數(shù)1.使用對(duì)數(shù)函數(shù)的原因取對(duì)數(shù)后變量的斜率系數(shù),不隨變量測(cè)度單位改變而改變;對(duì)數(shù)函數(shù)通常有很好的經(jīng)濟(jì)含義(例如:回歸元和回歸子都取對(duì)數(shù)形式時(shí),斜率系數(shù)給出對(duì)彈性的一個(gè)直接估計(jì));對(duì)于y>0的模型,條件分布經(jīng)常偏斜或存在異方差,而log(y)就小多了;log(y)的分布相對(duì)于y的分布要窄很多,有利于限制了異常(或極端)觀測(cè)值(outliers)的影響1)什么類型的變量常常使用對(duì)數(shù)形式肯定為正的數(shù),工資,薪水,企業(yè)銷售額和企業(yè)市值等;非常大的變量:如人口,雇員總數(shù)和學(xué)校注冊(cè)人數(shù)等2)什么類型的變量常常使用水平形式用年測(cè)量的變量:如教育年限,工作經(jīng)歷,任期年限和年齡3)可以使用對(duì)數(shù)形式和使用水平形式的變量比例或百分比變量:失業(yè)率,養(yǎng)老保險(xiǎn)金參與率等2.關(guān)于變量形式的常用規(guī)律3.對(duì)數(shù)模型的限制一個(gè)變量取零或負(fù)值,則不能使用對(duì)數(shù);如果y非負(fù)但可以取零,則有時(shí)使用log(1+y);當(dāng)數(shù)據(jù)并非多數(shù)為零時(shí),使用log(1+y)估計(jì),并且假定變量為log(y),解釋所得的估計(jì)值,是可以接受的。如果模型是log(y)=b0+b1log(x)+u,b1是y對(duì)于x的彈性;如果模型是log(y)=b0+b1x+u,b1近似是,給定一單位x的改變,y的百分比變化,常被稱為半彈性。4.關(guān)于對(duì)數(shù)模型的解釋5.對(duì)模型log(y)=b0+b1x+u的一點(diǎn)說(shuō)明另外,y取對(duì)數(shù)形式時(shí),原模型允許我們預(yù)測(cè)log(y)而不是y,因此原變量的值y更難以預(yù)測(cè)。二、二次函數(shù)(QuadraticModels)為了描述遞增或遞減的邊際效應(yīng),有時(shí)采用二次函數(shù)形式:y=b0+b1x+b2x2+u
例:工齡收益率(WAGE1.RAW)P192三、交互項(xiàng)(InteractionTerms)若某個(gè)自變量對(duì)因變量的影響取決于另一自變量的取值,則需引入這兩個(gè)自變量的乘積作為一個(gè)新的自變量,這個(gè)新的自變量稱為交互項(xiàng)或交叉項(xiàng)(interactionterm)含有交互項(xiàng)的模型:y=b0+b1x1+b2x2+b3x1x2+u我們不能單獨(dú)將b1解釋為保持x2不變時(shí),x1對(duì)y的偏效應(yīng),我們需要將b3也考慮進(jìn)來(lái),因?yàn)椋豪撼銮诼蕦?duì)成績(jī)的影響(ATTEND.RAW)P197第三節(jié)擬合優(yōu)度(Goodness
ofFit)一、調(diào)整的R2(adjustedR2
)1.定義但SSR/(n-1)并不是的無(wú)偏估計(jì)量,我們用其無(wú)偏估計(jì)量SSR/(n-k-1)來(lái)代替,就可以得到:因此有:總體R2為y的變異在總體中能被解釋變量解釋的比例:因?yàn)閮蓚€(gè)無(wú)偏估計(jì)量的比例不是一個(gè)無(wú)偏估計(jì)量因此,調(diào)整過(guò)的R2仍不是總體R2的一個(gè)無(wú)偏估計(jì)量。AdjustedR2最根本的吸引力,在于它對(duì)向模型增加自變量的懲罰。當(dāng)增加自變量時(shí),R2只可能增大,不可能減小(即便新增的自變量根本就不顯著)。這時(shí),新增變量無(wú)助于模型的改善。在AdjustedR2條件下,R2盡管增大,由于分母上有n-k-1,AdjustedR2并不見得一定增加。事實(shí)上,存在這樣一個(gè)經(jīng)驗(yàn)規(guī)律:當(dāng)且僅當(dāng)新變量t統(tǒng)計(jì)量的絕對(duì)值大于1時(shí),AdjustedR2增加,這就意味著,根據(jù)AdjustedR2判斷新模型的好壞可能更加靠譜。2.利用AdjustedR2在兩個(gè)非嵌套模型(NonnestedModels)中進(jìn)行選擇例如,一個(gè)模型是y=b0+b1x1+b2log(x2
)
, 另一個(gè)是y=b0+b1x1+b2
x2+b3
x22。 如果第一個(gè)模型的AdjustedR2為0.3,而第二個(gè)為0.6,我們傾向于選擇第二個(gè)模型F統(tǒng)計(jì)量只允許我們檢驗(yàn)嵌套的模型,因?yàn)橛邢拗频哪P褪菬o(wú)限制模型的特例。但通常情況下,我們往往需要一些在無(wú)嵌套模型間進(jìn)行選擇。此時(shí),通過(guò)比較AdjustedR2
,在不同的解釋變量的非嵌套組合中進(jìn)行選擇,是頗有價(jià)值的。但對(duì)于被解釋變量不同的兩個(gè)模型,不能利用AdjustedR2對(duì)其進(jìn)行選擇。見教材P202例6.4。二、解釋變量的選擇如果我們關(guān)心某個(gè)解釋變量x,那么如何決定是否應(yīng)該加入其他解釋變量?關(guān)于無(wú)偏性和一致性的討論表明,如果某些解釋變量與x相關(guān),那么應(yīng)該把這些解釋變量包含進(jìn)來(lái),否則會(huì)因遺漏變量導(dǎo)致估計(jì)偏誤。但是,在某些情況下,加入與x相關(guān)的解釋變量又會(huì)導(dǎo)致控制因素過(guò)多。(例子見課本P203)若某些解釋變量與x不相關(guān)但影響被解釋變量,則在大樣本情況下,一般應(yīng)該將這些解釋變量包含進(jìn)來(lái)。因?yàn)檫@樣做不
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 勐海事業(yè)編招聘2022年考試模擬試題及答案解析18
- 渝西高鐵重慶明通牽(一期)220千伏外部供電工程環(huán)境影響報(bào)告表
- 深南電路招聘考試題及答案
- 熱處理考試題庫(kù)及答案
- 2026年深圳中考語(yǔ)文詩(shī)歌鑒賞專項(xiàng)試卷(附答案可下載)
- 2026年深圳中考英語(yǔ)核心素養(yǎng)檢測(cè)試卷(附答案可下載)
- 2026年深圳中考物理期末綜合測(cè)評(píng)試卷(附答案可下載)
- 廣東省汕頭市金平區(qū)2026年九年級(jí)上學(xué)期期末物理試題附答案
- 2026年深圳中考生物綠色植物的呼吸作用試卷(附答案可下載)
- 2026年深圳中考?xì)v史暑假提分特訓(xùn)試卷(附答案可下載)
- 課件:曝光三要素
- 2023-2024學(xué)年山東省淄博市臨淄區(qū)八年級(jí)(上)期末數(shù)學(xué)試卷(五四學(xué)制)(含解析)
- 家長(zhǎng)要求學(xué)校換老師的申請(qǐng)書
- GB/T 10802-2023通用軟質(zhì)聚氨酯泡沫塑料
- 協(xié)調(diào)控制系統(tǒng) CCS介紹
- 闌尾腫瘤-課件
- 深圳中核海得威生物科技有限公司桐城分公司碳13-尿素原料藥項(xiàng)目環(huán)境影響報(bào)告書
- 正式員工派遣單
- qdslrdashboard應(yīng)用軟件使用說(shuō)明
- 中外新聞事業(yè)史課程教學(xué)大綱
- LY/T 1357-2008歧化松香
評(píng)論
0/150
提交評(píng)論