第三一元線性回歸_第1頁
第三一元線性回歸_第2頁
第三一元線性回歸_第3頁
第三一元線性回歸_第4頁
第三一元線性回歸_第5頁
已閱讀5頁,還剩57頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第三一元線性回歸第1頁,課件共62頁,創(chuàng)作于2023年2月§3.1基本思想及參數(shù)的估計(jì)一、問題的提出——必要性通過協(xié)方差或相關(guān)系數(shù)證實(shí)變量之間存在關(guān)系,僅僅只是知道變量之間線性相關(guān)的性質(zhì)——正(負(fù))相關(guān)和相關(guān)程度的大小。既然它們之間存在線性關(guān)系,接下來必須探求它們之間關(guān)系的表現(xiàn)形式是什么?最好用數(shù)學(xué)表達(dá)式將這種關(guān)系盡可能準(zhǔn)確、嚴(yán)謹(jǐn)?shù)谋硎境鰜怼獃=a+bx+u——把它們之間的內(nèi)在聯(lián)系挖掘出來。也就是直線中的截距a=?;直線的斜率b=?第2頁,課件共62頁,創(chuàng)作于2023年2月二、解決問題的思路尋找變量之間直線關(guān)系的方法很多。于是,再接下來則是從眾多方法中,尋找一種優(yōu)良的方法,運(yùn)用方法去求出線性模型——y=a+bx+u中的截距a=?;直線的斜率b=?正是是本章介紹的最小二乘法。根據(jù)該方法所得,即表現(xiàn)變量之間線性關(guān)系的直線有些什么特性?所得直線可靠嗎?怎樣衡量所得直線的可靠性?最后才是如何運(yùn)用所得規(guī)律——變量的線性關(guān)系?第3頁,課件共62頁,創(chuàng)作于2023年2月1、最小二乘法產(chǎn)生的歷史最小二乘法最早稱為回歸分析法。由著名的英國生物學(xué)家、統(tǒng)計(jì)學(xué)家高爾頓(F.Gallton)——達(dá)爾文的表弟所創(chuàng)。早年,高爾頓致力于化學(xué)和遺傳學(xué)領(lǐng)域的研究。他研究父親們的身高與兒子們的身高之間的關(guān)系時,建立了回歸分析法。第4頁,課件共62頁,創(chuàng)作于2023年2月2、最小二乘法的地位與作用現(xiàn)在回歸分析法已遠(yuǎn)非高爾頓的本意已經(jīng)成為探索變量之間關(guān)系最重要的方法,用以找出變量之間關(guān)系的具體表現(xiàn)形式。后來,回歸分析法從其方法的數(shù)學(xué)原理——誤差平方和最?。ㄆ椒郊炊耍┏霭l(fā),改稱為最小二乘法。第5頁,課件共62頁,創(chuàng)作于2023年2月

例:父親們的身高與兒子們的身高之間關(guān)系的研究1889年F.Gallton和他的朋友(學(xué)生)K.Pearson收集了上千個家庭的身高、臂長和腿長的記錄,企圖尋找出兒子們身高與父親們身高之間關(guān)系的具體表現(xiàn)形式。下圖是根據(jù)1078個家庭的調(diào)查所作的散點(diǎn)圖(略圖)第6頁,課件共62頁,創(chuàng)作于2023年2月160165170175180185140150160170180190200YX兒子們身高向著平均身高“回歸”,以保持種族的穩(wěn)定第7頁,課件共62頁,創(chuàng)作于2023年2月“回歸”一詞的由來從圖上雖可看出,個子高的父親確有生出個子高的兒子的傾向,同樣地,個子低的父親確有生出個子低的兒子的傾向。得到的具體規(guī)律如下:但他同時又發(fā)現(xiàn)某人種的平均身高是相當(dāng)穩(wěn)定的。最后得到結(jié)論:兒子們的身高回復(fù)于全體男子的平均身高,即“回歸”——見1889年F.Gallton的論文《普用回歸定律》。后人將此種方法普遍用于尋找變量之間的規(guī)律

第8頁,課件共62頁,創(chuàng)作于2023年2月3、最小二乘法的思路1.為了精確地描述Y與X之間的關(guān)系,必須使用這兩個變量的每一對觀察值,才不至于以點(diǎn)概面(作到全面)。2.Y與X之間是否是直線關(guān)系(協(xié)方差或相關(guān)系數(shù))?若是,將用一條直線描述它們之間的關(guān)系。3.在Y與X的散點(diǎn)圖上畫出直線的方法很多。任務(wù)?——找出一條能夠最好地描述Y與X(代表所有點(diǎn))之間的直線。4.什么是最好?—找出判斷“最好”的原則。最好指的是找一條直線使得這些點(diǎn)到該直線的縱向距離的和(平方和)最小。第9頁,課件共62頁,創(chuàng)作于2023年2月三種距離

yx縱向距離橫向距離距離A為實(shí)際點(diǎn),B為擬合直線上與之對應(yīng)的點(diǎn)第10頁,課件共62頁,創(chuàng)作于2023年2月距離是度量實(shí)際值與擬合值是否相符的有效手段點(diǎn)到直線的距離——點(diǎn)到直線的垂直線的長度。橫向距離——點(diǎn)沿(平行)X軸方向到直線的距離??v向距離——點(diǎn)沿(平行)Y軸方向到直線的距離。也就是實(shí)際觀察點(diǎn)的Y坐標(biāo)減去根據(jù)直線方程計(jì)算出來的Y的擬合值。這個差數(shù)以后稱為誤差——?dú)埐睿ㄊS啵?。?1頁,課件共62頁,創(chuàng)作于2023年2月4、最小二乘法的數(shù)學(xué)原理縱向距離是Y的實(shí)際值與擬合值之差,差異大擬合不好,差異小擬合好,所以又稱為擬合誤差或殘差。將所有縱向距離平方后相加,即得誤差平方和,“最好”直線就是使誤差平方和最小的直線。于是可以運(yùn)用求極值的原理,將求最好擬合直線問題轉(zhuǎn)換為求誤差平方和最小。第12頁,課件共62頁,創(chuàng)作于2023年2月數(shù)學(xué)推證過程

第13頁,課件共62頁,創(chuàng)作于2023年2月第14頁,課件共62頁,創(chuàng)作于2023年2月5、擬合直線的性質(zhì)1.?dāng)M合直線過Y和X的平均數(shù)點(diǎn)2、估計(jì)殘差和為零3、Y的真實(shí)值和擬合值有共同的均值4、估計(jì)殘差與自變量不相關(guān)5、估計(jì)殘差與擬合值不相關(guān)第15頁,課件共62頁,創(chuàng)作于2023年2月性質(zhì)1:由(5)式,得即擬合直線過y和x的平均數(shù)點(diǎn)。第16頁,課件共62頁,創(chuàng)作于2023年2月性質(zhì)2估計(jì)殘差和為零由(1)式直接得此結(jié)論無須再證明。并推出殘差的平均數(shù)也等于零。第17頁,課件共62頁,創(chuàng)作于2023年2月

性質(zhì)3Y的真實(shí)值和擬合值有共同的均值

第18頁,課件共62頁,創(chuàng)作于2023年2月性質(zhì)4估計(jì)殘差與自變量不相關(guān)

第19頁,課件共62頁,創(chuàng)作于2023年2月性質(zhì)5估計(jì)殘差與擬合值不相關(guān)

第20頁,課件共62頁,創(chuàng)作于2023年2月關(guān)于回歸直線性質(zhì)的總結(jié)

殘差和=0平均數(shù)相等擬合值與殘差不相關(guān)自變量與殘差不相關(guān)注意:這里的殘差與隨機(jī)擾動項(xiàng)不是一個概念。隨機(jī)擾動項(xiàng)是總體的殘差。第21頁,課件共62頁,創(chuàng)作于2023年2月二、一元線性回歸模型的檢驗(yàn)1、線性回歸模型的基本假設(shè)(嚴(yán)格來說是針對普通最小二乘法)2、參數(shù)估計(jì)量的性質(zhì)(包括回歸系數(shù)、隨機(jī)誤差項(xiàng)):線性、無偏性和有效性3、模型的檢驗(yàn),包括方程的顯著性檢驗(yàn)和變量的顯著性檢驗(yàn)。第22頁,課件共62頁,創(chuàng)作于2023年2月1、線性回歸模型的基本假設(shè)1、自變量(解釋變量)是非隨機(jī)的確定性的變量,而且彼此之間不相關(guān),即2、解釋變量與隨機(jī)誤差項(xiàng)之間不相關(guān)。3、隨機(jī)誤差項(xiàng)具有零均值和同方差,即4、隨機(jī)誤差項(xiàng)之間不相關(guān),即5、(當(dāng)樣本容量趨于無窮大時,由中心極限定理,對于任何實(shí)際模型都是滿足)

第23頁,課件共62頁,創(chuàng)作于2023年2月以上假設(shè)也稱為線性回歸模型的經(jīng)典假設(shè)或高斯(Gauss)假設(shè),滿足該假設(shè)的線性回歸模型,也稱為經(jīng)典線性回歸模型(ClassicalLinearRegressionModel,CLRM)。

第24頁,課件共62頁,創(chuàng)作于2023年2月2、最小二乘估計(jì)量的性質(zhì)當(dāng)模型參數(shù)估計(jì)出后,需考慮參數(shù)估計(jì)值的精度,即是否能代表總體參數(shù)的真值,或者說需考察參數(shù)估計(jì)量的統(tǒng)計(jì)性質(zhì)。一個用于考察總體的估計(jì)量,可從如下幾個方面考察其優(yōu)劣性:(1)線性性,即它是否是另一隨機(jī)變量的線性函數(shù);(2)無偏性,即它的均值或期望值是否等于總體的真實(shí)值;(3)有效性,即它是否在所有線性無偏估計(jì)量中具有最小方差。第25頁,課件共62頁,創(chuàng)作于2023年2月這三個準(zhǔn)則也稱作估計(jì)量的小樣本性質(zhì)。擁有這類性質(zhì)的估計(jì)量稱為最佳線性無偏估計(jì)量(bestlinerunbiasedestimator,BLUE)。當(dāng)不滿足小樣本性質(zhì)時,需進(jìn)一步考察估計(jì)量的大樣本或漸近性質(zhì):(4)漸近無偏性,即樣本容量趨于無窮大時,是否它的均值序列趨于總體真值;(5)一致性,即樣本容量趨于無窮大時,它是否依概率收斂于總體的真值;(6)漸近有效性,即樣本容量趨于無窮大時,是否它在所有的一致估計(jì)量中具有最小的漸近方差。第26頁,課件共62頁,創(chuàng)作于2023年2月高斯—馬爾可夫定理(Gauss-Markovtheorem)

在給定經(jīng)典線性回歸的假定下,最小二乘估計(jì)量是具有最小方差的線性無偏估計(jì)量。(1)線性性,即估計(jì)量是Yi的線性組合第27頁,課件共62頁,創(chuàng)作于2023年2月證:易知故同樣地,容易得出

(2)無偏性,即估計(jì)量的均值等于總體回歸參數(shù)真值第28頁,課件共62頁,創(chuàng)作于2023年2月(3)有效性(最小方差性,即在所有線性無偏估計(jì)量中,最小二乘估計(jì)量具有最小方差先求的方差第29頁,課件共62頁,創(chuàng)作于2023年2月證明最小方差性其中,ci=ki+di,di為不全為零的常數(shù),則容易證明普通最小二乘估計(jì)量(ordinaryleastSquaresEstimators)稱為最佳線性無偏估計(jì)量(bestlinearunbiasedestimator,BLUE)

第30頁,課件共62頁,創(chuàng)作于2023年2月由于最小二乘估計(jì)量擁有一個“好”的估計(jì)量所應(yīng)具備的小樣本特性,它自然也擁有大樣本特性。

如考察的一致性第31頁,課件共62頁,創(chuàng)作于2023年2月(4)隨機(jī)誤差項(xiàng)估計(jì)量的無偏性問題隨機(jī)誤差項(xiàng)的方差估計(jì)量為:其中為殘差通過變化可得:

第32頁,課件共62頁,創(chuàng)作于2023年2月3、模型的檢驗(yàn)(1)方程的顯著性檢驗(yàn)(F檢驗(yàn))

旨在對模型中被解釋變量與解釋變量之間的線性關(guān)系在總體上是否成立作出推斷。用以進(jìn)行方程的顯著性檢驗(yàn)的方法主要有三種:F檢驗(yàn)、t檢驗(yàn)、r檢驗(yàn)。他們的區(qū)別在于構(gòu)造的統(tǒng)計(jì)量不同。而在目前使用的計(jì)量經(jīng)濟(jì)學(xué)軟件包中都有關(guān)于F統(tǒng)計(jì)量的計(jì)算結(jié)果。第33頁,課件共62頁,創(chuàng)作于2023年2月即檢驗(yàn)方程中的參數(shù)是否顯著不為0,即檢驗(yàn)零假設(shè):由于Yi服從正態(tài)分布,則有解釋(回歸)平方和(explainedsumofsquares)殘差平方和(residualsumofsquares)第34頁,課件共62頁,創(chuàng)作于2023年2月由此構(gòu)造統(tǒng)計(jì)量F值小意味著X與Y之間(線性)關(guān)系很弱,而F值大意味X與Y之間(線性)關(guān)系很強(qiáng)。根據(jù)變量的樣本觀測值和估計(jì)值,計(jì)算F統(tǒng)計(jì)量的數(shù)值,給定一個顯著性水平,查F分布表,若F第35頁,課件共62頁,創(chuàng)作于2023年2月(2)變量的顯著性檢驗(yàn)(t檢驗(yàn))

主要對多元線性回歸模型而言,在方程的總體線性關(guān)系呈顯著性時,并不能說明每個解釋變量對被解釋變量的影響是顯著的,必須對每個解釋變量進(jìn)行顯著性檢驗(yàn),以決定是否作為解釋變量保留在模型中。其檢驗(yàn)的思路與方程顯著性檢驗(yàn)相似,用以檢驗(yàn)的方法主要有三種:F檢驗(yàn)、t檢驗(yàn)、z檢驗(yàn)。它們區(qū)別于方程顯著性檢驗(yàn)在于構(gòu)造統(tǒng)計(jì)量不同,其中應(yīng)用最為普遍的為t檢驗(yàn)。第36頁,課件共62頁,創(chuàng)作于2023年2月如果變量x是顯著的,則參數(shù)b應(yīng)該是顯著的。于是在變量的顯著性檢驗(yàn)中即檢驗(yàn)零假設(shè),構(gòu)造檢驗(yàn)用統(tǒng)計(jì)量:統(tǒng)計(jì)量t服從自由度為n-2的t分布,對于給定的顯著性水平,查t分布表,得臨界值若|t|小于臨界值,則未通過檢驗(yàn),大于臨界值則通過檢驗(yàn)。第37頁,課件共62頁,創(chuàng)作于2023年2月4、模型的評價(jià)(在不同模型之間擇優(yōu),擬合優(yōu)度檢驗(yàn))由最小二乘法所得直線究竟能夠?qū)@些點(diǎn)之間的關(guān)系加以反映嗎?對這些點(diǎn)之間的關(guān)系或趨勢反映到了何種程度?于是必須經(jīng)過某種檢驗(yàn)或者找出一個指標(biāo),在一定可靠程度下,根據(jù)指標(biāo)值的大小,對擬合的優(yōu)度進(jìn)行評價(jià)。擬合優(yōu)度檢驗(yàn):對樣本回歸直線與樣本觀測值之間擬合程度的檢驗(yàn)。第38頁,課件共62頁,創(chuàng)作于2023年2月(1)平方和的分解(a)總平方和(TSS)、回歸平方和(ESS)、殘差平方和(RSS)的定義(b)平方和的分解(c)自由度的分解第39頁,課件共62頁,創(chuàng)作于2023年2月(a)總平方和、回歸平方和、殘差平方和TSS為總體平方和,反映樣本觀測值總體離差的大??;ESS為回歸平方和,反映由模型中解釋變量所解釋的那部分離差的大??;RSS為殘差平方和,反映樣本觀測值與估計(jì)值偏離的大小,也是模型中解釋變量未解釋的那部分離差的大小。第40頁,課件共62頁,創(chuàng)作于2023年2月(b)平方和的分解

第41頁,課件共62頁,創(chuàng)作于2023年2月第42頁,課件共62頁,創(chuàng)作于2023年2月平方和分解的意義TSS=ESS+RSS被解釋變量Y總的變動(差異)=

解釋變量X引起的變動(差異)

+除X以外的因素引起的變動(差異)如果X引起的變動在Y的總變動中占很大比例,那么X很好地解釋了Y;否則,X不能很好地解釋Y。

Y的觀測值圍繞其均值的總離差(totalvariation)可分解為兩部分:一部分來自回歸線(ESS),另一部分則來自隨機(jī)勢力(RSS)。第43頁,課件共62頁,創(chuàng)作于2023年2月平方和分解圖正交分解第44頁,課件共62頁,創(chuàng)作于2023年2月(c)自由度的分解總自由度:dfT=n-1

回歸自由度:dfE=k=1(k為自變量的個數(shù))殘差自由度:dfR=n-k-1=n-2

自由度分解:dfT=dfR+dfE第45頁,課件共62頁,創(chuàng)作于2023年2月(2)擬合優(yōu)度(或稱判定系數(shù)、可決系數(shù))目的:企圖構(gòu)造一個不含單位,可以相互進(jìn)行比較,而且能直觀判斷擬合優(yōu)劣。擬合優(yōu)度的定義:意義:擬合優(yōu)度越大,自變量對因變量的解釋程度越高,自變量引起的變動占總變動的百分比高。觀察點(diǎn)在回歸直線附近越密集。取值范圍:0-1第46頁,課件共62頁,創(chuàng)作于2023年2月在收入-消費(fèi)支出的例題中,注:可決系數(shù)是一個非負(fù)的統(tǒng)計(jì)量。它也是隨著抽樣的不同而不同。第47頁,課件共62頁,創(chuàng)作于2023年2月修正的在應(yīng)用過程中,如果在模型中增加一個解釋變量,模型的解釋功能增強(qiáng)了,回歸平方和增大了,也增大了。從而給人一個錯覺:要使得模型擬合得好,就必須增加解釋變量,但是在樣本容量一定的情況下,增加解釋變量必定使得自由度減少,于是實(shí)際應(yīng)用中引進(jìn)修正的決定系數(shù),具體表達(dá)式為(其中n是樣本容量,n-k-1=n-1-1為殘差平方和的自由度,n-1為總體平方和的自由度):第48頁,課件共62頁,創(chuàng)作于2023年2月(3)擬合優(yōu)度等于實(shí)際值與擬合值之間簡單相關(guān)系數(shù)的平方

第49頁,課件共62頁,創(chuàng)作于2023年2月5、預(yù)測計(jì)量經(jīng)濟(jì)學(xué)模型的一個重要應(yīng)用是經(jīng)濟(jì)預(yù)測,對于模型如果給定樣本以外的解釋變量的觀測值,可以得到被解釋變量的預(yù)測值。但嚴(yán)格來說我們得到的僅是預(yù)測值的一個估計(jì)值,預(yù)測值僅以某一個置信水平處于以該估計(jì)為中心的一個區(qū)間中。第50頁,課件共62頁,創(chuàng)作于2023年2月預(yù)測區(qū)間的推導(dǎo)第51頁,課件共62頁,創(chuàng)作于2023年2月(1)樣本容量n越大,預(yù)測精度越高,反之預(yù)測精度越低;(2)樣本容量一定時,置信帶的寬度當(dāng)在X均值處最小,其附近進(jìn)行預(yù)測(插值預(yù)測)精度越大;X越遠(yuǎn)離其均值,置信帶越寬,預(yù)測可信度下降。

對于Y的總體均值E(Y|X)與個體值的預(yù)測區(qū)間(置信區(qū)間):第52頁,課件共62頁,創(chuàng)作于2023年2月6、正態(tài)性檢驗(yàn)在回歸模型的參數(shù)和統(tǒng)計(jì)檢驗(yàn)中都是建立在隨機(jī)誤差項(xiàng)服從正態(tài)分布的基礎(chǔ)之上,在實(shí)際中如何檢驗(yàn)隨機(jī)誤差項(xiàng)服從正態(tài)分布。一般的檢驗(yàn)方法有三種:殘差直方圖、正態(tài)概率圖、J-B檢驗(yàn),其中主要用J-B檢驗(yàn)。第53頁,課件共62頁,創(chuàng)作于2023年2月三、實(shí)例:時間序列問題

1、中國居民人均消費(fèi)模型2、時間序列問題第54頁,課件共62頁,創(chuàng)作于2023年2月

1、中國居民人均消費(fèi)模型

例考察中國居民收入與消費(fèi)支出的關(guān)系。GDPP:人均國內(nèi)生產(chǎn)總值(1990年不變價(jià))CONSP:人均居民消費(fèi)(以居民消費(fèi)價(jià)格指數(shù)(1990=100)縮減)。第55頁,課件共62頁,創(chuàng)作于2023年2月

第56頁,課件共62頁,創(chuàng)作于2023年2月該兩組數(shù)據(jù)是1978~2000年的時間序列數(shù)據(jù)(timeseriesdata);建立模型擬建立如下一元回歸模型采用Eviews軟件進(jìn)行回歸分析的結(jié)果見下表第57頁,課件共62頁,創(chuàng)作于2023年2月第58頁,課件共62頁,創(chuàng)作于2023年2月一般可寫出如下回歸分析結(jié)果:

(13.51)(53.47)R2=0.9927F=2859.23DW=0.5503

模型檢驗(yàn)

R2=0.9927T值:C:13.51,GDPP:53.47

臨界值:t0.05/2(21)=2.08斜率項(xiàng):0<0.3862<1,符合絕對收入假說第59頁,課

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論