計(jì)量經(jīng)濟(jì)學(xué)02.pptx_第1頁
計(jì)量經(jīng)濟(jì)學(xué)02.pptx_第2頁
計(jì)量經(jīng)濟(jì)學(xué)02.pptx_第3頁
計(jì)量經(jīng)濟(jì)學(xué)02.pptx_第4頁
計(jì)量經(jīng)濟(jì)學(xué)02.pptx_第5頁
已閱讀5頁,還剩39頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第四章,一元線性回歸,本章大綱,總體線性回歸模型 普通最小二乘(OLS)估計(jì)量及樣本回歸線 樣本回歸的擬合優(yōu)度 最小二乘假設(shè) OLS估計(jì)量的抽樣分布,4-2,估計(jì)總體回歸線的斜率,總體回歸線的斜率表示每一單位X變化引起Y的期望變化 最終目標(biāo)是估計(jì)每一單位X變化對(duì)Y的因果效應(yīng),當(dāng)前考慮的問題是描繪一條直線來擬合變量X,Y的數(shù)量關(guān)系,4-3,一般而言,線性回歸的統(tǒng)計(jì)推斷問題類似于均值估計(jì)或是兩均值差估計(jì)的統(tǒng)計(jì)推斷問題。統(tǒng)計(jì)學(xué)或是計(jì)量經(jīng)濟(jì)學(xué)中關(guān)于斜率估計(jì)的步驟:,估計(jì): 如何利用數(shù)據(jù)估計(jì)總體回歸線的斜率? 利用普通最小二乘法 (OLS). OLS的優(yōu)缺點(diǎn)有哪些? 假設(shè)檢驗(yàn): 如何檢驗(yàn)斜率是否為“0”

2、? 置信區(qū)間: 如何構(gòu)造該斜率的置信區(qū)間?,4-4,1-5,一元線性回歸模型,問題:縮小班級(jí)規(guī)模會(huì)對(duì)學(xué)生的成績(jī)有什么影響? 數(shù)據(jù):加州所有K-6和K-8的學(xué)區(qū)(n=420) 變量: 5年級(jí)考試分?jǐn)?shù)(標(biāo)準(zhǔn)化考試,包括數(shù)學(xué)和閱讀),學(xué)區(qū)平均分?jǐn)?shù) 學(xué)生教師比(STR)=學(xué)生數(shù)除以全職教師的數(shù)量,線性回歸模型(教材 4.1節(jié)),總體回歸線: Test Score = 0 + 1STR 1 =總體回歸線斜率 = = 一單位STR變化所引起的Test Score的變化 為什么0 及 1 是“總體”參數(shù)? 我們想知道 1的值。但是, 因?yàn)?未知,故須利用數(shù)據(jù)進(jìn)行估計(jì),4-6,線性回歸模型,Yi = 0 +

3、1Xi + ui, i = 1, n n 個(gè)觀察值, (Xi , Yi ), i = 1,., n. X 是自變量或回歸變量 Y 是因變量 0 = 截距 1 = 斜率 ui = 回歸誤差 一般地,回歸誤差包括了除X變量以外的其他所有決定Y變量的因素。此外,回歸誤差也包含Y的度量誤差,4-7,線性回歸模型(如圖示): Y 及 X 的觀測(cè)值 (n = 7); 線性回歸線; 回歸誤差 (誤差項(xiàng)):,4-8,普通最小二乘估計(jì)量 (教材 4.2節(jié)),如何利用數(shù)據(jù)估計(jì)0 及 1? 回顧:Y的最小二乘估計(jì)量 為如下問題的解: 類似地, 我們關(guān)注未知參數(shù)0和1 的最小二乘(OLS)估計(jì)量,即求解如下問題:,4

4、-9,OLS 方法,總體回歸線: Test Score = 0 + 1STR 1 = = ?,4-10,求解OLS 估計(jì)量:,OLS估計(jì)量是最小化真值Yi與基于回歸線的預(yù)測(cè)值之差的平方和的結(jié)果 最小化問題可由微積分求解(見附錄App. 4.2) 該結(jié)果即為0 及 1 的OLS估計(jì)值,4-11,4-12,重要概念4.2 OLS估計(jì)量、預(yù)測(cè)值和殘差 斜率 1 和 截距 0的OLS估計(jì)量分別為 OLS預(yù)測(cè)值 和殘差 分別為,估計(jì)的截距 、斜率 和殘差 是利用X和Y的n組樣本觀測(cè)值計(jì)算得到的。它們分別為總體截距 0和斜率 1 和誤差項(xiàng)u的估計(jì)。,加利福尼亞州測(cè)試成績(jī)與班級(jí)規(guī)模數(shù)據(jù)的OLS估計(jì)運(yùn)用,斜率

5、估計(jì)值 = = 2.28 截距估計(jì)值 = = 698.9 估計(jì)回歸線: = 698.9 2.28STR,4-13,斜率估計(jì)值與截距估計(jì)值的解釋,= 698.9 2.28STR 每個(gè)教師對(duì)應(yīng)的學(xué)生人數(shù)增加1個(gè)時(shí),學(xué)區(qū)測(cè)試成績(jī)將平均下降2.28分 即: = 2.28 截距 (按字面理解) 指:由該回歸線知,在學(xué)生老師比例為零的學(xué)區(qū),預(yù)測(cè)其平均測(cè)試成績(jī)?yōu)?98.9分。但該解釋沒有實(shí)際意義數(shù)據(jù)范圍之外的推斷沒有經(jīng)濟(jì)意義。,4-14,預(yù)測(cè)值與殘差:,數(shù)據(jù)集中有一個(gè)學(xué)區(qū)是加州的安蒂洛普(Antelope),其學(xué)生與教師之比 = 19.33 平均測(cè)試成績(jī) = 657.8 預(yù)測(cè)值: = 698.9 2.281

6、9.33 = 654.8 殘差: = 657.8 654.8 = 3.0,4-15,OLS 回歸: STATA 結(jié)果,regress testscr str, robust Regression with robust standard errors Number of obs = 420 F( 1, 418) = 19.26 Prob F = 0.0000 R-squared = 0.0512 Root MSE = 18.581 - | Robust testscr | Coef. Std. Err. t P|t| 95% Conf. Interval -+- str | -2.279808

7、 .5194892 -4.39 0.000 -3.300945 -1.258671 _cons | 698.933 10.36436 67.44 0.000 678.5602 719.3057 - = 698.9 2.28STR (稍后討論該結(jié)果的其余部分),4-16,擬合優(yōu)度(教材 4.3節(jié)),OLS回歸線擬合數(shù)據(jù)的效果如何?考慮兩個(gè)互補(bǔ)的統(tǒng)計(jì)量: 回歸 R2度量了能被X解釋的Y的方差的比例; 取值在0 (不能擬合)到1 (完全擬合)之間 回歸標(biāo)準(zhǔn)誤 (SER) 是具有代表性的回歸殘差大小,其單位與Y的單位相同,4-17,回歸 R2 :由回歸“解釋”的Yi 的樣本方差的比例,Yi = + =

8、 OLS 預(yù)測(cè) + OLS 殘差 樣本var (Y) = 樣本 var( ) + 樣本 var( ) (Why?) 總平方和 = 被解釋的平方和 + 殘差平方和 R2定義: R2 = = R2 = 0 則 ESS = 0 R2 = 1 則 ESS = TSS 0 R2 1 如果X為一元變量,回歸的R2 = X與Y的相關(guān)系數(shù)平方,4-18,4-19,SER 衡量的是u分布的離散程度。 SER 近似等于OLS殘差的樣本標(biāo)準(zhǔn)離差: SER = = 第二個(gè)等式成立,因?yàn)?= = 0.,回歸標(biāo)準(zhǔn)誤 (SER),SER =,SER: U的單位與Y單位一樣,SER是用因變量單位度量的觀測(cè)值在回歸線附近的離散

9、程度 SER衡量的是OLS殘差的平均大小 (距離回歸線的平均偏差) 均方根誤差 (RMSE) 與 回歸標(biāo)準(zhǔn)誤(SER)聯(lián)系緊密: RMSE = 該公式與SER度量一樣,較小的差異在于用n替代了除數(shù)n-2.,4-20,說明: 為何用n-2作除數(shù)而不是n?,SER = 用n-2作除數(shù)是為“自由度”修正。正如在 中,用n-1作除數(shù)。所不同的是,在SER中涉及到兩個(gè)未知參數(shù)0 與1的估計(jì),而在 中只涉及到一個(gè)未知參數(shù)Y 的估計(jì)。 盡管在單個(gè)回歸變量時(shí),常用公式中采用n-2作除數(shù),但是當(dāng)n很大時(shí),除數(shù)是n,n-1或是n-2的差別可以不計(jì) 詳情見 17.4 部分,4-21,關(guān)于 R2 及 SER 的例子,

10、= 698.9 2.28STR, R2 = 0.051, SER = 18.6 學(xué)生/教師之比只解釋了測(cè)試成績(jī)變化中很小的一部分。這合理么?這是否意味著學(xué)生/教師之比在政策制定中無關(guān)緊要?,4-22,最小二乘假設(shè) (教材 4.4 節(jié)),準(zhǔn)確地講,OLS估計(jì)量的抽樣分布有哪些性質(zhì)?什么情況下是無偏的?方差如何? 回答上述問題,需要對(duì)Y與X之間的關(guān)系以及樣本收集的方法作一些假設(shè) 這些假設(shè)(共三個(gè))被稱為最小二乘假設(shè),4-23,最小二乘假設(shè),Yi = 0 + 1Xi + ui, i = 1, n 給定X時(shí),u的條件分布均值為零,即E(u|X = x) = 0. 由此可以得出 是無偏的 (Xi,Yi)

11、, i =1,n, 獨(dú)立同分布 當(dāng)(X, Y)按照簡(jiǎn)單隨機(jī)抽樣,該假設(shè)滿足 由此可以得出 和 的抽樣本分布 X和/或Y的觀測(cè)中不太可能出現(xiàn)異常值 數(shù)學(xué)描述,X和Y具有非零有限四階矩 異常值可能導(dǎo)致 的結(jié)果無意義,4-24,最小二乘假設(shè)#1: E(u|X = x) = 0.,對(duì)于任意給定的X值,u的均值是零 例: Test Scorei = 0 + 1STRi + ui, ui = 其他因素 “其他因素”指什么? 對(duì)于其他因素而言, 假設(shè)E(u|X=x) = 0是否合理?,4-25,最小二乘假設(shè)#1(續(xù)),該假設(shè)是基于理想的隨機(jī)對(duì)照試驗(yàn): X被隨機(jī)分配 (學(xué)生被隨機(jī)分配到不同規(guī)模的班級(jí)中;病人被

12、隨機(jī)分配到不同的治療方案中)。隨機(jī)分配通常由電腦完成(不用到關(guān)于個(gè)體的信息)。 因?yàn)閄被隨機(jī)分配,所有的其他個(gè)體特征(都包含于u中)的分布與X獨(dú)立,故u和X是獨(dú)立的 因此,在隨機(jī)對(duì)照試驗(yàn)中, E(u|X = x) = 0 (即: LSA #1 成立) 在實(shí)際試驗(yàn)中,或是觀察數(shù)據(jù)中,需要仔細(xì)考慮和判斷E(u|X = x) = 0 是否成立,4-26,最小二乘假設(shè)#2: (Xi,Yi), i = 1,n 獨(dú)立同分布,如果個(gè)體(個(gè)人,地區(qū))是通過簡(jiǎn)單隨機(jī)抽樣得來的,這個(gè)結(jié)論自然就成立: 個(gè)體從同一總體選出,故 (Xi, Yi) 顯然同分布,i = 1, n. 個(gè)體選自隨機(jī)抽取,故不同個(gè)體(X, Y)

13、的樣本值是獨(dú)立分布的 我們遇到非獨(dú)立同分布抽樣的主要場(chǎng)合是當(dāng)數(shù)據(jù)是隨時(shí)間記錄的(面板數(shù)據(jù)和時(shí)間序列數(shù)據(jù))在處理面板數(shù)據(jù)時(shí),需要解決這種復(fù)雜問題。,4-27,最小二乘假設(shè)#3: 不太可能出現(xiàn)異常值數(shù)學(xué)描述: E(X4) 且 E(Y4) ,較大的異常值是X或Y的極端值 數(shù)學(xué)上描述, 如果X及Y是有界的,則X與Y具有有限四階矩。(標(biāo)準(zhǔn)測(cè)試分?jǐn)?shù)自然滿足;學(xué)生/教師比,家庭收入等也滿足) 該假設(shè)的實(shí)質(zhì)是異常值會(huì)顯著影響回歸結(jié)果,故需要剔除較大的異常值 檢查你的數(shù)據(jù)!如果有較大異常值,是否是排印錯(cuò)誤?是否屬于你的數(shù)據(jù)集?為什么是一個(gè)異常值?,4-28,OLS 對(duì)異常值敏感:,在X或y中,該點(diǎn)是否是異常值?

14、 實(shí)踐中, 異常值通常是數(shù)據(jù)錯(cuò)誤 (編碼和重新編碼問題). 有時(shí)是不屬于你的數(shù)據(jù)集的數(shù)據(jù)。最簡(jiǎn)單的方法是畫散點(diǎn)圖來檢查。,4-29,OLS估計(jì)量的抽樣分布 (教材 4.5節(jié)),OLS估計(jì)量是由隨機(jī)抽取的樣本計(jì)算得到的。不同的樣本會(huì)產(chǎn)生不同的 值。 這是 抽樣不確定性的根源。我們需要: 量化相關(guān)抽樣的不確定性 對(duì) 的取值進(jìn)行假設(shè)檢驗(yàn),例如1 = 0是否成立 構(gòu)建1 的置信區(qū)間 實(shí)現(xiàn)上述目標(biāo),需要分析OLS估計(jì)量的抽樣分布,分兩步: 線性回歸的概率框架 OLS統(tǒng)計(jì)量的分布,4-30,線性回歸的概率框架,線性回歸的概率框架歸結(jié)為最小二乘的三個(gè)假設(shè) 總體 目標(biāo)群體 (例如:所有可能的學(xué)區(qū)) 隨機(jī)變量:

15、 Y, X 例如: (測(cè)試分?jǐn)?shù), 學(xué)生/教師之比) X,Y的聯(lián)合分布 (Y, X)。假設(shè): 總體回歸函數(shù)是線性的 E(u|X) = 0 (1st LSA) X, Y 有非零的四階矩 (3rd LSA ) 簡(jiǎn)單隨機(jī)抽樣的的數(shù)據(jù)收集意味: (Xi, Yi), i = 1, n, 獨(dú)立同分布 (2nd LSA ),4-31,的樣本分布,與 類似, 也有抽樣分布 何為 E( )? 若E( ) = 1, 則 OLS 是無偏的理想的結(jié)果! 何為 var( )? (抽樣不確定性的度量) 利用公式計(jì)算 的標(biāo)準(zhǔn)誤。 小樣本中, 的分布是什么? 一般而言,較為復(fù)雜 大樣本中, 的分布是什么? 大樣本下,服從正態(tài)分

16、布,4-32,抽樣分布的均值與方差,初等代數(shù)等式: Yi = 0 + 1Xi + ui = 0 + 1 + 則 Yi = 1(Xi ) + (ui ) 那么, = =,4-33,= 則 1 = . 現(xiàn)有 = = =,4-34,將 = 代入 1 的表達(dá)式 中: 1 = 故 1 =,4-35,現(xiàn)在可計(jì)算 E( ) 和 var( ):,E( ) 1 = = = 0 因?yàn)?E(ui|Xi=x) = 0 (LSA #1) 由LSA #1 知 E( ) = 1 即 是1的無偏估計(jì)量 詳情見 App. 4.3,4-36,下一步計(jì)算 var( ):,記 1 = = 其中 vi = (Xi )ui. 若 n 較

17、大, 并且 1, 則有 1 , 其中 vi = (Xi )ui (見 App. 4.3)。則有,4-37,4-38, 1 所以 var( 1) = var( ) = = 其中,最后一個(gè)等式使用了假設(shè)2。故, var( ) = . 綜上有: 為無偏估計(jì): E( ) = 1 類似于 ! var( ) 與n成反比 類似于 !,何為 的抽樣分布?,精確的抽樣分布很復(fù)雜,其取決于(Y,X)的總體分布但當(dāng)n較大時(shí),可得到簡(jiǎn)單且較好的近似分布: 因?yàn)?var( ) 1/n 且 E( ) = 1, 1 當(dāng)n較大時(shí),樣本分布近似的服從正態(tài)分布 (CLT) 回顧 CLT: 設(shè)vi, i = 1, n 獨(dú)立同分布

18、,E(v) = 0 且 var(v) = 2. 則, 當(dāng)n較大時(shí), 近似服從 N(0, )。,4-39,大樣本下 的近似分布:, 1 = , 其中 vi = (Xi )ui 當(dāng)n較大時(shí), vi = (Xi )ui (Xi X)ui 是獨(dú)立同分布的(為什么?) 且 var(vi) (為什么?)。 故,按照 CLT , 近似服從 N (0, ). 故, 對(duì)大樣本而言, 近似服從 , 其中 vi = (Xi X)ui,4-40,X的方差越大, 的方差越小,數(shù)學(xué)上 var( 1) = 其中 = var(Xi)。分母中X的方差(平方)越大,1的方差越小 直覺上 若X的方差越大,則用于擬合回歸線的數(shù)據(jù)中所包含的信息越多。這點(diǎn)很容易在圖中看出,4-41,X的方差越大, 的方差越小,黑點(diǎn)與藍(lán)點(diǎn)的數(shù)量一樣

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論