大數(shù)據(jù)計(jì)量經(jīng)濟(jì)分析 課件 第6章 離散與受限因變量回歸模型_第1頁
大數(shù)據(jù)計(jì)量經(jīng)濟(jì)分析 課件 第6章 離散與受限因變量回歸模型_第2頁
大數(shù)據(jù)計(jì)量經(jīng)濟(jì)分析 課件 第6章 離散與受限因變量回歸模型_第3頁
大數(shù)據(jù)計(jì)量經(jīng)濟(jì)分析 課件 第6章 離散與受限因變量回歸模型_第4頁
大數(shù)據(jù)計(jì)量經(jīng)濟(jì)分析 課件 第6章 離散與受限因變量回歸模型_第5頁
已閱讀5頁,還剩44頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第6章離散與受限因變量模型1第6章離散與受限因變量模型本章主要內(nèi)容線性概率模型Logit模型Probit模型Tobit模型26.1線性概率模型36.1.1線性概率模型的定義對于二元選擇問題,一種最簡單的分析方法是不加任何特殊處理而直接使用普通線性回歸模型的設(shè)定:是取值為0或1的虛擬因變量,一般設(shè)為:對模型兩邊取條件期望得:46.1.1線性概率模型的定義

的條件分布如表所示:的條件期望值為:

5取值概率10在線性概率模型中,只能取兩個(gè)值,0或1,所以不能把斜率系數(shù)解釋為X的單位變動(dòng)引起Y的條件均值的變化,可以解釋為X單位變動(dòng)引起的Y=1概率的變化。以為例,說明每增加一個(gè)單位,則第一種選擇發(fā)生的概率增加0.05。6.1.2線性概率模型的估計(jì)1.隨機(jī)誤差項(xiàng)是非正態(tài)分布的線性概率模型中的隨機(jī)誤差項(xiàng)不服從正態(tài)分布,對參數(shù)估計(jì)并不產(chǎn)生影響,OLS法本身并不要求服從正態(tài)分布,即OLS估計(jì)量在非正態(tài)分布條件下依然是最優(yōu)線性無偏估計(jì)量。6服從二項(xiàng)分布6.1.2線性概率模型的估計(jì)2.隨機(jī)誤差項(xiàng)存在異方差性隨機(jī)誤差項(xiàng)的方差是的條件期望的函數(shù),是異方差的。此時(shí),OLS估計(jì)量將不再是最小方差的,統(tǒng)計(jì)檢驗(yàn)也是不可靠的。要消除異方差的影響,可使用加權(quán)最小二乘法進(jìn)行參數(shù)估計(jì)。76.1.2線性概率模型的估計(jì)3.無法保證Y的估計(jì)值介于0和1之間

線性概率模型的不能保證在0和1之間,可能大于1,也可能小于0。這是線性概率模型用OLS法估計(jì)存在的核心問題之一。86.1.2線性概率模型的估計(jì)【例6-1基于線性概率模型的員工離職影響因素分析】1.變量介紹9

變量名變量定義具體說明因變量是否離職1:離職;0:未離職

自變量年齡年齡出差頻率1:經(jīng)常出差;0:很少出差距離單位與住處之間的實(shí)際距離(公里)

工作滿意度從1到4,1代表滿意程度最低,4代表滿意程度最高

婚否1:已婚;0:未婚6.1.2線性概率模型的估計(jì)2.模型構(gòu)建

本例的因變量label只有離職和未離職兩種結(jié)果,可以構(gòu)建線性概率模型,具體形式為:3.參數(shù)估計(jì)與假設(shè)檢驗(yàn)106.1.2線性概率模型的估計(jì)

從估計(jì)結(jié)果可以看出,所有自變量參數(shù)估計(jì)量的t值均大于臨界值,表明各自變量的斜率系數(shù)在5%顯著水平下顯著不為零,即職工年齡、出差頻率、單位與住處之間的距離、工作滿意度和婚姻狀況等因素對離職的概率都有顯著影響。在其他條件不變的情況下,年齡每增加1歲,離職概率平均下降0.007;經(jīng)常出差的職工離職概率比不經(jīng)常出差的職工平均高出0.070;單位與住處之間的距離每增加1公里,離職概率平均增加0.004;工作滿意度每提高一個(gè)級別,離職概率平均下降0.042;已婚職工的離職概率比未婚職工平均低0.060。116.2Logit模型1213由于線性概率模型存在一些問題,希望能找到一種變換方法,(1)使解釋變量xi所對應(yīng)的所有預(yù)測值(概率值)都落在(0,1)之間。(2)同時(shí)對于所有的xi,當(dāng)xi增加時(shí),希望yi也單調(diào)增加或單調(diào)減少。顯然累積概率分布函數(shù)F(zi)能滿足這樣的要求。采用累積正態(tài)概率分布函數(shù)的模型稱作Probit模型。用正態(tài)分布的累積概率作為Probit模型的預(yù)測概率。另外logistic函數(shù)也能滿足這樣的要求。采用logistic函數(shù)的模型稱作logit模型。146.2.1Logit模型的基本形式Logit模型是一個(gè)離散選擇模型,主要用來解決分類問題。該模型的因變量是取值為0或1的二元變量,自變量沒有限制,虛擬變量或連續(xù)變量均可。其采用的是Logistic概率分布函數(shù),基本形式為:其中,,F(xiàn)(?)為logistic累積概率分布函數(shù),其分布規(guī)律如圖6-2所示。1516176.2.2Logit模型的估計(jì)由于Logit模型屬于非線性模型,我們不能用普通最小二乘法對其進(jìn)行估計(jì),一般用極大似然估計(jì)法。極大似然估計(jì)法的基本思想是希望通過確定模型的參數(shù)使該模型產(chǎn)生已知樣本的概率最大。

主要步驟如下:(1)依據(jù)對隨機(jī)誤差項(xiàng)的統(tǒng)計(jì)分布假定,計(jì)算單個(gè)樣本的概率密度;(2)將所有樣本的概率密度累乘得到樣本的似然函數(shù);(3)將似然函數(shù)進(jìn)行對數(shù)轉(zhuǎn)換,從而得到對數(shù)似然函數(shù);(4)將對數(shù)似然函數(shù)最大化,求得參數(shù)的極大似然估計(jì)值。186.2.3Logit模型的邊際效應(yīng)邊際效應(yīng)是指自變量變動(dòng)一個(gè)單位對因變量的影響。與線性概率模型不同,Logit模型中的系數(shù)β并不直接代表自變量X對于的邊際效應(yīng),而只代表X對于概率比對數(shù)的邊際效應(yīng)。196.2.4Logit模型的假設(shè)檢驗(yàn)1.擬合優(yōu)度檢驗(yàn)用樣本的擬合似然值來對模型的擬合優(yōu)度進(jìn)行比較。為了區(qū)別于通常的擬合優(yōu)度R2,我們稱樣本的擬合似然值為準(zhǔn)R2

,在stata軟件給出的估計(jì)結(jié)果中記為PseudoR2

。準(zhǔn)準(zhǔn)R2可以作為檢驗(yàn)?zāi)P蛿M合優(yōu)度的統(tǒng)計(jì)量,準(zhǔn)R2越接近于1,模型的擬合效果越好。206.2.4Logit模型的假設(shè)檢驗(yàn)2.總體顯著性檢驗(yàn)似然比檢驗(yàn)類似于檢驗(yàn)?zāi)P驼w顯著性的F檢驗(yàn),原假設(shè)為全部解釋變量的系數(shù)均為0,即檢驗(yàn)的似然比統(tǒng)計(jì)量LR為:

LR較大,表明L與L0的差距較大,傾向于拒絕原假設(shè)而接受模型整體顯著的備擇假設(shè)。216.2.4Logit模型的假設(shè)檢驗(yàn)【例6-2基于logit模型的員工離職影響因素分析】1.模型構(gòu)建本例的因變量label只有離職和未離職兩種結(jié)果,符合logit模型應(yīng)用條件,具體形式為:226.2.4Logit模型的假設(shè)檢驗(yàn)2.參數(shù)估計(jì)236.2.4Logit模型的假設(shè)檢驗(yàn)2.參數(shù)估計(jì)從估計(jì)結(jié)果可以看出,,表明方程總體上是顯著的。各參數(shù)估計(jì)量的z值均大于臨界值1.96,表明各個(gè)自變量的斜率系數(shù)在5%的顯著性水平下都顯著不為零,即職工年齡、出差頻率、單位與住處之間的距離、工作滿意度和婚姻狀況等因素對離職的概率都有顯著影響。246.2.4Logit模型的假設(shè)檢驗(yàn)3.邊際效應(yīng)(1)平均邊際效應(yīng):.margins,dydx(*)

對于平均邊際效應(yīng)的解釋與線性概率模型的系數(shù)類似,即在其他條件不變的情況下,年齡每增加1歲,離職概率平均下降0.008;經(jīng)常出差的職工離職概率比不經(jīng)常出差的職工平均高出0.065;單位與住處之間的距離每增加1公里,離職概率平均增加0.004;工作滿意度每提高一個(gè)級別,離職概率平均下降0.041;已婚職工的離職概率比未婚職工平均低0.061。256.2.4Logit模型的假設(shè)檢驗(yàn)3.邊際效應(yīng)(2)均值邊際效應(yīng):.margins,dydx(*)atmeans

266.2.4Logit模型的假設(shè)檢驗(yàn)3.邊際效應(yīng)(3)特定取值的邊際效應(yīng):.margins,dydx(age)at(age=35)

276.2.4Logit模型的假設(shè)檢驗(yàn)4.預(yù)測準(zhǔn)確率.estatclas

286.2.4Logit模型的假設(shè)檢驗(yàn)4.預(yù)測準(zhǔn)確率在圖中,“D”和“~D”是實(shí)際值,“D”表示label!=0(正例),即離職;“~D”表示label=0(負(fù)例),即未離職?!?”和“-”表示預(yù)測值,“+”表示預(yù)測的離職概率大于等于0.5,即離職;“-”表示預(yù)測的離職概率小于0.5,即未離職。在本例中,這兩種情況對應(yīng)的樣本數(shù)分別為5和921,所以預(yù)測準(zhǔn)確率為(5+921)/1100=84.18%。圖中的“Sensitivity”(靈敏度)是指正確預(yù)測的正例數(shù)在實(shí)際正例數(shù)中的比例;“Specificity”(特異性)是指指正確預(yù)測的負(fù)例數(shù)在實(shí)際負(fù)例數(shù)中的比例;“Positivepredictivevalue”(正例命中率)是指正確預(yù)測的正例數(shù)在預(yù)測正例中的比例;“Negativepredictivevalue”(負(fù)例命中率)是指正確預(yù)測的負(fù)例數(shù)在預(yù)測負(fù)例中的比例。

296.3Probit模型306.3.1Probit模型的基本形式Probit模型也叫概率單位模型,與Logit模型一樣,該模型也是離散選擇模型,其被解釋變量是取值為0或1的二元變量,解釋變量沒有限制,虛擬變量或連續(xù)變量均可。該模型采用的是累積標(biāo)準(zhǔn)正態(tài)分布函數(shù),基本形式為:其中,,為累積標(biāo)準(zhǔn)正態(tài)分布函數(shù)。316.3.1Probit模型的基本形式累積標(biāo)準(zhǔn)正態(tài)分布曲線和logistic曲線很相似,兩條曲線都是在p=0.5處有拐點(diǎn),即斜率在p=0.5時(shí)最大,在累積分布兩個(gè)尾端的斜率逐漸減小。因此,Probit曲線和Logit曲線也很相似,但Logit曲線在兩個(gè)尾部要比Probit曲線厚。曲線對比如圖6-9所示。326.3.2Probit模型的估計(jì)Probit模型與Logit模型一樣,屬于非線性模型。非線性模型不能用最小二乘法對其進(jìn)行估計(jì),比較常用的是極大似然估計(jì)。實(shí)際的運(yùn)算過程中會(huì)發(fā)現(xiàn),通常無法得到參數(shù)的確切解。因此需要運(yùn)用最大似然法的非線性估計(jì)牛頓迭代法來求解參數(shù)。336.3.3Probit模型的邊際效應(yīng)在Probit模型中,斜率系數(shù)βj必須乘以概率密度函數(shù)以后才表示

的邊際效應(yīng)。Probit模型對邊際效應(yīng)的估計(jì)值會(huì)隨概率區(qū)間的變化而變化,這也是該模型相對于線性概率模型的一大優(yōu)勢。346.3.3Probit模型的邊際效應(yīng)【例6-3基于Probit模型的員工離職影響因素分析】1.模型構(gòu)建本例的因變量label只有離職和未離職兩種結(jié)果,符合Probit模型應(yīng)用條件,具體形式為:其中,356.3.3Probit模型的邊際效應(yīng)2.參數(shù)估計(jì)

方程總體上是顯著的。除了截距項(xiàng)以外,各參數(shù)估計(jì)量的z值均大于臨界值1.96,表明各個(gè)自變量的斜率系數(shù)在5%的顯著性水平下都顯著不為零,即職工年齡、出差頻率、單位與住處之間的距離、工作滿意度和婚姻狀況等因素對離職的概率都有顯著影響。366.3.3Probit模型的邊際效應(yīng)3.邊際效應(yīng)

376.3.3Probit模型的邊際效應(yīng)4.預(yù)測準(zhǔn)確率在本例中,實(shí)際值和預(yù)測值均為“離職”的樣本數(shù)為2,實(shí)際值和預(yù)測值均為“未離職”的樣本數(shù)是922,所以預(yù)測準(zhǔn)確率為(2+922)/1100=84.00%。

386.3.3Probit模型的邊際效應(yīng)5.Logit模型和Probit模型對比

39變量Logit模型Probit模型回歸系數(shù)平均邊際效應(yīng)回歸系數(shù)平均邊際效應(yīng)-0.0597-0.0075-0.0299-0.00680.51550.06480.26580.06060.03250.00410.01720.0039-0.3243-0.0407-0.1761-0.0402-0.4852-0.0610-0.2565-0.0585預(yù)測準(zhǔn)確率84.18%84.00%準(zhǔn)0.080.07586.4Tobit模型406.4.1截取數(shù)據(jù)與斷尾數(shù)據(jù)

Tobit模型屬于受限因變量模型,受限因變量所對應(yīng)的數(shù)據(jù)由于受到主觀或客觀的限制而無法完整地反映該變量的真實(shí)總體分布。主要包括斷尾(truncated)數(shù)據(jù)和截取(censored)數(shù)據(jù)。斷尾數(shù)據(jù)是指數(shù)據(jù)的頭部或尾部由于主觀或客觀原因不能進(jìn)入樣本。采集數(shù)據(jù)時(shí),如果只收集大于或者是小于某個(gè)閾值的數(shù)據(jù),而丟失了那些處于閾值之外的數(shù)據(jù),此時(shí)收集的數(shù)據(jù)就是斷尾數(shù)據(jù)。截取數(shù)據(jù)存在一個(gè)取樣的閾值,當(dāng)變量的真實(shí)值低于或超過該閾值時(shí),數(shù)據(jù)雖然不會(huì)被刪除出樣本,但是它會(huì)變?yōu)殚撝档娜≈刀菢颖镜恼鎸?shí)取值。416.4.2Tobit模型的基本形式經(jīng)典的Tobit模型是JamesTobin在分析家庭耐用品支出情況時(shí)對Probit回歸進(jìn)行的一種推廣(Tobit一詞源自Tobin’sProbit),其后又被擴(kuò)展成多種情況。標(biāo)準(zhǔn)的Tobit回歸模型如下:(6.4.1)其中,被稱為潛變量,并且滿足經(jīng)典線性模型假定;是被截取后的被解釋變量;樣本觀測值以0為界,凡小于0的都截取為0,大于0的則為實(shí)際值。426.4.2Tobit模型的基本形式

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論