內(nèi)生斷點(diǎn)回歸模型的估計(jì)方法_第1頁
內(nèi)生斷點(diǎn)回歸模型的估計(jì)方法_第2頁
內(nèi)生斷點(diǎn)回歸模型的估計(jì)方法_第3頁
內(nèi)生斷點(diǎn)回歸模型的估計(jì)方法_第4頁
內(nèi)生斷點(diǎn)回歸模型的估計(jì)方法_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

內(nèi)生斷點(diǎn)回歸模型的估計(jì)方法一、引言:從因果推斷到內(nèi)生斷點(diǎn)回歸的需求在因果推斷的計(jì)量經(jīng)濟(jì)學(xué)工具箱里,斷點(diǎn)回歸(RegressionDiscontinuityDesign,RDD)一直被視為“準(zhǔn)實(shí)驗(yàn)”方法的典范。它通過一個連續(xù)的“強(qiáng)迫變量”(RunningVariable)在某個臨界點(diǎn)(Cutoff)處的跳躍,識別處理效應(yīng)(TreatmentEffect)。比如,研究獎學(xué)金對學(xué)生成績的影響時,若以考試分?jǐn)?shù)為強(qiáng)迫變量,設(shè)定分?jǐn)?shù)超過60分可獲得獎學(xué)金,那么60分上下的學(xué)生群體在理論上應(yīng)接近隨機(jī)分配,從而可以通過比較臨界點(diǎn)附近的結(jié)果變量差異,估計(jì)獎學(xué)金的因果效應(yīng)。但現(xiàn)實(shí)中,這種“理想狀態(tài)”常被打破。我曾參與一個教育政策評估項(xiàng)目,原本想用斷點(diǎn)回歸分析“某分?jǐn)?shù)線政策對高校錄取率的影響”,卻發(fā)現(xiàn)部分學(xué)生為了達(dá)到分?jǐn)?shù)線,刻意調(diào)整選考科目或申請策略,導(dǎo)致強(qiáng)迫變量(高考分?jǐn)?shù))與未觀測因素(如學(xué)習(xí)動機(jī)、家庭資源)產(chǎn)生關(guān)聯(lián)。這時候,傳統(tǒng)斷點(diǎn)回歸的“局部隨機(jī)化”假設(shè)不再成立,處理變量(是否達(dá)到分?jǐn)?shù)線)與誤差項(xiàng)存在內(nèi)生性,估計(jì)結(jié)果會出現(xiàn)偏差。這種情況下,內(nèi)生斷點(diǎn)回歸(EndogenousRegressionDiscontinuity,ERD)便成為解決問題的關(guān)鍵工具。二、傳統(tǒng)斷點(diǎn)回歸的邏輯與內(nèi)生性挑戰(zhàn)2.1傳統(tǒng)斷點(diǎn)回歸的基本邏輯要理解內(nèi)生斷點(diǎn)回歸,首先需要回顧傳統(tǒng)斷點(diǎn)回歸的核心邏輯。其核心假設(shè)是:在臨界點(diǎn)附近,個體無法精確操縱強(qiáng)迫變量,因此處理組(強(qiáng)迫變量≥臨界點(diǎn))與控制組(強(qiáng)迫變量<臨界點(diǎn))的個體在未觀測特征上是平衡的,處理變量可視為“局部隨機(jī)”分配。此時,處理效應(yīng)可通過比較臨界點(diǎn)左右兩側(cè)結(jié)果變量的跳躍幅度來估計(jì)。具體來說,設(shè)強(qiáng)迫變量為(X),臨界點(diǎn)為(c),處理變量(D=1)當(dāng)且僅當(dāng)(Xc),結(jié)果變量為(Y)。傳統(tǒng)斷點(diǎn)回歸的模型通常表示為:[Y_i=+D_i+f(X_i-c)+_i]其中(f())是控制強(qiáng)迫變量非線性關(guān)系的函數(shù)(如線性、二次多項(xiàng)式或核函數(shù)),()即為待估計(jì)的處理效應(yīng)。估計(jì)方法包括局部線性回歸(LLR)、多項(xiàng)式回歸、核回歸等,核心是通過控制強(qiáng)迫變量的光滑變化,分離出處理變量帶來的跳躍。2.2內(nèi)生性的來源與影響然而,現(xiàn)實(shí)中存在三類常見的內(nèi)生性來源,使得傳統(tǒng)斷點(diǎn)回歸的假設(shè)不成立:第一類是強(qiáng)迫變量的操縱。當(dāng)個體能通過主觀努力或策略性行為影響強(qiáng)迫變量時(如學(xué)生調(diào)整考試策略提高分?jǐn)?shù)、企業(yè)調(diào)整財(cái)務(wù)指標(biāo)達(dá)到政策門檻),臨界點(diǎn)附近的個體分布會出現(xiàn)“堆積”(Bunching)或“缺失”(Missing)。例如,某稅收優(yōu)惠政策以年利潤500萬為臨界點(diǎn),企業(yè)可能通過調(diào)整費(fèi)用列支使利潤剛好不超過500萬,導(dǎo)致500萬左側(cè)的企業(yè)數(shù)量異常增多,破壞局部隨機(jī)化。第二類是遺漏變量與處理變量的相關(guān)。即使強(qiáng)迫變量無法被精確操縱,可能存在未觀測的混雜變量(如個體能力、家庭背景)同時影響強(qiáng)迫變量和結(jié)果變量。例如,研究“重點(diǎn)班錄取對學(xué)生成績的影響”時,若學(xué)校在錄取時除了看考試分?jǐn)?shù)(強(qiáng)迫變量),還參考了未記錄的競賽成績(遺漏變量),而競賽成績又與后續(xù)成績相關(guān),此時處理變量(是否進(jìn)重點(diǎn)班)與誤差項(xiàng)相關(guān),導(dǎo)致估計(jì)偏誤。第三類是測量誤差。若強(qiáng)迫變量或結(jié)果變量存在測量誤差(如調(diào)查數(shù)據(jù)中的回憶偏差、行政記錄的登記錯誤),可能導(dǎo)致處理變量的錯誤分類(如本應(yīng)屬于處理組的個體被誤判為控制組),進(jìn)而產(chǎn)生內(nèi)生性。例如,以“年齡”為強(qiáng)迫變量研究退休政策影響時,若部分個體的身份證年齡與真實(shí)年齡不符,臨界點(diǎn)附近的分組會出現(xiàn)偏差。內(nèi)生性的存在會導(dǎo)致傳統(tǒng)斷點(diǎn)回歸的估計(jì)量(如())出現(xiàn)偏差,甚至完全失效。例如,在操縱強(qiáng)迫變量的情況下,臨界點(diǎn)左側(cè)的個體可能比右側(cè)更“聰明”或更“努力”,此時比較兩者的結(jié)果差異,可能將個體特征差異誤判為處理效應(yīng)。三、內(nèi)生斷點(diǎn)回歸的核心估計(jì)方法針對上述內(nèi)生性問題,學(xué)者們發(fā)展了多種估計(jì)方法。這些方法的共同思路是:通過引入額外信息或調(diào)整模型設(shè)定,將處理變量的內(nèi)生部分分離出來,從而識別出因果效應(yīng)。以下是最常用的四類方法。3.1工具變量法(IV-ERD)工具變量法是處理內(nèi)生性的經(jīng)典手段,其核心是找到一個與處理變量相關(guān)但與誤差項(xiàng)無關(guān)的工具變量(InstrumentalVariable,IV)。在內(nèi)生斷點(diǎn)回歸中,工具變量通常需滿足兩個條件:一是相關(guān)性,工具變量能顯著影響處理變量;二是外生性,工具變量僅通過處理變量影響結(jié)果變量,與誤差項(xiàng)無關(guān)。3.1.1工具變量的構(gòu)造策略常見的工具變量構(gòu)造策略包括:(1)外生沖擊下的強(qiáng)迫變量變化。例如,在研究“高考加分政策對錄取率的影響”時,若某年因政策調(diào)整,加分規(guī)則在某個分?jǐn)?shù)段(如480-500分)內(nèi)隨機(jī)變動(外生沖擊),則可將“是否屬于該分?jǐn)?shù)段”作為工具變量,因?yàn)樗鼤绊憣W(xué)生是否獲得加分(處理變量),但與學(xué)生能力(誤差項(xiàng))無關(guān)。(2)高階強(qiáng)迫變量的函數(shù)。當(dāng)強(qiáng)迫變量(X)存在操縱時,操縱行為通常集中在臨界點(diǎn)附近的小范圍內(nèi)(如(X)),而遠(yuǎn)離臨界點(diǎn)的(X)值(如(X)或(X))可能未被操縱。此時,可將遠(yuǎn)離臨界點(diǎn)的(X)值作為工具變量,因?yàn)樗鼈兣c處理變量((Xc))相關(guān),但不受操縱行為的影響。(3)制度性斷點(diǎn)的交叉設(shè)計(jì)。若存在兩個獨(dú)立的臨界點(diǎn)(如同一政策在不同地區(qū)的執(zhí)行標(biāo)準(zhǔn)不同),可利用“雙斷點(diǎn)”構(gòu)造工具變量。例如,研究“最低生活保障政策對家庭消費(fèi)的影響”時,若A地區(qū)的低保線為月收入3000元,B地區(qū)為3500元,則可將“地區(qū)×收入與低保線的距離”作為工具變量,通過跨地區(qū)比較分離出內(nèi)生性。3.1.2估計(jì)步驟與注意事項(xiàng)工具變量法的具體步驟通常為:第一階段回歸:將處理變量(D)對工具變量(Z)和強(qiáng)迫變量的函數(shù)(f(X))進(jìn)行回歸,得到擬合值()。第二階段回歸:將結(jié)果變量(Y)對()和(f(X))進(jìn)行回歸,估計(jì)處理效應(yīng)()。需要注意的是,工具變量法可能面臨“弱工具變量”問題(即工具變量與處理變量的相關(guān)性較弱),這會導(dǎo)致估計(jì)量的偏差增大。此時可通過統(tǒng)計(jì)檢驗(yàn)(如Cragg-DonaldWaldF統(tǒng)計(jì)量)判斷工具變量的強(qiáng)度,若F值小于10,通常認(rèn)為工具變量過弱,需尋找更強(qiáng)的工具變量。3.2控制函數(shù)法(ControlFunctionApproach)控制函數(shù)法的思路是:將處理變量的內(nèi)生部分表示為某個函數(shù)(控制函數(shù)),并將其納入回歸模型,從而消除內(nèi)生性偏誤。具體來說,若處理變量(D)與誤差項(xiàng)()的相關(guān)源于(D)包含一個未觀測的內(nèi)生成分(v),則可通過估計(jì)(v)的條件期望(控制函數(shù)),并將其作為額外解釋變量加入模型。3.2.1模型設(shè)定與估計(jì)假設(shè)處理變量(D)的生成過程為:[D_i=g(X_i,Z_i)+v_i]其中(Z_i)是外生變量,(v_i)是內(nèi)生成分(與(_i)相關(guān))。結(jié)果變量模型為:[Y_i=+D_i+f(X_i)+_i]由于(v_i)與(_i)相關(guān),直接回歸會導(dǎo)致偏誤??刂坪瘮?shù)法通過將(v_i)的估計(jì)值(如第一階段回歸的殘差)加入結(jié)果方程,得到:[Y_i=+D_i+f(X_i)+_i+_i^*]其中(_i)是第一階段回歸的殘差,()是控制函數(shù)的系數(shù)。若()顯著不為零,說明存在內(nèi)生性;若()不顯著,則可認(rèn)為內(nèi)生性已被控制。3.2.2應(yīng)用場景與優(yōu)勢控制函數(shù)法適用于內(nèi)生性來源明確(如已知處理變量的生成過程)的場景,例如當(dāng)處理變量的操縱行為可通過某種函數(shù)形式(如二次函數(shù)、指數(shù)函數(shù))近似時。其優(yōu)勢在于無需尋找外部工具變量,僅需利用模型內(nèi)部信息即可控制內(nèi)生性,因此在工具變量難以構(gòu)造的情況下更為實(shí)用。3.3匹配斷點(diǎn)回歸(MatchingRDD)匹配法通過在臨界點(diǎn)附近尋找“相似”的處理組與控制組個體,減少未觀測特征的差異,從而緩解內(nèi)生性。其核心是基于強(qiáng)迫變量和其他可觀測協(xié)變量,為每個處理組個體匹配一個或多個控制組個體,使得匹配后的兩組在協(xié)變量分布上盡可能平衡。3.3.1匹配策略的選擇常見的匹配策略包括:半徑匹配:僅匹配強(qiáng)迫變量與臨界點(diǎn)距離在某個半徑內(nèi)的個體(如(|X_i-c|)),確保匹配范圍足夠小,減少操縱可能。核匹配:根據(jù)強(qiáng)迫變量與臨界點(diǎn)的距離賦予不同權(quán)重(距離越近權(quán)重越大),加權(quán)后比較結(jié)果變量的差異。傾向得分匹配:先估計(jì)個體接受處理的概率(傾向得分),再根據(jù)傾向得分進(jìn)行匹配,控制可觀測協(xié)變量的影響。3.3.2與傳統(tǒng)斷點(diǎn)回歸的結(jié)合匹配斷點(diǎn)回歸通常與局部線性回歸結(jié)合使用。例如,先通過半徑匹配限定樣本范圍(如(X)),再在匹配后的樣本中進(jìn)行局部線性回歸,估計(jì)處理效應(yīng)。這種方法尤其適用于強(qiáng)迫變量分布不均勻(如存在多個堆積點(diǎn))的情況,通過匹配可剔除異常值,提高估計(jì)精度。3.4動態(tài)斷點(diǎn)回歸(DynamicRDD)對于長期因果效應(yīng)的估計(jì)(如政策對個體未來5年收入的影響),內(nèi)生性可能隨時間變化(如個體在處理后調(diào)整行為,導(dǎo)致后續(xù)強(qiáng)迫變量與誤差項(xiàng)相關(guān))。動態(tài)斷點(diǎn)回歸通過引入時間維度,將模型擴(kuò)展為:[Y_{it}=+_{k=-T}^{T}kD_iI(t=c+k)+f(X_i,t)+{it}]其中(t)為時間,(I())為指示函數(shù),(_k)表示處理后第(k)期的效應(yīng)。通過估計(jì)不同時間點(diǎn)的(_k),可以觀察處理效應(yīng)的動態(tài)變化,并檢驗(yàn)內(nèi)生性是否隨時間減弱(如操縱行為僅在短期內(nèi)存在)。四、內(nèi)生斷點(diǎn)回歸的識別假設(shè)與檢驗(yàn)4.1關(guān)鍵識別假設(shè)無論采用哪種方法,內(nèi)生斷點(diǎn)回歸都需滿足以下核心假設(shè):局部不可操縱性:盡管存在一定程度的操縱,但在臨界點(diǎn)的一個足夠小的鄰域內(nèi)(如(X)),個體無法精確操縱強(qiáng)迫變量,使得處理組與控制組的未觀測特征趨于平衡。這一假設(shè)可通過McCrary檢驗(yàn)(檢驗(yàn)強(qiáng)迫變量在臨界點(diǎn)的密度函數(shù)是否連續(xù))進(jìn)行驗(yàn)證。工具變量的外生性與相關(guān)性(針對IV-ERD):工具變量僅通過處理變量影響結(jié)果變量,且與處理變量高度相關(guān)。外生性通常無法直接檢驗(yàn),但可通過過度識別檢驗(yàn)(如Sargan檢驗(yàn))間接驗(yàn)證;相關(guān)性可通過第一階段回歸的F統(tǒng)計(jì)量判斷??刂坪瘮?shù)的正確設(shè)定(針對控制函數(shù)法):控制函數(shù)需包含處理變量內(nèi)生部分的所有相關(guān)信息,否則會導(dǎo)致遺漏變量偏誤。實(shí)際應(yīng)用中,可通過加入高階項(xiàng)(如殘差的平方、立方)檢驗(yàn)函數(shù)形式是否合理。4.2穩(wěn)健性檢驗(yàn)方法為確保估計(jì)結(jié)果的可靠性,需進(jìn)行以下檢驗(yàn):操縱檢驗(yàn):使用McCrary檢驗(yàn)檢查強(qiáng)迫變量在臨界點(diǎn)的密度是否連續(xù)。若密度函數(shù)在臨界點(diǎn)左側(cè)顯著高于右側(cè)(堆積)或右側(cè)顯著高于左側(cè)(缺失),說明存在操縱,需縮小樣本范圍(如僅保留(|X-c|<0.1)的個體)或采用內(nèi)生斷點(diǎn)回歸方法。安慰劑檢驗(yàn):選擇一個虛構(gòu)的臨界點(diǎn)(如(c’c)),若在虛構(gòu)臨界點(diǎn)處估計(jì)的處理效應(yīng)顯著不為零,說明存在未控制的混雜因素,原估計(jì)結(jié)果不可信。協(xié)變量平衡檢驗(yàn):檢查處理組與控制組在可觀測協(xié)變量(如年齡、性別、家庭收入)上的分布是否平衡。若協(xié)變量在臨界點(diǎn)附近存在顯著差異,說明存在內(nèi)生性,需調(diào)整模型設(shè)定(如加入?yún)f(xié)變量作為控制變量)。帶寬敏感性檢驗(yàn):使用不同的帶寬(如(=0.5,1.0,1.5))重新估計(jì)處理效應(yīng),若結(jié)果穩(wěn)定,說明估計(jì)結(jié)果對帶寬選擇不敏感;若結(jié)果變化較大,需進(jìn)一步分析原因(如操縱行為隨帶寬擴(kuò)大而增強(qiáng))。五、應(yīng)用實(shí)例:某教育政策的內(nèi)生斷點(diǎn)回歸分析為更直觀地理解內(nèi)生斷點(diǎn)回歸的應(yīng)用,這里以一個虛構(gòu)的教育政策評估項(xiàng)目為例。5.1研究背景與問題某地區(qū)推行“優(yōu)質(zhì)高中定向生政策”,規(guī)定初中畢業(yè)生中考分?jǐn)?shù)達(dá)到“統(tǒng)招線”(設(shè)為(c=580)分)的學(xué)生可直接錄取優(yōu)質(zhì)高中(處理組),分?jǐn)?shù)在“定向線”((c’=550)分)至統(tǒng)招線之間的學(xué)生(控制組)需通過校內(nèi)競爭獲得定向名額。但實(shí)際中,部分初中為提高定向生名額,可能通過調(diào)整平時成績(影響中考分?jǐn)?shù))使更多學(xué)生集中在550-580分區(qū)間,導(dǎo)致強(qiáng)迫變量(中考分?jǐn)?shù))存在操縱,傳統(tǒng)斷點(diǎn)回歸的局部隨機(jī)化假設(shè)不成立。5.2模型設(shè)定與估計(jì)研究團(tuán)隊(duì)采用工具變量法進(jìn)行內(nèi)生斷點(diǎn)回歸:工具變量構(gòu)造:由于政策規(guī)定“定向生名額分配與初中近三年畢業(yè)生人數(shù)掛鉤”,而畢業(yè)生人數(shù)是外生的(由學(xué)區(qū)劃分決定,與學(xué)生成績無關(guān)),因此將“初中近三年畢業(yè)生人數(shù)”作為工具變量(Z),該變量會影響學(xué)校是否有動機(jī)操縱中考分?jǐn)?shù)(處理變量(D)),但與學(xué)生真實(shí)能力(誤差項(xiàng))無關(guān)。第一階段回歸:將處理變量(D)(是否達(dá)到統(tǒng)招線)對工具變量(Z)和強(qiáng)迫變量的線性函數(shù)((X-580))進(jìn)行回歸,得到擬合值()。結(jié)果顯示,工具變量的系數(shù)顯著(p<0.01),F(xiàn)統(tǒng)計(jì)量為25,說明工具變量強(qiáng)度足夠。第二階段回歸:將結(jié)果變量(Y)(高考一本上線率)對()和((X-580))進(jìn)行回歸,估計(jì)得到處理效應(yīng)()(即優(yōu)質(zhì)高中錄取使一本上線率提高12個百分點(diǎn))。5.3檢驗(yàn)與結(jié)果驗(yàn)證操縱檢驗(yàn):McCrary檢驗(yàn)顯示,中考分?jǐn)?shù)在580

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論