版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、有限類別因變量回歸分析: Logit模型原理及應用Regression analysis for limited and categorical dependent variables: Logit model and its application2022/9/251有限類別因變量回歸分析: 一個常被忽視的OLS基本假設測量假設(measurement assumption)所有自變量是定距(interval)、比率(ratio)或類別(categorical)變量,因變量是連續(xù)的、無限制的(unbounded)定距或比率變量,并且自變量不存在測量誤差類別是以男、女等性別類標進行分類比較的,
2、但不是定距的;定距是大小已定,二者距離是可比較的;按照ols回歸,類別不能作為因變量,例如價格對滿意度的影響,滿意度就是類別的,有限的。2022/9/252一個常被忽視的OLS基本假設測量假設(measurement一個常被忽視的OLS基本假設如果模型因變量是有限的類別變量在實際分析中,因變量常常都是有限變量例如,個人的收入多數(shù)只存在于一個有限的值域范圍內(nèi),個人的年齡都限制在一定得壽命范圍內(nèi),個人所受教育亦是有限的但這些變量取值可以近似于連續(xù),其取值范圍雖然有限,但通常范圍較大,因此可以將其看成是連續(xù)無限的變量然而,有一些變量卻明顯不是連續(xù)的,屬于類別變量(無序和有序)例如,個人的性別、個人是
3、否就學某一層級教育,個人對于納稅的意愿如果以這些變量作為因變量進行OLS回歸,就會嚴重違背OLS有關(guān)測量的基本假設(因變量是類別變量,不能ols回歸)2022/9/253一個常被忽視的OLS基本假設如果模型因變量是有限的類別變量2線性概率模型(LPM,Linear Probability Model)一個案例收入對于個人是否購買最新款Apple Ipad是否具有影響,自變量為個人收入,因變量為個人購買Ipad的決定,0表示不購買,1表示購買如果使用OLS,能形成一個線性概率回歸方程:因變量即為個人購買Ipad的條件概率,自變量的估計系數(shù)即表示當個人收入每增加一單位,個人購買Ipad的概率會上升
4、多少如此做,似乎也實現(xiàn)了我們的研究目的是否存在問題呢?2022/9/254線性概率模型(LPM,Linear Probability 線性概率模型存在的四個問題異方差問題若因變量只取值0和1值,那么線性概率模型的殘值方差為:殘值方差有賴于因變量的條件概率值,而該概率值又是以自變量取值為條件的,因此殘值方差勢必與自變量相關(guān),為異方差估計系數(shù)標準誤非最優(yōu),t顯著性檢驗無效預測值可能會超出因變量(0,1)的值域范圍例如,運用線性概率模型OLS回歸的結(jié)果如下:y=-0.41+0.064*x,x的值域在(8,29)當x=8時,y=0.1,當x=29時,y=1.45(超出1)殘值不符合正態(tài)分布在小樣本下,
5、t顯著性檢驗無效2022/9/255線性概率模型存在的四個問題異方差問題2022/9/245線性概率模型存在的四個問題函數(shù)識別錯誤自變量與因變量概率之間的關(guān)系應當是非線性還是線性?因變量概率的值域在(0,1)之間,因此隨自變量值無限增大或減少,因變量概率值應當會無限接近1或0如下左圖,對于兩分類別因變量的分析應使用非線性函數(shù)如下右圖,自變量x與因變量y概率之間呈S狀變化,曲線上下兩端無限趨近于0和1,此圖形類似于一種隨機變量的累積分布曲線2022/9/256線性概率模型存在的四個問題函數(shù)識別錯誤2022/9/246Logistic Regression Model(LRM)什么是Logisti
6、c regression model以Logistic分布來近似兩分類別因變量概率的變化曲線(類別只有2種,買或不買;男或女)Logsitic分布的均值為0,方差等于 。將該分布應用于兩分因變量回歸的最大好處在于,它能使得累積分布函數(shù)最終取得一個簡單的函數(shù)公式2022/9/257Logistic Regression Model(LRM)Logistic回歸原理假定有一個連續(xù)反應變量g(latent variable)表示某一事件發(fā)生的可能性,其值域無限。y事件從不發(fā)生(0)到發(fā)生(1)的變化需g達到一個臨界值(假設該臨界值為0) g為潛變量當g0時,y=1;當g0時,y=0假定g與自變量x之
7、間存在線性關(guān)系,有:發(fā)生比2022/9/258Logistic回歸原理假定有一個連續(xù)反應變量g(latenLogistic回歸的特點因變量是因變量事件發(fā)生與不發(fā)生概率之比的對數(shù)值兩個概率之比稱為odds,有多種翻譯,包括發(fā)生比、概率比、幾率等,而log(odds)被稱為對數(shù)發(fā)生比該值越大,說明事件發(fā)生的可能性越高該概率比對數(shù)值的值域在(正負無窮之間)之間2022/9/259Logistic回歸的特點因變量是因變量事件發(fā)生與不發(fā)生概率Logistic回歸的特點自變量估計系數(shù)可以按照參照OLS回歸的方法來解釋值得注意,由于因變量是對數(shù)概率比,這一數(shù)值本身沒有太多現(xiàn)實含義,因此,我們一般不用“自變量
8、每變化一單位,某一事件的對數(shù)概率比會變化多少”這一方法來解釋估計結(jié)果,而是比較籠統(tǒng)地用“隨自變量變大,某一事件發(fā)生的可能性會隨之增大或減少”2022/9/2510Logistic回歸的特點自變量估計系數(shù)可以按照參照OLS回Logistic回歸的特點對數(shù)概率比對于參數(shù)是線性的,但自變量對事件發(fā)生的概率的影響是非線性的(只有非線性才會有邊際的存在,線性下,影響是一樣的)如果你想得到某一自變量對事件發(fā)生概率的影響,該影響必定是邊際影響,即你可以測算出在其他自變量取一定數(shù)值的條件下,某一自變量由某一特定的值變化一單位,事件發(fā)生的概率會變化多少。這需要進行一定轉(zhuǎn)換計算,我們可以利用Stata進行計算,并
9、繪圖,之后會有介紹2022/9/2511Logistic回歸的特點對數(shù)概率比對于參數(shù)是線性的,但自變Logistic模型的估計最大似然法對數(shù)似然函數(shù)(log-likelihood function)和迭代計算法即通過對估計系數(shù)和不斷的取值,使得對數(shù)似然函數(shù)值實現(xiàn)最大,具體統(tǒng)計推斷參見參考書最大似然估計法對樣本容量的要求“It is risky to use ML with samples samller than 100, while samples over 500 seem adequate. These values should be rasised depending on char
10、acteristics of the model and the data. First, if there are many parameters(參數(shù)), more observations are needed. A rule of at least 10 observations per parameters seems reasonable. This does not imply that a minimum of 100 is not needed if you have only two parameters. Second, if the data are ill-condi
11、tioned (e. g., or if there is little variation in the dependent variable (e.g., nearly all the outcoindependent variabless are highly collinear) mes are 1), a large sample is required. Third, some models seem to require more observations (such as the ordinal regression model or the zero-inflated cou
12、nt models) (Long, 1997:54)有序類別回歸2022/9/2512Logistic模型的估計最大似然法有序類別回歸2022/9如何在Stata中實現(xiàn)Logistic回歸分析兩分類別變量的邏輯回歸-logit-兩分類別變量有兩種結(jié)果,Stata進行l(wèi)ogit回歸時默認以賦值小的那個結(jié)果作為參照結(jié)果(baseoutcome)例如,我們想探討性別與受教育年限對農(nóng)民外出從業(yè)可能性的影響,因變量是農(nóng)民是否外出從業(yè),0為在家從業(yè),1為外出從業(yè)。此時邏輯回歸的因變量即為:外出從業(yè)與在家從業(yè)的比率logit emigrant gender edu2022/9/2513如何在Stata中實現(xiàn)
13、Logistic回歸分析兩分類別變量的如何在Stata中實現(xiàn)Logistic回歸分析2022/9/2514如何在Stata中實現(xiàn)Logistic回歸分析2022/9/如何解釋Logistic回歸的估計結(jié)果用對數(shù)概率比進行解釋由于對數(shù)概率比沒有實際意義,因此,推薦用趨勢方法來解釋估計結(jié)果如本例,根據(jù)邏輯回歸估計結(jié)果,我們可以說男性外出從業(yè)的可能性顯著高于女性,受教育程度越高的農(nóng)民外出從業(yè)的可能性越高,而不說,農(nóng)民個人受教育年限每增加一年,農(nóng)民外出從業(yè)的對數(shù)概率比會增加0.112022/9/2515如何解釋Logistic回歸的估計結(jié)果用對數(shù)概率比進行解釋2如何解釋Logistic回歸的估計結(jié)果用
14、概率比進行解釋如果自變量是類別變量男性外出從業(yè)是女性外出從業(yè)的e的0.41倍自變量變化一單位,因變量概率比變化 倍2022/9/2516如何解釋Logistic回歸的估計結(jié)果用概率比進行解釋男性外如何解釋Logistic回歸的估計結(jié)果如本例,根據(jù)邏輯回歸結(jié)果男性外出從業(yè)相對于在家從業(yè)的概率比是女性的1.51倍個人受教育年限每增加一年,農(nóng)民外出從業(yè)相對于在家從業(yè)的概率比會顯著增加10.8%在-logit-后面加上or選項,Stata會自動算出各回歸系數(shù)的 值2022/9/2517如何解釋Logistic回歸的估計結(jié)果如本例,根據(jù)邏輯回歸結(jié)如何解釋Logistic回歸的估計結(jié)果用概率進行解釋雖然邏
15、輯回歸函數(shù)是線性函數(shù),但只是有關(guān)概率比對數(shù)的線性函數(shù),對于事件發(fā)生的概率來說,該函數(shù)是非線性函數(shù)2022/9/2518如何解釋Logistic回歸的估計結(jié)果用概率進行解釋2022如何解釋Logistic回歸的估計結(jié)果在Logistic回歸模型中,自變量對于事件發(fā)生概率的影響勢必會隨自變量的變動而發(fā)生變動,也就是說,自變量對事件發(fā)生概率的邊際影響是變動的。如果自變量是連續(xù)變量,那么在我們對估計結(jié)果進行概率變動分析時堅持以自變量對事件發(fā)生概率的影響進行文字解釋,會面臨巨大的計算量,并且作用不大一個好的策略是借助Stata計算出在每一個自變量取值下因變量事件發(fā)生概率的預測值,并利用它繪制出一個隨自變
16、量變化,因變量事件發(fā)生概率的變動趨勢圖,這會給讀者帶來一些有價值的直觀感受(next slide)2022/9/2519如何解釋Logistic回歸的估計結(jié)果在Logistic回歸如何利用Stata作概率變化圖利用-prgen-命令繪制概率變化圖2022/9/2520如何利用Stata作概率變化圖利用-prgen-命令繪制概率Logistic回歸模型的整體有效性檢驗對模型整體是否有效的 檢驗先計算出一個只包括截距,所有自變量回歸系數(shù)強迫其為零的模型的log likelihood(對數(shù)似然)值,記為:L(Mintercept)再計算出包括所有自變量的完全模型的log likelihood值,記為
17、:L(Mfull)構(gòu)造函數(shù):LR=2L(Mfull)-2L(Mintercept)該函數(shù)符合 分布,自由度K等于full model中的變量個數(shù)卡方檢驗的零假設為:full model中所有的變量系數(shù)都為零,即Mintercept和Mfull無差別Stata實現(xiàn)命令-fitstat-2022/9/2521Logistic回歸模型的整體有效性檢驗對模型整體是否有效的Logistic回歸模型的擬合優(yōu)度(Fit of Goodness)Logsitic回歸模型有多種擬合優(yōu)度的計算指標皮爾遜 檢驗及其修正Hosmer-Lemeshow擬合優(yōu)度信息測量指標(information measures)類擬
18、合優(yōu)度指標(Pseudo-R2)這些指標均基于對數(shù)似然函數(shù)進行計算,其原理與OLS擬合優(yōu)度指標有本質(zhì)不同,因此稱為“類”擬合2022/9/2522Logistic回歸模型的擬合優(yōu)度(Fit of Goodn皮爾遜卡方檢驗及其修正皮爾遜卡方檢驗原理假定Logistic回歸模型中的自變量都為類別變量例如我們想觀察性別(男與女)與就讀大學層次(重點與非重點)對個人是否能尋找到工作可能性的影響,此時模型自變量都為兩分變量,個數(shù)為2,那么我們就可以得到4種人群組合,構(gòu)建Logistic模型如下:通過如上模型回歸,我們可以得到每一類人群找到工作的預測概率,將這一預測概率與每類人群人數(shù)相乘,就可以得到每類人
19、群找到工作的頻數(shù),而皮爾遜卡方檢驗就是將模型的預測頻數(shù)與實際觀測頻數(shù)相對比進行檢驗通過模型構(gòu)造,可以得到一個符合卡方分布的統(tǒng)計量,可以進行檢驗,零假設是預測頻數(shù)與實際觀測到的頻數(shù)無顯著差別,如果皮爾遜卡方檢驗的卡方值越小,那么卡方檢驗勢必不顯著,這也就表明預測頻數(shù)與觀測頻數(shù)有很好的吻合度,模型擬合度較高2022/9/2523皮爾遜卡方檢驗及其修正皮爾遜卡方檢驗原理2022/9/242皮爾遜卡方檢驗及其修正皮爾遜卡方檢驗的缺點如果模型中除類別自變量外,還有其他連續(xù)性自變量,人群分組數(shù)量就會變得非常多,而每一類別組內(nèi)個體數(shù)量會變得很少,此時皮爾遜卡方檢驗就不再適用了。Hosmer和Lemeshow
20、就其進行了修正,HL檢驗的原理與皮爾遜相同,唯一不同在于檢驗統(tǒng)計量構(gòu)造有差別,該方法克服了皮爾遜卡方檢驗嚴重依賴自變量為類別變量的缺點HL檢驗的零假設依然為預測和觀測頻數(shù)無顯著差異,檢驗的卡方值越大,表明預測和觀測頻數(shù)無顯著差異Stata的實現(xiàn)命令-estat gof-2022/9/2524皮爾遜卡方檢驗及其修正皮爾遜卡方檢驗的缺點2022/9/24皮爾遜卡方檢驗及其修正2022/9/2525皮爾遜卡方檢驗及其修正2022/9/2425信息測量指標:AIC和BIC該類指標可以用于檢驗nested和nonnested模型之間的優(yōu)劣AIC(Akaikes Information Criterion
21、)L(Mk)是模型Mk的likelihood值,Pk是模型估計系數(shù)(包括截距和自變量估計系數(shù))的個數(shù)如果有兩個模型,一個是nonnested模型,一個是nested模型,在前者模型中,有部分自變量是后者模型所不包含的,并且除自變量有差別外,其他條件相同,那么我們可以分別計算出這兩個模型的AIC值,AIC值越小,說明該模型的擬合度越高,是better-fitting modelAIC統(tǒng)計量的另一個變形是用樣本容量N乘以AIC,即為N*AICBIC(Bayesian Information Crierion)df是L(Mk)的自由度,N為樣本容量BIC通常為負值,越小表明模型擬合度越高。同樣假定有
22、兩個nested和nonnested模型,將它們的BIC分別算出并相減,如果結(jié)果小于0,說明nested模型的擬合度更好,如果大于0,說明nonnested模型擬合度更好Stata實現(xiàn)命令-fitstat-2022/9/2526信息測量指標:AIC和BIC該類指標可以用于檢驗nested類擬合優(yōu)度McFaddens R2兩種模型構(gòu)建之前的模型整體有效性檢驗R2MCF值域在(0,1)之間。當full model和intercept model之間無任何差別時,兩個模型的log likelihood完全相等,此時R2MCF等于0。R2MCF不可能完全等于1,只能無限接近于1R2MCF的修正該指標由
23、于會隨著自變量個數(shù)的增加而不斷增大,因此需進行調(diào)整 Stata的實現(xiàn)命令-fitstat-2022/9/2527類擬合優(yōu)度McFaddens R22022/9/2427類擬合優(yōu)度Cox & Snells R2R2MCF又稱為Maximum likelihood R2,該指標原理與之前的McFaddens R2類似,其性質(zhì)基本相同Cragg & Uhlers R2由于Cox & Snells R2最大值不是1,而是因此,標準化后為:Stata實現(xiàn)命令-fitstat-2022/9/2528類擬合優(yōu)度Cox & Snells R22022/9/24Count & adjusted count R2
24、原理假定個人行為有兩種結(jié)果(例如,找到工作和沒找到工作)。根據(jù)Logistic回歸結(jié)果,我們可以為每一個觀測單位預測一個概率,假定若該預測概率大于0.5,該觀測單位便會采取行動,而若該預測概率小于等于0.5,則不會采取行動。將這一預測的行為結(jié)果與實際發(fā)生的行為結(jié)果進行對比Count R2就是將那些預測正確的case數(shù)除以樣本總case數(shù)的一個比例值,假定njj表示對某一行為結(jié)果j預測正確的數(shù)量,那么,其公式為:計數(shù)擬合指標常常會被視為是評價一個模型預測準確度的指標,但值得注意的是,如果我們對于模型到底應該包含哪些自變量沒有太多知識判斷的話,那么可能你隨便加入一些自變量進行到Logistic回歸
25、模型中,也可能會獲得很高的預測正確率,特別是在兩分邏輯回歸中,非此即彼,很容易得到較高的預測正確率,因此提出了一種修正后的計數(shù)擬合度指標(adjusted count R2,該指標計算具體計算參見參考書Long & Freese(2006):111)2022/9/2529Count & adjusted count R2原理202擬合優(yōu)度的測算2022/9/2530擬合優(yōu)度的測算2022/9/2430如何在Stata中實現(xiàn)多項類別邏輯回歸什么是多項類別變量的邏輯回歸如果因變量不是兩分類別變量,而是超過2個結(jié)果的多項類別變量,同樣也可以運用Logistic模型進行回歸分析如果因變量是n項類別變量,那么以其中一種結(jié)果作為參照結(jié)果,與
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 燃氣站點消防演練
- 速凍肉制品技術(shù)培訓課件
- 切削刀具知識培訓課件
- 分院介紹教學課件
- 分診護士培訓
- 敗血癥患者康復護理指導
- 廣發(fā)證券分支機構(gòu)“星·起點”培訓生2026屆校招備考題庫及答案詳解(易錯題)
- 食品配料員培訓課件下載
- 分數(shù)知識在生活中應用課件
- 性病科院感防控工作制度及操作規(guī)范
- 湖南省2025-2026學年七年級歷史上學期期末復習試卷(含答案)
- 2026年中國熱帶農(nóng)業(yè)科學院南亞熱帶作物研究所第一批招聘23人備考題庫完美版
- 2026新疆阿合奇縣公益性崗位(鄉(xiāng)村振興專干)招聘44人考試參考試題及答案解析
- 紡織倉庫消防安全培訓
- 器官移植術(shù)后排斥反應的風險分層管理
- 虛擬電廠關(guān)鍵技術(shù)
- 事業(yè)單位清算及財務報告編寫范本
- 護坡綠化勞務合同范本
- 臨床績效的DRG與CMI雙指標調(diào)控
- 護坡施工安全專項方案
- 2026年湛江日報社公開招聘事業(yè)編制工作人員備考題庫及完整答案詳解
評論
0/150
提交評論