二分類Logistic回歸模型_第1頁
二分類Logistic回歸模型_第2頁
二分類Logistic回歸模型_第3頁
二分類Logistic回歸模型_第4頁
二分類Logistic回歸模型_第5頁
免費預覽已結(jié)束,剩余9頁可下載查看

付費下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、二分類Logistic回歸模型在對資料進行統(tǒng)計分析時常遇到反應變量為分類變量的資料,那么,能否用類似于線性回歸的模型來對這種資料進行分析呢?答案是肯定的。本章將向大家介紹對二分類因變量進行回歸建模的 Logistic 回歸模型。第一節(jié)模型簡介一、模型入門在很多場合下都能碰到反應變量為二分類的資料,如考察公司中總裁級的領(lǐng)導層中是否有女性職員、某一天是否下雨、某病患者結(jié)局是否痊愈、調(diào)查對象是否為某商品的潛在消費者等。對于分類資料的分析,相信大家并不陌生,當要考察的影響因素較少,且也為分類變量時,分析者常用列聯(lián)表(contingencyTable)的形式對這種資料進行整理,并使用7.2檢驗來進行分析

2、,漢存在分類的混雜因素時,還可應用 Mantel-Haenszel7.2檢驗進行統(tǒng)計學檢驗,這種方法可以很好地控制混雜因素的影響。但是這種經(jīng)典分析方法也存在局限性,首先,它雖然可以控制若干個因素的作用,但無法描述其作用大小及方向,更不能考察各因素間是否存在交互任用;其次,該方法對樣本含量的要求較大,當控制的分層因素較多時,單元格被劃分的越來越細,列聯(lián)表的格子中頻數(shù)可能很小甚至為 0,將導致檢驗結(jié)果的不可靠。最后,片檢驗無法對連續(xù)性自變量的影響進行分析,而這將大大限制其應用范圍,無疑是其致使的缺陷。那么,能否建立類似于線性回歸的模型,對這種數(shù)據(jù)加以分析?以最簡單的二分類因變量為例來加以探討,為了

3、討論方便,常定義出現(xiàn)陽性結(jié)果時反應變量取值為1,反之則取值為0。例如當領(lǐng)導層有女性職員、下雨、痊愈時反應變量y=1,而沒有女性職員、未下雨、未痊愈時反應變量y=0。記出現(xiàn)陽性結(jié)果的頻率為反應變量P(y=1)。首先,回顧一下標準的線性回歸模型:Y+?1 得Xm如果對分類變量直接擬合,則實質(zhì)上擬合的是發(fā)生概率,參照前面線性回歸方程,很自然地會想到是否可以建立下面形式的回歸模型:P=:,一顯然,該模型可以描述當各自變量變化時,因變量的發(fā)生概率會怎樣變化,可以滿足分析的基本要求。實際上,統(tǒng)計學家們最早也在朝這一方向努力,并考慮到最小二乘法擬合時遇到的各種問題,對計算方法進行了改進,最終提出了加權(quán)最小二

4、乘法來對該模型進行擬合,至今這種分析思路還偶有應用。既然可以使用加權(quán)最小二乘法對模型加以估計, 為什么現(xiàn)在又放棄了這種做法呢?原因在于有以下兩個問題是這種分析思路所無法解決的:(1)取值區(qū)間:上述模型右側(cè)的取值范圍,或者說應用上述模型進行預報的范圍為整個實數(shù)集(,-),而模型的左邊的取值范圍為0MpM1,二者并不相符。模型本身不能種荒唐的結(jié)論:男性、30 歲、病情較輕的患者被治愈的概率是 300%研究者當然可以將此結(jié)果等價于 100%可以治愈,但是從數(shù)理統(tǒng)計的角度講,這種模型顯然是極不嚴謹?shù)摹?2)曲線關(guān)聯(lián):根據(jù)大量的觀察,反應變量 P 與自變量的關(guān)系通常不是直線關(guān)系,而是 S 型曲線關(guān)系。這

5、里以收入水平和購車概率的關(guān)系來加以說明,當收入非常低時,收入的增加對購買概率影響很?。坏窃谑杖脒_到某一閾值時,購買概率會隨著收入的增加而迅速增加;在購買概率達到一定水平,絕大部分在該收入水平的人都會購車時,收入增加的影響又會逐漸減弱。如果用圖形來表示,則如圖 1 所示。顯然,線性關(guān)聯(lián)是線性回歸中至關(guān)重要的一個前提假設(shè),而在上述模型中這一假設(shè)是明顯無法滿足的。圖 1S 型曲線圖以上問題促使統(tǒng)計學家們不得不尋求新的解決思路,如同在曲線回歸中,往往采用變量變換,使得曲線直線化,然后再進行直線回歸方程的擬合。那么,能否考慮對所預測的因變量加以變換,以使得以上矛盾得以解決?基于這一思想,又有一大批統(tǒng)計

6、學家在尋找合適的變換函數(shù)。終于,在 1970 年,Cox 引入了以前用于人口學領(lǐng)域的 Logit 變換(Log 讓Transformation),成功地解決了上述問題。那么,什么是 Logit 變換呢?通常的把出現(xiàn)某種結(jié)果的概率與不出現(xiàn)的概率之比稱為比彳 t(odds,國內(nèi)也譯為優(yōu)勢、比數(shù)),即Odds=一,取其對數(shù)九=ln(Odds)=ln一。171一二這就是 logit 變換。下面來看一下該變換是如何解決上述兩個問題的,首先是因變量取值區(qū)間的變化,概率是以 0.5 為對稱點,分布在 01 的范圍內(nèi)的,而相應的 logit(P)的大小為:二=0logit()ln(0/T0)二二0.5logi

7、T(二)ln(0.5=/0.-:-1logit(=)ln(U/,0)顯然,通過變換,Logit(冗)的取值范圍就被擴展為以 0 為對稱點的整個實數(shù)域,這使得在任何自變量取值下,對冗值的預測均有實際意義。其次,大量實踐證明,Logit(n)往往和自變量呈線性關(guān)系,換言之,概率和自變量間關(guān)系的 S 形曲線往往就符合 logit 函數(shù)關(guān)系,保證在自變量的各種組合下,因變量的估計值仍限制在01 內(nèi),因此可能分析者會得到這從而可以通過該變換將曲線直線化。因此,只需要以 Logit(冗)為因變量,建立包含 p 個自變量的 logistic 回歸模型如下:logit(P)=B。11x1一pXppp以上即為

8、logistic 回歸模型。由上式可推得:p_exp(Pg+B1X+BpXp)1exp(:o二X,一,;pXp)上面三個方程式相互等價。通過大量的分析實踐,發(fā)現(xiàn) logistic 回歸模型可以很好地滿足對分類數(shù)據(jù)的建模需求,因此目前它已經(jīng)成為了分類因變量的標準建模方法。通過上面的討論,可以很容易地理解二分類 logistic 回歸模型對資料的要求是:(1)反應變量為二分類的分類變量或是某事件的發(fā)生率。(2)自變量與 Logit(冗)之間為線性關(guān)系。(3)殘差合計為 0,且服從二項分布。(4)各觀測值間相互獨立。由于因變量為二分類,所以 logistic 回歸模型的誤差應當服從二項分布,而不是正

9、態(tài)分布。因此,該模型實際上不應當使用以前的最小二乘法進行參數(shù)估計,上次均使用最大似然法來解決方程的估計和檢驗問題。二、一些基本概念由于使用了 logit 變換,Logistic 模型中的參數(shù)含義略顯復雜,但有很好的實用價值,為此現(xiàn)對一些基本概念加以解釋。1 .優(yōu)勢比如前所述,人們常把出現(xiàn)某種結(jié)果的概率與不出現(xiàn)的概率之比稱為比值(odds),即Podds=。兩個比值之比稱為優(yōu)勢比(oddsRatio,簡稱 OR)。首先考察 OR 的特性:1 -PPPo右P1P2,貝Uodds1=odds21-P11-P2若P1P2,貝Uodds1=-0.5 判斷為出現(xiàn)陽性結(jié)果??梢娨呀?jīng)出現(xiàn)了被預測為未患病的研究

10、對象,此處 78 例研究對象中共有 56(25+31)例判斷正確,總正確率為 56/78=71.8%,如表 8 所示。表 9 輸出了模型中各自變量的偏回歸系數(shù)及其標準誤、Wald72、自由度、P 值,及 OR值(即表格最右側(cè)的 Exp(B)。由此可以得出結(jié)論,男性(sex=1)較女性更容易患冠心病、心電圖異常程度越高,越容易被診斷為冠心病,年齡越大的越容易患冠心病。由于年齡不可能為 0,這也超出了樣本所觀察的自變量 age值范圍,因此這里的常數(shù)項無實際意義。表 9VariablesintheEquationBS.E.WalddfSig.Exp(B)Step1asex1.356.5466.162

11、1.0133.882ecg.873.3845.1621.0232.395age.093.0357.0001.0081.097Constant-5.6421.8069.7571.002.004a.Variable(s)enteredonstep1:sex,ecg,age.到此為止,可建立如下 Logistic 回歸方程:exp(-5.642-1.356sex-0.873ecg-0.093age)P(y=):一1exp(-5.642-1.356sex-0.873ecg-0.093age)或Logit(P)-5.642-1.356sex-0.873ecg-0.093age第二節(jié)分類自變量的定義與比較

12、方法一、使用啞變量的必要性在回歸模型中,回歸系數(shù) b 表示其他自變量不變,x 每改變一個單位時,所預測的 y 的平均變化量,當 x 為連續(xù)性變量時這樣解釋沒有問題,二分類變量由于只存在兩個類別間的比較,也可以對系數(shù)得到很好的解釋,但是當 x 為多分類變量時擬合一個回歸系數(shù)就不太合適了,此時需要使用啞變量(DummyVariable)方式對模型加以定義,為說明該問題,先引入下面的一個實例。例 2Hosmer 和 Lemeshow 于 1989 年研究了低出生體重嬰兒的影響因素。結(jié)果變量為是否娩出低出生體重兒(變量名為 LOW,1 為低出生體重,即嬰兒出生體重0.05),說明該分類變量對風險率產(chǎn)生

13、的影響在該水平處達到停滯狀態(tài)。此選擇項一般用于有序的分類變量。對無序多分類變量則無實際意義。4 .Helmert:赫爾默特對比。分類變量某水平與其后面各水平平均值進行比較。如果在某水平系數(shù)增大且有統(tǒng)計學意義,說明該分類變量自該水平起開始對風險率產(chǎn)生影響。同樣也適用于有序的分類變量。5 .Repeated:重復對比。分類變量的各水平與其前面相鄰的水平相比較(第一水平除外),此時以“前一水平”為參照水平。6.Polynomial:多項式對比。僅用于數(shù)字型的分類變量。無效假設(shè)是假設(shè)各水平是等距離的(可以是線性的關(guān)系,也可以是立方、四次方的關(guān)系)。例如年齡每增加 5 歲,娩出低出生體重兒的危險增加幅度

14、是一樣的, 但實際情況常常與之相反, 例如在 20 歲與 30 歲年齡段, 年齡都增加 5 歲,所增加的娩出低出生體重兒的危險肯定是不一樣的,具體情況需要根據(jù)各人的研究課題而定。7.Deviation:離差對比。除了所規(guī)定的參照水平外,其余每個水平均與總體水平相比。此時每個水平的回歸系數(shù)都是相對于總體水平而言的改變量。對于那個參照水平而言,它的回歸系數(shù)可以通過其他 n-1 個回歸系數(shù)算出來,等于 0 減去其他幾個水平回歸系數(shù)的代數(shù)和。即些時 n 個水平的回歸系數(shù)的代數(shù)和為“0”。三、設(shè)置啞變量時要注意的問題1 .參照水平最好要有實際意義,否則將會推動比較的目標。如果將一些難以分類的個體放到一起

15、,然后美其名日“其他”,此時往往不知道已知的某個類別具體在與誰進行比較,進而導致啞變量的回歸系數(shù)難以解釋。因為不同研究樣本中的“其他”往往是不同的,這樣研究結(jié)果之間難以相互進行比較。2 .參照水平組應有一定的頻數(shù)作保證。如果參照水平頻數(shù)過少,將導致其他與之相對比的水平參數(shù)估計的標準誤增大,進而置信區(qū)間擴大,精確度降低。有學者認為,參照水平組的頻數(shù)應不少于 30 例或 50 例。3.如果不通過 Categorical 模型對分類自變量產(chǎn)生啞變量,而是自己通過 Compute 過程產(chǎn)生,需要注意在逐步回歸篩選自變量時,啞變量應該同時進入模型或者同時退出模型。4 .對有序自變量的分析。一是從專業(yè)出發(fā)

16、,如果認為在不同等級對反應變量的影響程度是一致的,如文化程度每增加一個等級,成為某項時尚消費品潛在消費者的比數(shù)(P/(1-P)的自然對數(shù)增加幅度也相同,這時可以將該變量作為連續(xù)性變量進行處理,這樣得到的模型也更簡潔,結(jié)果的解釋也更方便。當專業(yè)上不能給出以上假設(shè)時,則需要先將該有序變量分別以啞變量和連續(xù)性變量的方式引入模型,觀察各啞變量的回歸系數(shù)間是否存在等級關(guān)系,以及對兩個模型進行似然比檢驗,似然比 Z2值等于兩個模型的-2log(L)之差,自由度為兩個模型中自變量個數(shù)之差,如果似然比檢驗無統(tǒng)計學意義,且各啞變量的回歸系數(shù)間存在等級關(guān)系,可以將該自變量作為連續(xù)性變量引入模型,否則最好還是采用啞

17、變量的方式引入模型。第三節(jié)標準化回歸系數(shù)和回歸模型的擬合優(yōu)度-、標準化回歸系數(shù)與多重線性回歸類似,自變量量綱(單位)不同,非標準化的 logistic 回歸系數(shù)不能用于比較各自變量對事件發(fā)生概率的貢獻大小。欲研究 logistic 回歸中各變量的相對貢獻,要么事先將各自變量標準化后再作回歸分析,要么對 logistic 回歸系數(shù)進行標準化。我們可以用極大似然估計的回歸系數(shù)乘以該變量的樣本標準差求得 logistic 回歸的標準化回歸系數(shù)。b=biMSb,(16)SPSS 軟件可以提供回歸系數(shù)及其變量的樣本標準差,但不能直接得到標準化回歸系數(shù)。在標準化系數(shù)問題上要謹慎,應注意標準化的原意是消去不

18、同量綱的影響,增加可比性。對于一些二分類的自變量,不存在量綱問題,則不宜作標準化。另外,一般不利用標準化回歸系數(shù)估計優(yōu)勢比,因為按標準化回歸系數(shù)所計算的優(yōu)勢比不是變化一個單位,而是變化一個標準差的優(yōu)勢比了。二、回歸模型的擬合優(yōu)度對回歸系數(shù)進行假設(shè)檢驗,只能說明 logistic 回歸方程中的回歸系數(shù)是否有統(tǒng)計學意義,因變量與自變量是否有統(tǒng)計學聯(lián)系,不表明自變量對因變量變異的解釋程度。要說明這一點,如線性回歸一樣,應對回歸方程進行擬合優(yōu)度評價。Logistic 回歸方程擬合優(yōu)度評價的思路有兩種:第一種是希望找到一個評價指標,類似線性回歸中的確定系數(shù) R2,但是 logistic 回歸還沒有對應的

19、理想指標;第二種是通過回歸方程預測值與實際觀測值的吻合程度,說明回歸方程的擬合優(yōu)度??己祟A測吻合程度的樣本來源有兩種,一種是用于建立回歸方程的訓練樣本,錯判率指標往往偏低;第二種是新樣本,考核結(jié)果相對更客觀。SPSS 軟件中有下列幾種方法評價擬合優(yōu)度。1.似然比檢驗似然比檢驗是常用的評價方法,如同回歸系數(shù)的似然比檢驗原理一樣,對于某特定回歸方程,其_2ln(L)越大,標志該回歸方程的合程度越差。SPSS 軟件對 logistic 回歸整體擬合優(yōu)度檢驗時,以僅含截距項的回歸方程為參照,將所得回歸方程與截距方程比較,判斷擬合效果是否改善。如果要判斷回歸方程的擬合優(yōu)度是否達到較好狀態(tài),常以所建立的回歸方程為基礎(chǔ),再向方程中引入變量,如新的自變量、已知自變量的二次項或已知自變量的交互項,并用似然比檢驗判斷擬合效果是否改善,如果沒有進一步改善,則以此方程為最終結(jié)果。2.Hosmer-Lemeshow 檢驗該方法按預測概率大小,將所觀測

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論