多元Logistic-回歸分析.ppt_第1頁
多元Logistic-回歸分析.ppt_第2頁
多元Logistic-回歸分析.ppt_第3頁
多元Logistic-回歸分析.ppt_第4頁
多元Logistic-回歸分析.ppt_第5頁
已閱讀5頁,還剩63頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、1,多元統(tǒng)計分析方法,The Methods of Multivariate Statistical Analysis,2,多元Logistic 回歸分析,Multiple Logistic Regression Analysis,第七章,3,主要內(nèi)容,Logistic 回歸分析的基本概念 Logistic 回歸分析的數(shù)學(xué)模型 Logistic 回歸模型的建立和檢驗 Logistic 回歸系數(shù)的解釋 配對病例-對照數(shù)據(jù)的logistic回歸分析,4,回歸分析的分類,連續(xù)型因變量 (y) - 線性回歸分析,多個因變量 (y1,y2yk),分類型因變量 (y) -Logistic 回歸分析,時間序

2、列因變量 (t) -時間序列分析,生存時間因變量 (t) -生存風(fēng)險回歸分析,路徑分析 結(jié)構(gòu)方程模型分析,一個因變量 y,回憶:,5,醫(yī)學(xué)研究中經(jīng)常遇到分類型變量,二分類變量: 生存與死亡 有病與無病 有效與無效 感染與未感染 多分類有序變量: 疾病程度(輕度、中度、重度) 治愈效果(治愈、顯效、好轉(zhuǎn)、無效) 多分類無序變量: 手術(shù)方法(A、B、C) 就診醫(yī)院(甲、乙、丙、?。?6,醫(yī)學(xué)研究者經(jīng)常關(guān)心的問題,哪些因素導(dǎo)致了人群中有的人患胃癌而有的人不患胃癌? 哪些因素導(dǎo)致了手術(shù)后有的人感染,而有的人不感染? 哪些因素導(dǎo)致了某種治療方法出現(xiàn)治愈、顯效、好轉(zhuǎn)、無效等不同的效果?,是回歸分析問題:

3、Y=f(x),7,如何解決這樣的問題?,不存在,8,1、什么是Logistic 回歸分析?,研究因變量y取某個值的概率變量p與自變量x的依存關(guān)系。,p=p(y=1|x)=f(x),第一節(jié) Logistic 回歸分析的概念,9,2、Logistic回歸分析的分類,按數(shù)據(jù)的類型: 非條件logistic回歸分析(成組數(shù)據(jù)) 條件logistic回歸分析(配對病例-對照數(shù)據(jù)) 按因變量取值個數(shù): 二值logistic回歸分析 多值logistic回歸分析 按自變量個數(shù): 一元logistic回歸分析 多元logistic回歸分析,Logistic回歸分析,10,第二節(jié) Logistic 回歸分析的數(shù)

4、學(xué)模型,令y是1,0變量,x是任意變量,p=p(y=1|x) ,那么,二值變量y關(guān)于變量x的一元logistic 回歸模型是:,其中,和是未知參數(shù)或待估計的回歸系數(shù)。該模型描述了y取某個值(這里y=1)的概率p與自變量x之間的關(guān)系。,(1) 二值一元logistic回歸模型:,11,令y是1,0變量,x1,x2,xk是任意k個變量; p=p(y=1|x1,x2,xk),那么,變量y關(guān)于變量x1,x2,xk 的k元logistic回歸模型是:,(2) 二值多元logistic回歸模型:,注意:對于二值Logistic回歸模型,Y=0的模型是:,p = p(y=0|x1,xk ) = 1 - p(

5、y=1|x1,xk),12,Logistic 回歸模型的另外一種形式,它給出變量z=logit(p)關(guān)于x 的線性函數(shù)。,13,(3) 多值logistic回歸模型:,例如,當y取值1,2,3時,logistic回歸模型是:,P1 = p(y=1) = P1 P2 = p(y=2) =P2-P1 P3 = p(y=3) =1-P2,累積概率模型,獨立概率模型,14,1、估計參數(shù) - 最大似然法 2、檢驗參數(shù)的顯著性 H0: j=0 vs H1: j0 3、檢驗?zāi)P偷娘@著性 H0: 1=k=0 vs H1: j0 4、解釋參數(shù)的實際意義,第三節(jié) Logistic回歸分析方法步驟,15,例1、自變

6、量是二值分類型變量某醫(yī)院為了研究導(dǎo)致手術(shù)切口感染的原因,收集了295例手術(shù)者情況,其中,手術(shù)時間小于或等于5小時的有242例,感染者13例;手術(shù)時間大于5小時的有53例,感染者7例。試建立手術(shù)切口感染(y)關(guān)于手術(shù)時間(x)的logistic回歸模型。,46,53,16,data eg7_1a; input y x wt ; cards; 1 1 7 1 0 13 0 1 46 0 0 229 ; run; proc logistic descending ; model y=x ; weight wt; run;,SAS程序,17,The LOGISTIC Procedure Data Se

7、t: WORK.EG7_1A Response Variable: Y Response Levels: 2 Number of Observations: 4 Weight Variable: WT Sum of Weights: 295 Link Function: Logit Response Profile Ordered Total Value Y Count Weight 1 1 2 20.00000 2 0 2 275.00000,18,Model Fitting Information and Testing Global Null Hypothesis BETA=0 Inte

8、rcept Intercept and Criterion Only Covariates Chi-Square for Covariates AIC 148.262 146.686 . SC 147.648 145.458 . -2 LOG L 146.262 142.686 3.576 with 1 DF (p=0.0586) Score . . 4.224 with 1 DF (p=0.0399) Analysis of Maximum Likelihood Estimates Parameter Standard Wald Pr Standardized Odds Variable D

9、F Estimate Error Chi-Square Chi-Square Estimate Ratio INTERCPT 1 -2.8688 0.2851 101.2408 0.0001 . . X 1 0.9860 0.4959 3.9542 0.0468 2.069569 2.681,19,結(jié)果:,20,第四節(jié) Logistic回歸模型系數(shù)的解釋,回憶流行病學(xué)研究中兩個重要概念:,在logistic回歸模型,令x=0和x=1,得到,21,一元logistic回歸模型系數(shù)的意義解釋: (1) x =1,0 變量,如果x=1,0,則 e b=OR 近似表示在x=1條件下的發(fā)病率與在x=0

10、條件下發(fā)病率之比 (相對危險度),或者說, x=1條件下的發(fā)病可能性比x=1條件下多或少(OR-1)*100%。,22,Logistic 回歸模型:,從b=0.986, 得到 RR OR= eb=2.681。 所以,手術(shù)時間大于5小時的感染率是手術(shù)時間小于或等于5小時的感染率的2.681倍,即感染的可能性增加了186.1% 。,例如,手術(shù)感染問題,23,一元logistic回歸模型系數(shù)的意義解釋: (2) 如果x是連續(xù)變量 對于任意x1 和x2,x1 x2,如果x 是連續(xù)變量,則OR=eb 近似表示在x 的相鄰兩個單位上的相對危險度。即x 每增加一個單位,相對危險增加 或減少(OR-1)*10

11、0%。,24,例2、自變量是連續(xù)型數(shù)值變量為了分析新生兒出生時體重(birthwt)與支氣管肺的發(fā)育不良病(BPD)的關(guān)系,調(diào)查了223名新生兒。調(diào)查的數(shù)據(jù)列在下表中。,25,data eg7_2; do birthwt=750, 1150, 1550; do bpd=1, 0; input wt ;output; end; end; cards; 49 19 18 62 9 66 run; proc logistic data=eg2 descending; model bpd=birthwt ; weight wt ; run;,SAS程序,26,Response Profile Orde

12、red Value BPD Count 1 1 76 2 0 147 Model Fitting Information and Testing Global Null Hypothesis BETA=0 Intercept Intercept and Criterion Only Covariates Chi-Square for Covariates AIC 288.140 229.166 . SC 291.547 235.980 . -2 LOG L 286.140 225.166 60.974 with 1 DF (p=0.0001) Score . . 56.008 with 1 D

13、F (p=0.0001) Analysis of Maximum Likelihood Estimates Parameter Standard Wald Pr Standardized Odds Variable DF Estimate Error Chi-Square Chi-Square Estimate Ratio INTERCPT 1 3.7180 0.6387 33.8853 0.0001 . . BIRTHWT 1 -0.00397 0.000588 45.6092 0.0001 -0.702480 0.996,SAS輸出結(jié)果,27,1、因變量bpd對自變量birthwt 的lo

14、gistic回歸模型是: 2、自變量birthwt 的回歸系數(shù)在統(tǒng)計意義上不等于0 (p=0.0001),因此,OR=0.996在統(tǒng)計意義上不等于1。 OR=0.996 說明新生兒出生體重每增加一個單位(g),患 BPD病的機會就會減少大約0.4% 。即患bpd病的概率 隨新生兒出生體重的增加而下降。 3、根據(jù)上述回歸模型可以預(yù)測新生兒出生時可能患BPD病 的 概率。,28,一元logistic回歸模型系數(shù)的意義解釋: (3) 如果x 是分類變量 如果x 是分類型變量,特別是名義型變量,則需要將x 轉(zhuǎn)化為啞變量,再進行Logistic回歸分析。,如果x是g個分類的分類型變量,則要將x 的g-1

15、個啞變量放入模型,每一個啞變量的OR 值表示該組與參照組的相對危險度。,29,什么是啞變量?,一個含有g(shù)個類的分類型變量可以構(gòu)造g個啞變量。,30,如何用SAS程序構(gòu)造啞變量?,data d2; set d1; array a3 student teacher worker; do i=1 to 3; ai=( x 1= i ) ; end; run;,data d2; set d1; array a3 student teacher worker; do i=1 to 3; if x1=i then ai= 1; else ai=0 ; end; run;,31,如何對啞變量進行分析? (1

16、)將g -1個啞變量放入模型進行分析,留一個啞變 量作為參照變量; (2)每一個啞變量的OR值表示該啞變量組與參照變量組的相對危險度。,32,例3、自變量是分類型變量為了了解冠心病與種族的關(guān)系,某研究所調(diào)查了100個樣本,數(shù)據(jù)列在下表中。試估計各種族間患冠心病的相對危險度。,設(shè)y=1表示患冠心病,y=0表示未患冠心病。令x=1表示黑人,x=2表示白人,x=3表示其它種族。將變量x轉(zhuǎn)化為啞變量,變量名是:black、white和other。,33,data eg7_3; do y=1 , 0; do x=1 to 3; input wt ; output; end; end; cards; 20

17、 5 25 10 20 20 run; data eg7_3; set eg7_3; array a3 black white other; do i=1 to 3; ai=( x = i ) ; end; run; proc logistic descending ; model y= black other ; weight wt ; run;,White作為參照組,34,The LOGISTIC Procedure Response Profile Ordered Total Value Y Count Weight 1 1 3 50.000000 2 0 3 50.000000 Mod

18、el Fitting Information and Testing Global Null Hypothesis BETA=0 Without With Criterion Covariates Covariates Chi-Square for Covariates AIC 138.629 131.038 . SC 138.629 130.413 . -2 LOG L 138.629 125.038 13.592 with 3 DF (p=0.0035) Score . . 12.889 with 3 DF (p=0.0049) Analysis of Maximum Likelihood

19、 Estimates Parameter Standard Wald Pr Standardized Odds Variable DF Estimate Error Chi-Square Chi-Square Estimate Ratio INTERCPT 1 -1.3863 0.5000 7.6874 0.0056 . . BLACK 1 2.0794 0.6325 10.8103 0.0010 2.349536 8.000 OTHER 1 1.6094 0.5831 7.6186 0.0058 1.974184 5.000,35,模型總體檢驗結(jié)果說明該模型具有統(tǒng)計意義(p=0.0035)。

20、 參數(shù)檢驗說明,黑人與白人患冠心病的相對危險度是:OR=8(p=0.0010),說明黑人患冠心病的幾率大約是白人的8倍。 參數(shù)檢驗說明,其他種族人與白人患冠心病的相對危險度是:OR=5(p=0.0058),說明其他種族人患冠心病的幾率大約是白人的5倍。,結(jié)論,36,一元logistic回歸模型系數(shù)的意義解釋:,如果x是分類型變量(g個分類),則要將x 的g-1個啞變量放入模型,每一個啞變量的OR 值表示該組與參照組的相對危險度。,如果x=1,0,則 e b=OR 近似表示在x=1條件下的發(fā)病率與在x=0 條件下發(fā)病率之比 (相對危險度),或者說, x=1條件下的發(fā)病可能性比x=1條件下多或少(

21、OR-1)*100%。,如果x 是連續(xù)型變量,則OR=eb 近似表示在x 的相鄰兩個單位上的相對危險度。即x 每增加一個單位,相對危險增加 或減少(OR-1)*100%。,37,b) 多元logistic回歸模型系數(shù)的解釋,假設(shè) y 在二值變量 x 1和 x 2上的二元 logistic回歸模型是:,可以證明:,e1 表示消去了x 2 的影響后或在x 2 不變的情況下,x 1 相鄰兩個單位患病率之比(相對危險度); e2 表示消去了x 1 的影響后或在x 1 不變的情況下,x 2 相鄰兩個單位患病率之比(相對危險度)。,38,例4、無交互影響的多元logistic回歸模型某市調(diào)查飲酒對食道癌的

22、影響,共收集了200例食道癌患者作為病例組(y=1),774例非食道癌患者作為對照組(y=0)。詢問了他們的年齡和飲酒情況。數(shù)據(jù)列在下表中。試分析飲酒對食道癌的影響,將年齡作為混雜因素。,39,data eg4; do y=1,0;do age=1 to 3; do drink=1,0; input wt ;output; end; end; end; cards; 5 5 67 55 24 44 35 270 56 276 18 119 run ; proc logistic descending ; model y=drink age ; weight wt ; run ;,40,SAS輸

23、出結(jié)果,The LOGISTIC Procedure Response Profile Ordered Total Value Y Count Weight 1 1 6 200.00000 2 0 6 774.00000 Model Fitting Information and Testing Global Null Hypothesis BETA=0 -2 LOG L 989.029 816.466 172.563 with 2 DF (p=0.0001) Analysis of Maximum Likelihood Estimates Parameter Standard Wald Pr

24、 Standardized Odds Variable DF Estimate Error Chi-Square Chi-Square Estimate Ratio INTERCPT 1 -4.1249 0.3226 163.4795 0.0001 . . DRINK 1 1.7788 0.1865 91.0078 0.0001 3.761888 5.923 AGE 1 1.0971 0.1338 67.2705 0.0001 4.108738 2.995,41,結(jié)論,模型的總體檢驗說明模型具有統(tǒng)計意義(p=0.0001)。 參數(shù)檢驗結(jié)果顯示所有回歸系數(shù)都具有顯著性意義(p=0.0001)。

25、OR(drink)=5.923說明除去年齡這個混雜因子的影響后,飲酒者比不飲酒者大約多492.3%的可能性患食道癌(p=0.0001),或者說飲酒者患食道癌的可能性大約是不飲酒者的5.923倍(p=0.0001),42,例5、有交互影響的多元logistic回歸模型在回顧性研究中,隨機抽查了某地區(qū)818個人的吸煙飲酒等生活方式以及各種慢性疾病的患病情況。表7-5中列出的是一部分調(diào)查結(jié)果。試分析吸煙、飲酒危險因素對患胃病的影響程度以及它們的交互影響程度。 表7-5 生活方式與胃病的調(diào)查數(shù)據(jù),43,y =1和0,分別表示患胃病和未患胃?。?x 1=1和 0,分別表示吸煙和不吸煙; x 2=1和 0

26、,分別表示飲酒和不飲酒。 建立四個啞變量分別代表四種不同的生活方式,即 x 11=1表示既吸煙又飲酒,0 表示其他; x 10=1表示吸煙但不飲酒, 0 表示其他; x 01=1表示不吸煙但飲酒, 0 表示其他; x 00=1表示既不吸煙又不飲酒, 0 表示其他 。 將前三個啞變量放進模型,則可以得前三種生活方式相對于最后一種生活方式患胃病的相對危險度。,44,data eg7_5; do y=1,0; do x1=1,0; do x2=1,0; input wt ; output ; end ; end ; end ; cards ; 39 25 35 16 101 126 253 223 run; data eg7_5 ; set eg7_5 ; if x1=1 input x1 x2 x3 ;output; end; end; y=1-y; cards; 1 1 3 0 1 0 1 0 0 1 2 0 3 1 1 3 0 1 2 1 9 3 3 2 2 2 0 1 2 0 10 2 2 2 0 0 0 0 0 1 run; proc phreg; mod

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論