第04講 logistic回歸課件_第1頁
第04講 logistic回歸課件_第2頁
第04講 logistic回歸課件_第3頁
第04講 logistic回歸課件_第4頁
第04講 logistic回歸課件_第5頁
已閱讀5頁,還剩54頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

第4講logistic回歸第04講logistic回歸logistic的主要內(nèi)容logistic回歸條件logistic回歸多類結(jié)果的logistic回歸有序結(jié)果的累計比數(shù)logistic回歸logistic回歸的正確應用第04講logistic回歸logistic回歸模型簡介傳統(tǒng)方法與logistic回歸的關系回歸系數(shù)的解釋模型的估計與假設檢驗建模策略第04講logistic回歸多元線性回歸的適用條件計量資料(均數(shù))=計量、等級、分類二分類資料(率)=計量、等級、分類?第04講logistic回歸1模型簡介P發(fā)病的概率,0≤P≤1。Cox(1970)logit變換第04講logistic回歸logistic函數(shù)z-5-4-3-2-10123450.2.4.6.81P第04講logistic回歸logistic回歸模型P發(fā)病的概率。為“機會”或“優(yōu)勢”(odds)logitP為優(yōu)勢之對數(shù)(logodds)第04講logistic回歸logistic回歸模型的幾種形式第04講logistic回歸2傳統(tǒng)方法與logistic回歸四格表資料(病例對照)與logistic的關系分層四格表資料與logistic的關系第04講logistic回歸例四格表資料探討婦女使用雌激素與患子宮內(nèi)膜癌的病例-對照研究雌激素使用過未使用過病例55(a)128(b)對照19(c)164(d)第04講logistic回歸四格表資料的logistic回歸X=1表示使用過雌激素X=0表示未使用過雌激素第04講logistic回歸四格表資料與logistic回歸X=1時X=0時第04講logistic回歸例分層四格表資料與logistic回歸年齡組X=1,使用過X=0,未使用過Y=1Y=0Y=1Y=01:25~1946222242:30~34933123903:35~39426333304:40~4469653625:45~496593301按年齡分層的心肌梗死與近期口服避孕藥的關系第04講logistic回歸Mantel-Haenszel法結(jié)果.mhoddsyx[fw=f],by(age)Comparingx==1vs.x==0byage---------------------------------------------------------------age|OddsRatiochi2(1)P>chi2[95%Conf.Interval]------+--------------------------------------------------------1|7.2258066.780.00921.26334041.328772|8.86363628.640.00003.36912823.318813|1.5384620.580.44500.5049524.6873034|3.7128216.580.01031.26658710.883615|3.8838715.530.01871.14749013.14561---------------------------------------------------------------Mantel-Haenszelestimatecontrollingforage----------------------------------------------------------------OddsRatiochi2(1)P>chi2[95%Conf.Interval]----------------------------------------------------------------3.96989534.720.00002.4180416.517702----------------------------------------------------------------TestofhomogeneityofORs(approx):chi2(4)=6.27Pr>chi2=0.1797第04講logistic回歸logistic回歸結(jié)果.xi:logityxi.age[fw=f]i.age_Iage_1-5(naturallycoded;_Iage_1omitted)LogitestimatesNumberofobs=1976LRchi2(5)=151.47Prob>chi2=0.0000Loglikelihood=-643.06749PseudoR2=0.1054----------------------------------------------------------------y|Coef.Std.Err.zP>|z|

95%CI--------+-------------------------------------------------------x|1.385176.25053235.530.000.89414171.87621_Iage_2|1.138362.47697192.390.017.20351462.07321_Iage_3|1.934401.45838814.220.0001.0359772.832825_Iage_4|2.648059.44977355.890.0001.7665193.529599_Iage_5|3.194293.44753267.140.0002.3171454.07144_cons|-4.36985.4347941-10.050.000-5.222031-3.517669----------------------------------------------------------------第04講logistic回歸logistic回歸結(jié)果.xi:logisticyxi.age[fw=f]i.age_Iage_1-5(naturallycoded;_Iage_1omitted)LogitestimatesNumberofobs=1976LRchi2(5)=151.47Prob>chi2=0.0000Loglikelihood=-643.06749PseudoR2=0.1054-----------------------------------------------------------------y|OddsRatioStd.Err.zP>|z|[95%CI]---------+-------------------------------------------------------

x|3.9955281.0010095.530.0002.4452366.528714_Iage_2|3.1216521.488942.390.0171.2257037.950304_Iage_3|6.9198973.1719984.220.0002.81785716.9934_Iage_4|14.126596.3537655.890.0005.85045234.11027_Iage_5|24.3929110.916627.140.00010.1466658.64136-----------------------------------------------------------------第04講logistic回歸傳統(tǒng)方法與logistic回歸的關系單因素病例對照研究的OR,與logistic回歸等價;分層病例對照研究的ORMH,與logistic回歸結(jié)果近似。logistic回歸是傳統(tǒng)方法的擴展。第04講logistic回歸混雜因素的控制控制某混雜因素,實際上就是將該因素納入模型。在解釋暴露因素的影響時,該混雜因素實際上是控制了。第04講logistic回歸3回歸系數(shù)的解釋logistic回歸中的系數(shù)

,與OR有關!一個暴露因素時,當暴露為1,非暴露為0時,

=ln(OR)第04講logistic回歸回歸系數(shù)的解釋一個暴露因素時,當暴露為c1,非暴露為c0時,第04講logistic回歸回歸系數(shù)的解釋一個暴露因素:暴露為1,非暴露為0。一個混雜因素時:水平數(shù)分別為:1,2,…當x2固定時(取某個值的前提下):第04講logistic回歸例食道癌危險因素研究在食道癌危險因素研究中,采用病例-對照設計,調(diào)查了200個食道癌患者和788個非食道癌患者,調(diào)查因素及編碼如下。

可疑因素變量名

取值年齡(歲)AGE

0=25-34,1=35-44,2=45-54,

3=55-64,4=65-74,5=75+每日飲酒量(g)ALCOHOL

0=0-39,1=40-79,2=80-119,3=120+每日吸煙量(g)TOBACO

0=0-9,1=10-19,2=20-29,3=30+第04講logistic回歸logistic回歸系數(shù)的解釋變量估計系數(shù)OR95%CIAGE0.74382.10391.7923~2.4698ALC1.10263.01202.4604~3.6872TOB0.43091.53861.2800~1.8496常數(shù)項-4.8868控制了吸煙和飲酒,年齡每增加1個等級,患食道癌的可能性增加1.1倍??刂屏四挲g和吸煙,飲酒每增加1個等級,患食道癌的可能性增加2.0倍??刂屏四挲g和飲酒,吸煙每增加1個等級,患食道癌的可能性增加0.54倍。第04講logistic回歸回歸系數(shù)的解釋等級變量:一般以最小等級或最大等級作為參考組,并按等級順序依次取為0,1,2,…。此時,exp(

)表示X增加一個等級時的優(yōu)勢比,exp(k

)表示增加k個等級時的優(yōu)勢比。連續(xù)性變量:表示增加1(個計量單位)時的優(yōu)勢比。第04講logistic回歸回歸系數(shù)的解釋多分類變量:啞變量(dummyvariable)x=1時:D1=0,D2=0,D3=0表示A型血x=2時:D1=1,D2=0,D3=0表示B型血x=3時:D1=0,D2=1,D3=0表示AB型血x=4時:D1=0,D2=0,D3=1表示O型血exp(

1)表示B與A比之OR;exp(

2)表示AB與A比之OR;exp(

3)表示O與A比之OR。第04講logistic回歸回歸系數(shù)的解釋在橫斷面調(diào)查研究中,表示基線狀態(tài)下,個體的患病率;在隊列研究中,表示基線狀態(tài)下,個體的發(fā)病率;在成組病例-對照研究中,表示基線狀態(tài)下,病例在研究對象中所占比例;在1:1配比病例-對照研究中,

=0,=0.5,表示基線狀態(tài)下,病例在研究對象中占一半;第04講logistic回歸4模型的估計及假設檢驗線性模型時,用最小二乘估計(LSE)logistic回歸模型,用極大似然估計。

(maximumlikelihoodestimate,MLE)第04講logistic回歸Wald檢驗Wald檢驗實際上是比較估計系數(shù)與0的差別來進行的,其檢驗統(tǒng)計量為:Wald的

2檢驗是z的平方。第04講logistic回歸似然比檢驗(likelihoodratiotest)似然比檢驗是通過比較兩個相嵌套模型的對數(shù)似然函數(shù)統(tǒng)計量G(又稱Deviance)來進行的,其統(tǒng)計量為:

G=GP-GK

=-2ln(LP)+2ln(LK)

其中,模型P中的變量是模型K中變量的一部分,另一部分就是我們要檢驗的變量(模型P嵌套在模型K中)。G服從自由度為K-P的

2分布。第04講logistic回歸例分層四格表資料與logistic回歸年齡組X=1,使用過X=0,未使用過Y=1Y=0Y=1Y=01:25~1946222242:30~34933123903:35~39426333304:40~4469653625:45~496593301按年齡分層的心肌梗死與近期口服避孕藥的關系第04講logistic回歸可能的模型Model1:logitP=常數(shù)項Model2:logitP=常數(shù)項+口服藥Model3:logitP=常數(shù)項+口服藥+年齡Model4:logitP=常數(shù)項+年齡第04講logistic回歸年齡為啞變量的模型.logityxage2-age5[fw=f]LogitestimatesNumberofobs=1976LRchi2(5)=151.47Prob>chi2=0.0000Loglikelihood=-643.06749PseudoR2=0.1054-----------------------------------------------------------------y|Coef.Std.Err.zP>|z|[95%CI]------+----------------------------------------------------------x|-1.385176.2505323-5.530.000-1.87621-.8941417age2|-1.138362.4769719-2.390.017-2.07321-.2035146age3|-1.934401.4583881-4.220.000-2.832825-1.035977age4|-2.648059.4497735-5.890.000-3.529599-1.766519age5|-3.194293.4475326-7.140.000-4.07144-2.317145_cons|4.36985.434794110.050.0003.5176695.222031----------------------------------------------------------------.lrtest,saving(0)第04講logistic回歸不包含年齡的模型.logityx[fw=f]Iteration0:loglikelihood=-718.80399Iteration1:loglikelihood=-716.28407Iteration2:loglikelihood=-716.18551Iteration3:loglikelihood=-716.18543LogitestimatesNumberofobs=1976LRchi2(1)=5.24Prob>chi2=0.0221Loglikelihood=-716.18543PseudoR2=0.0036------------------------------------------------------------------------------y|Coef.Std.Err.zP>|z|[95%Conf.Interval]-------------+----------------------------------------------------------------x|-.5211354.2176934-2.390.017-.9478068-.0944641_cons|2.059114.074164227.760.0001.9137552.204474------------------------------------------------------------------------------.lrtestLogit:likelihood-ratiotestchi2(4)=146.24Prob>chi2=0.00002×716.185433-2×643.06749=146.24第04講logistic回歸檢驗模型能否以線性形式進入模型.logityxage[fw=f]Iteration0:loglikelihood=-718.80399Iteration1:loglikelihood=-651.41522Iteration2:loglikelihood=-644.33827Iteration3:loglikelihood=-644.2107Iteration4:loglikelihood=-644.2106LogitestimatesNumberofobs=1976LRchi2(2)=149.19Prob>chi2=0.0000Loglikelihood=-644.2106PseudoR2=0.1038------------------------------------------------------------------------------y|Coef.Std.Err.zP>|z|[95%Conf.Interval]-------------+----------------------------------------------------------------x|-1.336405.246982-5.410.000-1.820481-.8523292age|-.7087472.0657999-10.770.000-.8377125-.5797818_cons|4.645473.276615816.790.0004.1033165.18763------------------------------------------------------------------------------.lrtestLogit:likelihood-ratiotestchi2(3)=2.29Prob>chi2=0.51522×644.2106-2×643.06749=2.29第04講logistic回歸似然比檢驗(likelihoodtest)似然比檢驗是通過比較兩個相嵌套模型的對數(shù)似然函數(shù)統(tǒng)計量G(又稱Deviance)來進行的,其統(tǒng)計量為:

G=GP-GK

=-2ln(LP)+2ln(LK)

其中,模型P中的變量是模型K中變量的一部分,另一部分就是我們要檢驗的變量(模型P嵌套在模型K中)。G服從自由度為K-P的

2分布。第04講logistic回歸例食道癌危險因素研究在食道癌危險因素研究中,采用病例-對照設計,調(diào)查了200個食道癌患者和788個非食道癌患者,調(diào)查因素及編碼如下。

可疑因素變量名

取值年齡(歲)AGE

0=25-34,1=35-44,2=45-54,

3=55-64,4=65-74,5=75+每日飲酒量(g)ALCOHOL

0=0-39,1=40-79,2=80-119,3=120+每日吸煙量(g)TOBACO

0=0-9,1=10-19,2=20-29,3=30+第04講logistic回歸三個變量的logistic回歸結(jié)果變量估計系數(shù)標準誤zP95%CIAGE0.74380.08189.0940.0000.5835~0.9040ALC1.10260.103210.6870.0000.9003~1.3048TOB0.43090.09394.5870.0000.2467~0.6150常數(shù)項-4.88680.3361-14.5410.000-5.5455~-4.22810.7438/0.0818第04講logistic回歸12個logistic回歸模型及其對數(shù)似然函數(shù)值

模型編號

模型中變量對數(shù)似然函數(shù)參數(shù)個數(shù)自由度1常數(shù)項-494.7442119872常數(shù)項+AGE-451.0977829863常數(shù)項+ALC-422.4246029864常數(shù)項+TOB-482.0589629865常數(shù)項+AGE+ALC-375.6744839856常數(shù)項+AGE+TOB-433.0976539857常數(shù)項+ALC+TOB-416.3495939858常數(shù)項+AGE+ALC+TOB-365.1567349849常數(shù)項+AGE+ALC+TOB+(AGE*ALC)-365數(shù)項+AGE+ALC+TOB+(AGE*TOB)-365.01774598311常數(shù)項+AGE+ALC+TOB+(ALC*TOB)-364.32995598312常數(shù)項+AGE+ALC+TOB+(ALC*TOB)+(AGE*TOB)+(AGE*ALC)-364.300807981第04講logistic回歸似然比檢驗檢驗變量ALC是否有統(tǒng)計學意義:

模型3與模型1

G=-2×[-494.74421-(-422.42460)]=144.6392,

=1,P<0.001檢驗在控制AGE的影響后,變量ALC是否有統(tǒng)計學意義:

模型5與模型2

G=-2×[-451.09778-(-375.674484)]=150.8466,

=1,P<0.001檢驗在控制AGE和TOB兩變量的影響后,ALC是否有統(tǒng)計學意義:

模型7與模型8

G=-2×[-416.34959-(-365.15673)]=102.3858,

=1,P<0.001第04講logistic回歸5建模策略任一建模過程均應從詳細的各變量的單因素分析開始。對性質(zhì)相同的一些自變量進行部分多因素分析,并探討自變量納入模型時的適宜尺度,及自變量間的必要的一些變量變換。在單變量分析和相關自變量分析的基礎上,進行多因素的逐步篩選,在多因素篩選模型的基礎上,考慮有無必要納入變量的交互作用項。第04講logistic回歸低出生體重兒調(diào)查在中國出生缺陷監(jiān)測網(wǎng)上進行的低出生體重兒(體重<2500g)發(fā)生率的調(diào)查。分層整群抽樣。一年內(nèi)所抽醫(yī)院所有的新生兒。共監(jiān)測2367例無其它系統(tǒng)畸形的新生兒。其中低體重兒為110例,總發(fā)生率為4.65%。同時調(diào)查了一些可疑因素。目的是探討哪些因素與新生兒的出生體重有關。第04講logistic回歸調(diào)查的有關因素

可疑因素變量名

取值體重WEIGHT1=體重<2500g,0=體重>=2500性別SEX1=男,0=女出生月份MONTH/t1月~12月母親年齡MAGE歲父親年齡FAGE歲妊娠次數(shù)YC1=第1次,2=第2次,…產(chǎn)次CC1=第1次,2=第2次,…自然流產(chǎn)次數(shù)ZRLC1=第1次,2=第2次,…人工流產(chǎn)次數(shù)RGLC1=第1次,2=第2次,…孕前三月內(nèi)母親是否吸煙MSB0=否,1=偶而,2=經(jīng)常孕后三月內(nèi)母親是否吸煙MSA0=否,1=偶而,2=經(jīng)常孕前三月內(nèi)父親是否吸煙FSB0=否,1=<5支/日,2=5-10支/日孕后三月內(nèi)父親是否吸煙FSA3=10-20支/日,4=>20支/日孕前三月內(nèi)母親是否飲酒MDB0=節(jié)假日,1=偶而,2=經(jīng)常孕前三月內(nèi)父親是否飲酒FDB0=節(jié)假日,1=偶而,2=經(jīng)常孕后三月內(nèi)母親是否飲酒MDA0=節(jié)假日,1=偶而,2=經(jīng)常繼往病史JWBS0=無,1=有妊娠反應(嘔吐)ET0=無,1=有先兆流產(chǎn)XZLC0=無,1=有貧血PX0=否,1=是妊高癥RGZ0=無,1=輕,2=中,3=重孕期有無精神創(chuàng)傷JSCS0=無,1=有第04講logistic回歸單因素分析結(jié)果變量名回歸系數(shù)標準誤P缺失數(shù)SEX0.017860.195570.9270MAGE-0.037360.031680.2340FAGE0.008220.023670.7280YC-0.183020.140110.1910CC0.105570.185750.5701ZRLC-0.615670.458280.17970RGLC-0.344720.255550.17767MSB---163MSA---158FSB-0.074850.085190.38079FSA-0.023790.083100.77565MDB-0.771180.994850.4381FDB-0.008780.135040.9480MDA---1JWBS---135ET0.041230.200870.83780XZLC0.595750.332360.073220PX0.246180.245070.3150RGZ0.485250.383250.011203JSCS---205第04講logistic回歸變量選不進的原因:暴露率過低新生兒體重

孕前三月內(nèi)母親是否吸煙

孕后三月內(nèi)母親是否吸煙MSB=1MSB=0MSA=1MSA=0低體重WEIGHT=1098099正常體重WEIGHT=0102096102100第04講logistic回歸母親年齡與低體重發(fā)生率的關系MAGE母親年齡組GMAGE體重>2500g<2500g%<200

8322.2720

1961555.4125

21062413.7230

3221104.3340

45116.67變量選不進的原因:非線性關系第04講logistic回歸母親年齡與低體重發(fā)生率的關系年齡分組012340510152025發(fā)生率(%)第04講logistic回歸父親年齡與低體重發(fā)生率的關系FAGE父親年齡組GFAGE體重>2500g<2500g%<200

20020

1493326.0725

21341553.9430

3393204.8440

42839.68變量選不進的原因:非線性關系第04講logistic回歸選擇變量的尺度模型變

量估計系數(shù)標準誤zP>z1GMAGE1.82960.56483.2390.001GMAGE20.43650.14982.9130.004常數(shù)項1.41730.47312.9960.0032GFAGE1.38640.58212.3820.017GFAGE20.31460.13372.3520.019常數(shù)項1.67150.58772.8440.0043GMAGE1.51870.62912.4140.016GMAGE20.32860.16891.9450.052GFAGE0.72590.63921.1360.256GFAGE20.19940.14841.3440.179常數(shù)項1.03050.63801.6150.106第04講logistic回歸同類性質(zhì)指標的多元分析模型變量估計系數(shù)標準誤zP>z4FSB1.34350.44493.0200.003FSA1.28800.44102.9210.003MDB0.70950.99440.7140.476FDB0.04890.15740.3110.756常數(shù)項2.91820.164017.7890.0005SMK11.34080.44563.0090.003SMK20.07060.08550.8260.409常數(shù)項2.94660.148719.8150.0006CC-0.11280.18770.6010.548RGLC0.34440.25501.3510.177常數(shù)項3.11640.252012.3670.000第04講logistic回歸多元逐步回歸變量估計系數(shù)標準誤zPGMAGE-2.20700.6317-3.4940.000GMAGE20.53480.16653.2110.001RGZ0.54390.19442.7980.005XZLC0.69900.35091.9920.046SMK

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論