第十六章 logistic回歸分析課件_第1頁
第十六章 logistic回歸分析課件_第2頁
第十六章 logistic回歸分析課件_第3頁
第十六章 logistic回歸分析課件_第4頁
第十六章 logistic回歸分析課件_第5頁
已閱讀5頁,還剩58頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第十六章

logistic回歸分析

1第十六章logistic回歸分析本章的內(nèi)容第一節(jié)Logistic回歸*基本概念、參數(shù)估計、假設(shè)檢驗、變量篩選、模型評價第二節(jié)條件Logistic回歸第三節(jié)Logistic回歸的應(yīng)用和注意問題**為重點介紹2第十六章logistic回歸分析問題的提出醫(yī)學(xué)科研中常研究多個影響因素(x)對結(jié)果變量(y為分類變量)的關(guān)系或作用.例冠心病與可能危險因素關(guān)系的研究冠心病結(jié)果(y)(x)危險因素結(jié)果記錄有或無(x1)高血壓史有或無(x2)高血脂史有或無(x3)吸煙有或無3第十六章logistic回歸分析多元線性回歸方程

多元線性回歸的要求:

Y變量的取值為連續(xù)性隨機變量。

Y與X間關(guān)系為線性關(guān)系。前例采用單因素統(tǒng)計方法?問題:

1.常采用χ2檢驗,但如有混雜因素干擾,導(dǎo)致結(jié)果不一定正確。2.不能回答哪個因素(x)對(y)關(guān)系更密切或作用更大?4第十六章logistic回歸分析單因素方法

分類變量(y)與影響因素(x)關(guān)系

冠心病

危險因素(x1=高血壓)(Y)有=1無=0合計有=160(a)40(b)100無=040(c)60(d)100

例1

按血脂水平分層分析血脂高水平血脂低水平冠心病有高血壓無高血壓有高血壓無高血壓有=1(40)(10)(10)(40)無=0(30)(20)(20)(30)血壓與血脂何者對冠心病作用更大?5第十六章logistic回歸分析

例2兩醫(yī)院乳腺癌術(shù)后5年生存率比較

比較組生存數(shù)

死亡數(shù)

合計生存率%甲醫(yī)院48527075564.2乙醫(yī)院25712638367.1Χ2=0.167p=0.683不考慮病情和其他因素,單因素分析結(jié)論:兩生存率差別無統(tǒng)計意義6第十六章logistic回歸分析

腋下淋巴甲醫(yī)院=1乙醫(yī)院=0結(jié)轉(zhuǎn)移病例生存生存率%病例生存生存率%無=0453577.730021571.6有=171045063.4834250.6合計75548564.2383257

67.1

多因素分析作用:1.可校正混雜因素,正確評價結(jié)果的效應(yīng).

2.回答哪個因素對事件(疾病)作用更大?考慮病情因素,甲醫(yī)院生存率高于乙醫(yī)院.兩醫(yī)院乳腺癌術(shù)后5年生存率比較7第十六章logistic回歸分析

第一節(jié)

logistic回歸

一、基本概念logistic回歸(logisticregression)是研究觀察結(jié)果(y)為分類變量與多個影響因素(x)之間回歸關(guān)系的多變量統(tǒng)計方法。根據(jù)因變量(y)取值不同,Logistic回歸又有兩分類BinaryLogistic回歸和多分類MultinomialLogistic回歸方法.8第十六章logistic回歸分析兩分類的logistic回歸模型

變量的取值(y,x)應(yīng)變量(y)為兩分類:

自變量(Xi)收集可能與y變量有關(guān)因素,稱為危險因素(riskfactor)或暴露因素,可為連續(xù)變量、等級變量、分類變量??捎衜個自變量X1,X2,…Xm

。

9第十六章logistic回歸分析logistic回歸模型

以事件發(fā)生(y=1)的概率(p)做應(yīng)變量,建立p和自變量Xi

的函數(shù)關(guān)系,即概率p與自變量(x)的回歸關(guān)系是logistic回歸模型。

P(概率)的取值波動0~1范圍。概率函數(shù)表達式10第十六章logistic回歸分析1.logistic回歸模型方程表達形式

Logistic回歸概率模型方程Y與一個自變量(x)的logistic回歸方程:

p(y=1/x):表示在某暴露因素(x)狀態(tài)下,事件發(fā)生(y=1)的概率(P)模型。概率回歸方程,二者等價11第十六章logistic回歸分析logistic回歸概率模型方程某暴露因素為有和無(X=1和0)12第十六章logistic回歸分析logistic回歸模型方程的線性表達對logistic回歸概率(p)模型做logit變換:截距(常數(shù))回歸系數(shù)Y~(-∞至+∞)線性表達形式:13第十六章logistic回歸分析在有多個危險因素(Xi)時logistic回歸模型方程線性表達:或概率模型公式16-2公式16-114第十六章logistic回歸分析2.模型中參數(shù)的意義Β0(常數(shù)項):暴露因素Xi=0時,個體出現(xiàn)事件(發(fā)病)概率與不出現(xiàn)事件(發(fā)病)的概率之比的自然對數(shù)值(基線值)。15第十六章logistic回歸分析方程中回歸系數(shù)β的含義β的含義:某暴露因素存在(x=1)與不存在(x=0)相比,個體發(fā)生結(jié)果事件(如y=1)優(yōu)勢比的對數(shù)值。優(yōu)勢比:是流行病學(xué)上衡量暴露因素(X)與疾?。╕)發(fā)生是否有關(guān)聯(lián)及關(guān)聯(lián)程度大小的指標.16第十六章logistic回歸分析優(yōu)勢比(oddsratio,OR)

暴露因素優(yōu)勢(odds1)有暴露因素的個體中,個體出現(xiàn)某事件(y=1)的概率P(y=1)與個體無事件(Y=0)的概率(1-P)的比值,稱某暴露因素存在發(fā)生某事件的優(yōu)勢。17第十六章logistic回歸分析吸煙與肺癌關(guān)系的病例對照研究

結(jié)果暴露因素(x)(y)吸煙=1不吸煙=0合計肺癌組(y=1)688(a)21(b)709(a+b)對照組(y=0)350(c)359(d)709(c+d)合計1038(a+c)380(b+d)1418暴露因素(吸煙的優(yōu)勢)在兩組的優(yōu)勢(odds1)同理:非暴露因素的odds0=21/359=0.058518第十六章logistic回歸分析優(yōu)勢比(oddsratio,OR)

定義:暴露因素存在與暴露不存在出現(xiàn)事件(疾病)的優(yōu)勢(odds1)/(odds0)之比,稱為事件暴露因素的優(yōu)勢比(oddsratio,OR)公式:例:19第十六章logistic回歸分析優(yōu)勢比(oddsratio,OR)

20第十六章logistic回歸分析OR值反映暴露因素與事件(疾病)關(guān)系OR意義:OR值>1,表示有暴露因素的個體出現(xiàn)事件(患某病)的優(yōu)勢大于無暴露因素者,或優(yōu)勢(危險性)增加。OR值<1,表示有暴露因素的人出現(xiàn)事件(患疾病)的優(yōu)勢低于無暴露因素者,或危險性減少。OR值=1,意味無論暴露出現(xiàn)與否,與事件(疾?。o關(guān)系.21第十六章logistic回歸分析Logistic方程的回歸系數(shù)β含義

暴露因素存在(x=1)與不存在(x=0)的個體相比,發(fā)生某事件(y=1)優(yōu)勢比的對數(shù)值?;騲每增加一個單位發(fā)生Y事件的對數(shù)優(yōu)勢比.X=1X=022第十六章logistic回歸分析

含義為:在其他變量(x)固定后,某X=1與x=0相比或x每增加一個單位發(fā)生Y事件優(yōu)勢比的對數(shù)值?;貧w系數(shù)β與ORX與Y關(guān)聯(lián)結(jié)論β=0,OR=1無關(guān)β>0,OR>1有關(guān),危險因素β<0,OR<1有關(guān),保護因子OR值的大小反映暴露因素與事件發(fā)生關(guān)系的程度。多個自變量(x)回歸模型的概念23第十六章logistic回歸分析二、logistic回歸模型的參數(shù)估計

1.模型中的回歸系數(shù)(βi)估計

用最大似然函數(shù)(maximumlikelihoodestimate,MLE)估計β,公式16-7,由統(tǒng)計軟件包完成。,,(16-7)24第十六章logistic回歸分析

2.優(yōu)勢比(OR)及可信區(qū)間的估計

如X=1,0兩分類,則OR的1-α可信區(qū)間估計公式為:為回歸系數(shù)的標準誤(公式16-11)回歸系數(shù)與OR的關(guān)系為:25第十六章logistic回歸分析例:講義表16-1資料研究吸煙、飲酒與食管癌關(guān)系的病例-對照設(shè)計的資料(886例),試作logistic回歸分析。變量的賦值建立Logistic回歸模型為:26第十六章logistic回歸分析吸煙、飲酒與食管癌關(guān)系的病例-對照資料變量賦值和例數(shù)暴露因素(x)(y)例數(shù)吸煙飲酒病例對照0063136016310710445711265151暴露因素?zé)o=0,有=127第十六章logistic回歸分析經(jīng)logistic回歸計算后得

b0=-0.9099,b1=0.8856,b2=0.5261,

Logistic回歸模型為:控制飲酒因素后,吸煙與不吸煙相比患食管癌的優(yōu)勢比為2.4倍28第十六章logistic回歸分析OR的可信區(qū)間估計X1變量(吸煙與不吸煙)OR的95%可信區(qū)間:X2變量(飲酒與不飲酒)OR的95%可信區(qū)間:29第十六章logistic回歸分析三、Logistic回歸模型的假設(shè)檢驗1.檢驗?zāi)P椭凶宰兞康摩耲是否對Y有作用。

檢驗方法:1)似然比檢驗(likelihoodratiotest)2)Wald檢驗3)計分檢驗(scoretest)30第十六章logistic回歸分析假設(shè)檢驗的統(tǒng)計量16-12G統(tǒng)計量>χ2,p<α,認為某變量對回歸有統(tǒng)計意義。吸煙(X1)和飲酒(x2)與食管癌關(guān)系例子消除飲酒的影響后,β1≠0,吸煙與食管癌有關(guān)系。1.似然比檢驗(likelihoodratiotest)31第十六章logistic回歸分析2.Wald檢驗(單個變量檢驗)

檢驗假設(shè):Wald檢驗統(tǒng)計量公式16-14當(dāng)認為某x對y有關(guān)系.3.計分檢驗(scoretest)32第十六章logistic回歸分析例表16-1吸煙、飲酒與食管癌資料

(SAS軟件計算)

1.對建立的整個模型做檢驗。TestingGlobalNullHypothesis:BETA=0TestChi-SquareDFPr似然比68.54572<.0001計分檢驗67.07122<.0001Wald檢驗64.27842<.000133第十六章logistic回歸分析例表16-1資料,對各x的β做檢驗(wald檢驗)

參數(shù)βWaldχ2

Pr常數(shù)-0.90990.135844.8699.0001吸煙0.88560.150034.8625.0001飲酒0.52610.157211.2069.0008

OddsRatioEstimatesPoint95%WaldEffectEstimateConfidenceLimits

吸煙x12.4241.8073.253

飲酒x21.6921.2442.303P值34第十六章logistic回歸分析四、Logistic回歸的變量篩選

目的:將回歸系數(shù)有統(tǒng)計意義的自變量選入模型中,作用不顯著的自變量則排除方程外。

變量篩選算法有:向前逐步法、向后逐步退法逐步回歸檢驗水準:進入方程的檢驗水準為0.05或0.10,變量保留在方程的水準為0.1或0.15

35第十六章logistic回歸分析例:講義例16-2

冠心病與危險因素關(guān)系的病例對照研究設(shè)計方法:病例對照研究病例組:經(jīng)檢查證實為冠心病的26例病人。對照組:無冠心病和無與冠心病有關(guān)疾病的28例病人為對照。

收集8個可能與冠心病有關(guān)危險因素,變量賦值見表16-2。采用Logistic回歸逐步法做變量篩選。進入方程α=0.10,剔除方程為=0.1536第十六章logistic回歸分析表16-2冠心病8個可能的危險因素與賦值

因素變量名賦值說明年齡(歲)x1<45=1,45-54=2,55-64=3,≥65=4高血壓史x2無=0,有=1高血壓家族史x3無=0,有=1吸煙x4不吸=0,吸煙=1高血脂史x5無=0,有=1動物脂肪攝入x6低=0,高=1體重指數(shù)x7<24=1,24-=2,26-=3A性格x8是=0,否=1冠心病y病例=1,對照=037第十六章logistic回歸分析表16-4逐步回歸法進入方程的自變量及參數(shù)估計

(SAS軟件)變量βSbWaldχ2P值標準β’OR常數(shù)-4.7051.549.300.0023年齡0.9240.4773.760.05250.4012.52高血脂1.4960.7444.040.04430.4064.46脂肪攝入3.1361.2496.300.01210.70323.06A性格1.9470.8475.290.02150.5237.01標準回歸系數(shù)(β’)比較各自變量對Y的相對貢獻38第十六章logistic回歸分析表16-2冠心病與危險因素關(guān)系統(tǒng)計分析結(jié)果:經(jīng)Logistic回歸分析(逐步法)結(jié)果見表,

冠心病的危險因素有年齡、高血脂、脂肪攝入、A性格。其中危險因素對冠心病的作用大小依次為脂肪攝入、A性格、高血脂、年齡。

39第十六章logistic回歸分析第二節(jié)條件Logistic回歸概念:

1.用配對設(shè)計獲得病例-對照研究資料,計算的Logistic回歸模型為條件Logistic回歸。

2.未配對設(shè)計的病例-對照研究資料,計算的Logistic回歸模型為非條件Logistic回歸。兩回歸模型區(qū)別:條件Logistic回歸模型無常數(shù)項(β0)參數(shù);研究目的主要用于尋找危險因素的分析。40第十六章logistic回歸分析病例對照的配對設(shè)計采用配對設(shè)計控制已知的影響因素(配對因素如年齡、性別、生活條件),減少對比較組的影響。如配對組的觀察對象為1個病例和1個對照,稱為1:1配對研究,或1:2、1:4的配對研究。例:16-6采用1:2配對的病例對照設(shè)計,研究6個可能與喉癌有關(guān)的危險因素,共25個配對組,數(shù)據(jù)見表16-7.41第十六章logistic回歸分析例:16-6采用1:2配對配對病例對照研究喉癌危險因素

因素變量名賦值說明咽炎X1無=1偶爾=2經(jīng)常=3吸煙史(支/日)X20=11-4=25-9=310-20=4>20=5聲嘶史X3無=1偶爾=2經(jīng)常=3攝食新鮮蔬菜X4少=1經(jīng)常=2每天=3攝食水果X5很少=1少量=2經(jīng)常=3癌癥家族史X6無=0有=1是否患喉癌Y病例=1對照=0

表16-8逐步回歸法進入方程的變量和參數(shù)變量回歸系數(shù)β標準誤SbWaldχ2P值ORX21.48690.55067.290.00694.42X31.91660.94444.120.04246.80X4-3.76411.82514.250.03920.02X63.63211.86573.790.051637.7942第十六章logistic回歸分析1:2配對25對病例對照研究喉癌危險因素配對

應(yīng)變量危險因素組號iYX1X2X3X4X5X6113511100111330011133021131130011132001213203114132001513200141320411412110111330021132051242320012133043第十六章logistic回歸分析

第三節(jié)logistic回歸的應(yīng)用及注意問題

一、logistic回歸的應(yīng)用1.危險因素的篩選和分析

用回歸系數(shù)(βi)和OR說明危險因素(x)與事件(疾?。┑年P(guān)系。例:講義例16-1,16-2,16-3適用的資料:前瞻性研究設(shè)計、病例對照研究設(shè)計、橫斷面研究設(shè)計的資料。44第十六章logistic回歸分析2.校正混雜因素,評價實驗處理的效應(yīng)如實驗研究,比較組間存在混雜因素或?qū)嶒灍o法控制因素,該法可控制混雜因素,合理評價結(jié)果的效應(yīng)。3.對個體預(yù)測與分類

1)預(yù)測個體在某因素存在條件下,發(fā)生某事件(發(fā)?。┑母怕?為進一步研究提供依據(jù)。

2)根據(jù)預(yù)測的概率,對研究個體進行分類.45第十六章logistic回歸分析

腋下淋巴甲醫(yī)院=1乙醫(yī)院=0結(jié)轉(zhuǎn)移病例生存生存率%病例生存生存率%

無=0453577.730021571.6有=171045063.4834250.6合計75548564.2383257

67.1例1

變量編碼:Y=1生存,y=0死亡,x1=1甲醫(yī)院,x1=0乙醫(yī)院,x2=1轉(zhuǎn)移.x2=0無轉(zhuǎn)移兩醫(yī)院乳腺癌術(shù)后5年生存率比較46第十六章logistic回歸分析Logistic回歸模型計算結(jié)果

校正病情因素后,兩醫(yī)院生存率差別有統(tǒng)計意義,甲醫(yī)院的生存率高于乙醫(yī)院。病情因素差別有統(tǒng)計意義,淋巴結(jié)有轉(zhuǎn)移者生存率低,是無轉(zhuǎn)移患者生存率的43%。47第十六章logistic回歸分析例2兩種藥物對某病療效的研究性別治療方法療效有效y=1無效y=0合計有效率%女X1=1新藥(x2=1)2162777.7對照(x2=0)13193240.1男X1=0新藥(x2=1)771450.0對照(x2=0)110119.1上表可見,女性無論新藥和對照藥療效高于男性問:性別是否與療效有關(guān),排除性別因素后,兩組藥物療效是否有差別?不考慮性別作用,OR=4.46,P=0.0148第十六章logistic回歸分析Logistic回歸模型計算結(jié)果

StandardWaldParameEstimateErrorChi-SquarePr

常數(shù)-1.90370.598210.1270.0015性別1.46850.5756.5080.0107藥物1.78160.51811.7940.0006OddsRatioEstimatesPoint95%WaldEffectEstimateConfidenceLimits

x1性別4.3431.40513.421x2藥物5.9392.14916.41749第十六章logistic回歸分析結(jié)論:性別和藥物的回歸系數(shù)都均有統(tǒng)計意義。女性和用新藥的療效較優(yōu)。用Logistic的概率模型對個體的療效做預(yù)測:設(shè)如女性病人,x1=1,用新藥x2=1,有效的概率p=0.79如男性病人x1=0,用新藥x2=1,有效的概率p=0.469550第十六章logistic回歸分析二、Logistic回歸應(yīng)用的注意問題

1.模型中自變量的取值

計量數(shù)據(jù)有時劃為有序組段(如年齡<40歲=1、40-50歲=2、50-60歲=3),OR的實際意義更大。例:表16-3年齡(每增加10歲)的OR=2.52

例:如年齡x1(歲)

51第十六章logistic回歸分析數(shù)據(jù)為分類數(shù)據(jù)賦值形式1)兩分類變量(Binaryvariable

)賦值為:有=1,無=02)有序變量(Ordinalvariable

)文化程度,賦值為:文盲=1,小學(xué)=2,中學(xué)=3,大專及以上=43.)多分類無序變量如血型,化為分類數(shù)-1個啞變量(dummyvariable)52第十六章logistic回歸分析

啞變量的賦值與方程血型X

有序賦值啞變量賦值X1X2X3A1100B2010O3001AB

4000啞變量方程:

血型(X)變量的賦值53第十六章logistic回歸分析

啞變量的賦值與方程年齡(歲)有序變量啞變量(方法一)X賦值X1X2X3<40100040~210050~301060~

4001方程1:有序變量方程Β含義:x每增加1個單位(10歲),發(fā)病的概率(優(yōu)勢比)增加β1

表16-3年齡(X)變量的賦值54第十六章logistic回歸分析方程2:啞變量方程方程系數(shù)的解釋:40-歲與<40歲相比的對數(shù)優(yōu)勢比

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論