醫(yī)學統(tǒng)計學課件:13_Logistic回歸分析_第1頁
醫(yī)學統(tǒng)計學課件:13_Logistic回歸分析_第2頁
醫(yī)學統(tǒng)計學課件:13_Logistic回歸分析_第3頁
醫(yī)學統(tǒng)計學課件:13_Logistic回歸分析_第4頁
醫(yī)學統(tǒng)計學課件:13_Logistic回歸分析_第5頁
已閱讀5頁,還剩61頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、Logistic回歸,溫醫(yī)公衛(wèi)學院黃陳平,例 50例急性淋巴細胞白血病病人,在入院時白細胞數X1(109/L),淋巴結浸潤度X2(記為 0、1、2三級),緩解出院后鞏固治療X3 (鞏固治療時賦值 1,無鞏固治療時賦值 0)。隨訪1年取得每例病人是否死亡 Y (死亡賦值1,生存賦值0)的資料。請分析影響一年內死亡的有關因素。,表10.4 50例急性淋巴細胞性白血病人的資料,第一節(jié) Logistic 回歸,1、概念 Logistic 回歸是一種主要用于應變量為二項分類的概率型非線性回歸。 在醫(yī)學研究中經常遇到應變量為互斥的二項分類資料,如治愈和未愈、發(fā)病和未發(fā)病、生存和死亡等,即成功與失敗兩種可能

2、的結果。同時有許多自變量可能對結果產生影響,而且這種影響不一定是線性的,用線性回歸分析這類資料欠合理。這時可用Logistic 回歸。,2、Logistic 回歸模型:,可能得到的P值會出現小于 0 及大于 1 的情況,從而使公式失去意義。,式中因變量Y可以是( - ,+ )中任意實數。,無論式中Xi 和bi 是什么數值(實數),都能有相應的ln(P/Q)值, ln(P/Q)可以是 - + 之間的任何值,而這些ln(P/Q)值都可以和 0 1 范圍內的P值相對應。,多元線性回歸方程:,統(tǒng)計學中,把ln(P/Q)稱為 P 的Logit 轉換或對數轉換,記為Logit P。由此得到的回歸方程,稱為

3、Logistic回歸方程。,或:,P概率,1,0.5,Z值,0,1,2,3,-1,-2,-3,圖16-1 Logistic回歸函數的幾何圖形,為正值,x 越大,結果y=1發(fā)生的可能性(P)越大。,3、Logistic 模型回歸系數的含義,回歸系數(bi)表示:在其它自變量不變時,某自變量 Xi改變一個單位時LogitP的改變量。 優(yōu)勢比(OR)指某一影響因素Xi兩個不同暴露水平(C1,C0)的P/Q值之比。,當某影響因素Xi僅為兩個水平 (1暴露,0非暴露),則:,當bi=0時,ORi=1,說明因素Xi對疾病發(fā)生不起作用; 當bi0時,ORi1,說明因素Xi對疾病發(fā)生是危險因素; 當bi0時,

4、ORi1,說明因素Xi對疾病發(fā)生是保護因素。,4. Logistic 回歸模型的參數估計,最大似然估計(maximum likelihood estimate, MLE) (最大可能性估計) 最大似然法是要解決這樣一個問題:給定一組數據和一個參數待定的模型,如何確定模型的參數,使得這個確定參數后的模型在所有模型中產生已知數據的概率最大。 根據最大似然原理,在一次抽樣中獲得現有樣本的概率應該最大。,4. Logistic 回歸模型的參數估計,例:進行拋硬幣試驗,假設這個硬幣正面跟反面輕重不同。我們把這個硬幣拋80次(正面記為H,反面記為T,x1=H, x2=T, , x80=T)。設拋出一個正面

5、的概率記為P ,拋出一個反面的概率記為1 P (這里的P即相當于上邊的參數)。假設我們拋出了49個正面,31 個反面,即49次H,31次T。假設這個硬幣是我們從一個裝了三個硬幣的盒子里頭取出的。這三個硬幣拋出正面的概率分別為P = 1 / 3 , P = 1 / 2 , P = 2 / 3 . 這些硬幣沒有標記,所以我們無法知道是哪個。使用最大似然估計 ,通過這些試驗數據,我們可以計算出哪個硬幣的可能性最大。,4. Logistic 回歸模型的參數估計,我們可以看到當P=2/3時,可能性函數取得最大值。這就是P 的最大似然估計。,5. Logistic 回歸方程的計算 例50例急性淋巴細胞白血

6、病病人,在入院時白細胞數X1(10/L),淋巴結浸潤度X2(記為 0、1、2三級),緩解出院后鞏固治療X3 (有鞏固治療時賦值 1,無鞏固治療時賦值 0)。隨訪1年取得每例病人是否死亡 Y (死亡賦值1,生存賦值0)的資料。請分析影響一年內死亡的有關因素。,表10.4 50例急性淋巴細胞性白血病人的資料,全回歸方程:,6、回歸模型或回歸系數的假設檢驗,對建立的整個模型做檢驗 說明各自變量對Y的作用總的來講是否有統(tǒng)計意義。,模型中某是否為0進行檢驗 說明某自變量對Y的作用是否有統(tǒng)計意義,6、回歸模型或回歸系數的假設檢驗,檢驗方法: 1)似然比檢驗 (likelihood ratio test)

7、2)Wald檢驗 3)計分檢驗(score test),(1) 似然比檢驗,是比較在兩種假設條件下的對數似然函數值的大小。該法可以對一個或同時對多個自變量進行檢驗。,樣本含量較大時,在H0條件下,G服從自由度為d(兩模型自變量個數差值)的X2分布。,(1) 似然比檢驗,Omnibus指模型全局檢驗,為似然比檢驗。,模型1包括X1、X2、X3; 模型0不包括自變量。,2ln(X3)=49.690,2ln(X3X2)=46.718,故X3存在的前提下,引進X2不能顯著改善模型的擬合優(yōu)度。,(2) Wald檢驗,Wald檢驗是檢驗j是否為0,或:,服從=1的2分布,Wald檢驗比較適合單個自變量的檢

8、驗,但檢驗效率較低。,(2) Wald檢驗,(3) 計分檢驗,計分檢驗統(tǒng)計量S也服從2分布,檢驗效率比Wald檢驗高,適合于自變量篩檢。,x3似然比檢驗,7、自變量的篩選,目的:將回歸系數有顯著意義的自變量選入模型中,作用不顯著的自變量則排除在外。 變量篩選算法有(SPSS): 進入法(Enter):強制所有變量進入模型,沒有篩選。 向前逐步法(Forward Stepwise):包括Conditional; LR; Wald 向后剔除法( Backward):包括 Conditional; LR; Wald,模擬向后剔除法篩選變量過程:上例資料,設剔除檢驗水準=0.10,第一步:建立全回歸方

9、程;,模擬向后剔除法篩選變量過程:上例資料,設剔除檢驗水準=0.10,第一步:建立全回歸方程;第二步:對模型進行檢驗;,模擬向后剔除法篩選變量過程:上例資料,設剔除檢驗水準=0.10,X1變量被剔除,每次只剔除關系最弱一個變量,第一步:建立全回歸方程;第二步:對模型進行檢驗; 第三步:檢驗各偏回歸系數;,模擬向后剔除法篩選變量過程:上例資料,設剔除檢驗水準=0.10,第一步:建立全回歸方程;第二步:對模型進行檢驗; 第三步:檢驗各偏回歸系數; 第四步:重建不含剔除變量的全回歸方程;,模擬向后剔除法篩選變量過程:上例資料,設剔除檢驗水準=0.10,第一步:建立全回歸方程;第二步:對模型進行檢驗;

10、 第三步:檢驗各偏回歸系數; 第四步:重建不含剔除變量的全回歸方程; 循環(huán)檢驗,直至模型不存在無統(tǒng)計意義變量為止。,模擬向前逐步法篩選變量過程:上例資料,設入選檢驗水準為0.05,剔除檢驗水準為0.10,每次選入一個在模型外且最具統(tǒng)計學意義的自變量后,就對原在方程中的自變量做剔除檢驗,這個過程逐步進行,直到沒有統(tǒng)計意義的自變量可以入選,也沒有無統(tǒng)計學意義的自變量保留在方程中為止。,模擬向前逐步法篩選變量過程:上例資料,設入選檢驗水準為0.10,剔除檢驗水準為0.15,8、模型概況,包含變量 X3 X3、X2 X3、X2、X1,9、概率預測,一名淋巴結浸潤度(X2)為2級,而且出院后沒有鞏固治療

11、(X3=0)的病人,其一年內死亡的概率為: P = 0.96,其生存概率為 1 0.96 = 0.04 一名淋巴結浸潤度(X2)為2級,而且出院后有鞏固治療(X3=1)的病人,其一年內死亡的概率為: P = 0.57,其生存概率為 1 0.57 = 0.43,10、回歸方程的分類能力,實際與理論一致率(%)= (14+25)100/50=78%,模型 X3 X3、X2 X3、X2、X1,例16-2 為了探討冠心病發(fā)生的有關危險因素,對26例冠心病病人和28例對照者進行病例對照研究,各因素的說明及資料見表16-2和表16-3。試用logistic逐步回歸分析方法篩選危險因素。,單因素logist

12、ic回歸分析,有意義的因素為:動物脂肪攝入X6、高血脂史X5、A型性格X8、年齡(歲)X1,向前逐步法:Conditional 入選0.05,剔除0.10,標準偏回歸系數計算,有意義的因素為: 年齡(歲)X1 高血脂史X5 動物脂肪攝入X6 A型性格X8,例16-1 表16-1是一個研究吸煙、飲酒與食道癌關系的病例對照資料,試作logistic回歸分析。,說明: 1、扣除吸煙因素影響,飲酒者發(fā)病的危險性約為非飲酒者的1.7倍。 2、扣除飲酒因素影響,吸煙者發(fā)病的危險性約為非吸煙者的2.4倍。,第三節(jié) logistic回歸的應用及注意事項,一、logistic回歸的應用 1.疾病(某結果)的危險

13、因素分析和篩選 用回歸模型中的回歸系數(i)和OR說明危險因素與疾病的關系。 適用的資料:前瞻性研究設計、病例對照研究設計、橫斷面研究設計的資料。 三類研究計算的logistic 回歸模型的意義是一致,僅常數項不同。,一、Logistic回歸的應用,2.校正混雜因素,對療效做評價 在臨床研究和療效的評價,組間某些因素構成不一致干擾療效分析,通過該法可控制非處理因素,正確評價療效。,例:研究者欲了解a、b兩種治療方案對尿路感染的療效,收集了一批病例資料如下表,病例分有無并發(fā)癥兩類,比較兩種治療方案的療效?,應變量:療效(有效1,無效0) 自變量:治療方案(a=1,b=0)、并發(fā)癥(有1,無0),

14、結果表明:在并發(fā)癥存在的前提下,a、b兩種治療方案療效差別有統(tǒng)計學意義,a方案優(yōu)于b方案。,一、Logistic回歸的應用,3.預測與判別 預測個體在某因素存在條件下,發(fā)生某事件(發(fā)?。┑母怕?,為進一步治療提供依據。,二、Logistic回歸應用的注意事項,1.模型中自變量的取值 自變量(X)可為計量資料、分類資料或等級資料。 計量資料常重新劃為有序組段,OR的實際意義較大。 2.樣本含量 自變量個數越多,例數越多。各組樣本例數(對照組和病例組)至少為自變量個數的5-20倍。,回歸分析的分型,回歸分析根據因變量的取值不同可分為確定型回歸與概率型回歸兩種。確定型回歸對應變量的預報是數值預報,多元

15、線性回歸屬確定型回歸;概率型回歸對應變量的預報是概率預報,Logistic回歸屬概率型回歸。 若用回歸圖形來分類,則分為線性回歸與非線性回歸兩類,多元線性回歸屬于線性類, Logistic 回歸屬于非線性類。,THE END,關于優(yōu)勢比(OR),當P很低時,則:,第二節(jié) 條件Logistic回歸,概念: 用配對設計獲得病例對照研究資料,計算的Logistic回歸模型為條件Logistic回歸。 成組(未配對)設計的病例對照研究資料,計算的Logistic回歸模型為非條件Logistic回歸。 區(qū)別: 條件Logistic回歸的參數估計無常數項(0),主要用于危險因素的分析。,例16-3 某北方城市研究喉癌發(fā)病的危險因素,用12配對的病例對照研究方法進行了調查?,F選取了6個可能的危險因素并節(jié)錄25對數據,各因素的賦值說明見表16-6,資料列于表16-7,試做條件logistic逐步回歸分析(納入水準0.05,剔除水準0.10) 。,SPSS處理,SPSS軟件對于配對的logistic回歸用生存分析中的COX模型來進行處理。 資料中outcome為虛擬生存時間,病例取值全為1,對照取值全為2,實際上只要對照取值大于病例即可。 配對號進入分層框(Strata) 應變量(Y)進入Status框, 病例為1,對照為0 影響因素進入Covar

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論