logistic回歸、probit回歸與poission回歸.ppt_第1頁(yè)
logistic回歸、probit回歸與poission回歸.ppt_第2頁(yè)
logistic回歸、probit回歸與poission回歸.ppt_第3頁(yè)
logistic回歸、probit回歸與poission回歸.ppt_第4頁(yè)
logistic回歸、probit回歸與poission回歸.ppt_第5頁(yè)
已閱讀5頁(yè),還剩44頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、邏輯回歸(因變量是二元/二項(xiàng)式分布)概率單位回歸泊松(因變量是泊松分布),第3章:橫斷面數(shù)據(jù):因變量是分類變量,因變量是頻率(計(jì)數(shù))變量。邏輯回歸(因變量為二元/二項(xiàng)式分布)概率單位回歸泊松(因變量為泊松分布),第3章:橫斷面數(shù)據(jù):因變量為分類變量,因變量為頻率(計(jì)數(shù))變量,概念上,邏輯回歸是一種研究觀測(cè)結(jié)果與影響因素(自變量)關(guān)系的多元分析方法,屬于概率非線性回歸。最常用的是二元邏輯,即因變量的值只包含兩類,如好和壞;發(fā)生與否;常用的Y=1或Y=0。自變量x稱為風(fēng)險(xiǎn)因子或暴露因子,可以是連續(xù)變量、等級(jí)變量和分類變量,可以有m個(gè)獨(dú)立變量X1、X2和Xm。p代表Y=1的概率,是其他變量的函數(shù)。p

2、(Y=1|X)表示在X條件下Y=1的概率邏輯回歸的數(shù)學(xué)表達(dá)式如下:邏輯回歸的分類:(1)兩類數(shù)據(jù)的邏輯回歸:具有兩類變量因變量的數(shù)據(jù)可以通過無條件邏輯回歸和條件邏輯回歸進(jìn)行分析。無條件邏輯回歸主要用于非匹配病例對(duì)照研究或隊(duì)列研究數(shù)據(jù),而條件邏輯回歸主要用于匹配或匹配數(shù)據(jù)。(2)多分類數(shù)據(jù)的logistic回歸:因變量是多分類數(shù)據(jù),可以用多分類logistic回歸模型或有序分類logistic回歸模型進(jìn)行分析。它也可以分為邏輯回歸和條件邏輯回歸,這樣兩個(gè)水平的因變量對(duì)應(yīng)的值是0和1,概率是1-p和p,那么顯然我們也可以用多元回歸來分析?為什么使用邏輯回歸分析?邏輯回歸系數(shù)、模型評(píng)估、參數(shù)估計(jì)和假

3、設(shè)檢驗(yàn)與以前的回歸分析有什么不同?當(dāng)因變量是二分變量時(shí),它可以是邏輯回歸或概率單位回歸,因此概率單位回歸及其與邏輯回歸的異同,問題1:p (y=1)表示一個(gè)概率(p)模型,其結(jié)果y=1處于某一暴露因素狀態(tài)?;蛘撸撃P兔枋隽艘蜃兞縫和x之間的關(guān)系,p概率,1,0.5,Z值,0,1,2,3,-1,-2,-3,圖1中邏輯回歸函數(shù)的幾何圖形,并且線性回歸在處理具有上限和下限的因變量時(shí)面臨一個(gè)問題:x的相同變化對(duì)y有影響。雖然有許多非線性函數(shù)可以是S形的,但是它更受歡迎,因?yàn)榱_技變換相對(duì)簡(jiǎn)單。邏輯不同于概率,因?yàn)樗鼪]有上限和下限。比率去除概率的上限,比率的對(duì)數(shù)去除概率的下限。并且它是對(duì)稱的,以0和5為

4、中點(diǎn),概率大于0.5產(chǎn)生正的logit,并且距離logit,logit距離0反映概率距離0.5的距離;概率的相同變化不同于邏輯的變化。logit變換理順了x和初始概率之間的非線性關(guān)系?;貧w系數(shù)的顯著性:邏輯回歸中的回歸系數(shù)表示當(dāng)某個(gè)因素改變一個(gè)單位時(shí),影響指標(biāo)發(fā)生和不發(fā)生概率之比的對(duì)數(shù)變化值,即或的對(duì)數(shù)變化值。邏輯回歸中的常數(shù)項(xiàng)表示影響指數(shù)發(fā)生和不發(fā)生的概率比的對(duì)數(shù)值,不涉及任何潛在的風(fēng)險(xiǎn)保護(hù)因素。從數(shù)學(xué)上講,它與多元線性回歸分析中回歸系數(shù)的解釋沒有什么不同。(1)osmer-Lemeshowz指數(shù)HL統(tǒng)計(jì)量的原始假設(shè)Ho是預(yù)測(cè)值和觀測(cè)值之間沒有顯著差異,因此HL指數(shù)的P值越大,原始假設(shè)越不能

5、被拒絕,這意味著模型很好地?cái)M合數(shù)據(jù)。(2)AIC和供應(yīng)鏈指標(biāo),即雷馳準(zhǔn)則和施瓦茨準(zhǔn)則,類似于線性回歸。AIC和供應(yīng)鏈越小,模型擬合越好。(3)似然比卡方檢驗(yàn)表明,解釋變量對(duì)因變量的解釋作用總體上是否等同于多元回歸中的f檢驗(yàn)。在邏輯回歸中,它可以通過似然比檢驗(yàn)來檢驗(yàn)。(4)RSQUARE(R2)和c統(tǒng)計(jì)解釋了變量解釋在何種程度上解釋了因變量類似于線性回歸中的R2。在邏輯回歸中,它可以用R2和統(tǒng)計(jì)學(xué)來衡量。統(tǒng)計(jì)學(xué)趨勢(shì)擬合效果評(píng)述:AIC和SC越小越好。與多元回歸相似,回歸平方和P值越小,RSQUARE越好。與多元回歸相似,統(tǒng)計(jì)量越大,觀測(cè)值和條件預(yù)測(cè)值之間的相對(duì)一致性統(tǒng)計(jì)量越小,觀測(cè)值和預(yù)測(cè)值之間

6、的總體一致性P值越好。研究表明,在實(shí)踐中,C統(tǒng)計(jì)是上述統(tǒng)計(jì)中最受關(guān)注的,其次是AIC和SQUARE對(duì)其關(guān)注較少,這與多元線性回歸有很大不同。根本原因是多元線性回歸模型是一個(gè)預(yù)測(cè)模型,目標(biāo)變量的值具有實(shí)際意義;Logistic是一個(gè)分類模型,目標(biāo)變量只是一個(gè)分類標(biāo)識(shí)符,所以我們更注重預(yù)測(cè)值和預(yù)測(cè)值之間的相對(duì)一致性,而不是絕對(duì)一致性。參數(shù)估計(jì),此外,邏輯回歸也可以使用優(yōu)勢(shì)比估計(jì):例:觀察例,邏輯回歸模型的假設(shè)檢驗(yàn),3。分?jǐn)?shù)測(cè)試基于不包含一個(gè)或多個(gè)變量的模型,保持模型中參數(shù)的估計(jì)值,并假設(shè)新添加的參數(shù)為零,計(jì)算單葉偏導(dǎo)數(shù)(也稱為有效分?jǐn)?shù))和似然函數(shù)的信息矩陣,并將它們相乘。當(dāng)樣本量較大時(shí),S近似服從

7、自由度為待測(cè)因子數(shù)的分布。在上述三種方法中,似然比檢驗(yàn)(與前一種相似)是最可靠的,而分?jǐn)?shù)檢驗(yàn)(邏輯回歸模型所獨(dú)有的)一般與之一致,但兩者都需要大量的計(jì)算;然而,沃爾德檢驗(yàn)(相當(dāng)于廣義T檢驗(yàn))沒有考慮各種因素的綜合影響,當(dāng)因素共線時(shí),其結(jié)果不如另外兩個(gè)因素可靠。擬合模型的假設(shè)檢驗(yàn):變量篩選。一名工作人員收集了一組接受根治性腎切除術(shù)的患者的腎細(xì)胞癌標(biāo)本數(shù)據(jù),以研究與腎細(xì)胞癌轉(zhuǎn)移相關(guān)的臨床病理因素,現(xiàn)從中選出26例病例。邏輯回歸分析用于篩選與癌細(xì)胞轉(zhuǎn)移相關(guān)的危險(xiǎn)因素(可變包含和排除水平均為0.10)。模型用逐步回歸法擬合,變量選擇和剔除水平為0.10。選項(xiàng)“des”被指定為根據(jù)y=1的概率(帶轉(zhuǎn)移)

8、來擬合模型。如果不添加該選項(xiàng),軟件將根據(jù)y=0的概率(無轉(zhuǎn)換)來擬合模型。此時(shí),因變量的排序級(jí)別被顛倒,所有參數(shù)的符號(hào)都是相反的,或者值是原始的倒數(shù)。Logistic逐步回歸分析篩選出兩個(gè)具有統(tǒng)計(jì)學(xué)意義的變量,x2和x4,回歸系數(shù)分別為2.4134和2.0963,優(yōu)勢(shì)比為11.172和8.136。結(jié)果中還給出了標(biāo)準(zhǔn)化偏回歸系數(shù)。腎細(xì)胞癌的核組織學(xué)分級(jí)(x4)比腎細(xì)胞癌的血管內(nèi)皮生長(zhǎng)因子(x2)更易引起癌細(xì)胞轉(zhuǎn)移。條件邏輯回歸,匹配/匹配調(diào)查數(shù)據(jù)應(yīng)通過條件邏輯回歸進(jìn)行分析。對(duì)于匹配數(shù)據(jù),ith匹配組可以建立一個(gè)邏輯回歸:假設(shè)自變量對(duì)每個(gè)匹配組的結(jié)果變量有相同的影響,即自變量的回歸系數(shù)與匹配組無關(guān)

9、。匹配設(shè)計(jì)的邏輯回歸模型不包含常項(xiàng)??梢钥闯觯@種回歸模型與無條件邏輯回歸模型非常相似,只是這里的參數(shù)估計(jì)是基于條件概率的,所以稱為條件邏輯回歸模型。條件Logistic回歸的回歸系數(shù)檢驗(yàn)與分析適用數(shù)據(jù):前瞻性研究設(shè)計(jì)、病例對(duì)照研究設(shè)計(jì)和橫斷面研究設(shè)計(jì)的數(shù)據(jù)。三類研究計(jì)算的邏輯回歸模型具有相同的意義。只有常數(shù)項(xiàng)不同。(省略證明),邏輯回歸的應(yīng)用,2。校正混雜因素,在臨床研究和療效評(píng)價(jià)中評(píng)價(jià)療效,組間某些因素構(gòu)成不一致,干擾療效分析,可以控制不合理因素,正確評(píng)價(jià)療效。3.預(yù)測(cè)和辨別個(gè)體在某些因素存在的情況下發(fā)生事件(疾病)的概率,為進(jìn)一步治療提供依據(jù)。問題3,就像邏輯回歸一樣,概率單位分析依賴于

10、將二元因變量的回歸轉(zhuǎn)化為連續(xù)因變量的回歸。給定經(jīng)歷一個(gè)事件或具有某些特征的概率,預(yù)測(cè)概率單位成為由一個(gè)或多個(gè)自變量確定的線性方程的因變量:z表示通過使用累積標(biāo)準(zhǔn)正態(tài)分布將概率非線性轉(zhuǎn)換為z分?jǐn)?shù)。通過使用線性方程來預(yù)測(cè)Z分?jǐn)?shù),概率單位分析暗示了與概率的非線性關(guān)系。與曲線的極限相比,因變量在接近曲線中點(diǎn)時(shí)對(duì)概率的影響更大。在邏輯回歸中,我們可以用簡(jiǎn)單的公式來概括從概率到對(duì)數(shù)和從對(duì)數(shù)到概率的轉(zhuǎn)換。對(duì)于概率單位分析,標(biāo)準(zhǔn)正態(tài)分布曲線的復(fù)雜公式使其更加困難(盡管它可以很容易地通過計(jì)算機(jī)獲得)。除了在logit和probit之間的轉(zhuǎn)換中的一些相似之處,這兩個(gè)系數(shù)之間有一個(gè)隨機(jī)常數(shù)(大約1.8)的差異。(軟

11、件程序中的概率單位分析將誤差項(xiàng)的標(biāo)準(zhǔn)偏差設(shè)置為1,而邏輯分析將誤差項(xiàng)的標(biāo)準(zhǔn)偏差設(shè)置為1.814)邏輯系數(shù)大約是概率單位系數(shù)的1.8倍,將邏輯系數(shù)除以該值可以使它們的單位具有可比性。然而,由于邏輯曲線和正態(tài)曲線不同,邏輯系數(shù)和概率單位系數(shù)仍然略有不同。但是基本上,邏輯分析和概率單位分析的結(jié)果在本質(zhì)上是相似的。像邏輯回歸一樣,概率單位分析也使用最大似然估計(jì)來估計(jì)參數(shù),并且估計(jì)過程與邏輯回歸完全相同。然而,與邏輯回歸不同,這里使用的是累積標(biāo)準(zhǔn)正態(tài)分布,因此因變量的P值不能從自變量和估計(jì)參數(shù)中獲得。為了使計(jì)算更簡(jiǎn)單,程序是最大化似然數(shù)的自然對(duì)數(shù),而不是最大化似然函數(shù)。系數(shù)的意義以及整個(gè)模型的評(píng)價(jià)和檢驗(yàn)

12、與邏輯回歸相似。probit分析和logistic回歸只是因變量的不同轉(zhuǎn)換方式以及由此產(chǎn)生的微小差異。邏輯回歸(因變量是二元/二項(xiàng)式分布)概率單位回歸泊松(因變量是泊松分布),第3章:橫截面數(shù)據(jù):因變量是分類變量且因變量是頻率(計(jì)數(shù))變量的情況,概念,泊松回歸:用于模擬技術(shù)數(shù)據(jù)和列聯(lián)表的回歸分析。泊松回歸假設(shè)反應(yīng)變量Y是泊松分布,其期望值的對(duì)數(shù)可以通過未知參數(shù)的線性組合來建模。泊松回歸模型有時(shí)被稱為對(duì)數(shù)線性模型(特別是當(dāng)用作列聯(lián)表模型時(shí))。分類數(shù)據(jù)顯示離散計(jì)數(shù),服從泊松分布。因變量Y服從泊松分布。期望值是(泊松分布變量的方差也是)。如果有一個(gè)解釋變量X,可以寫成下面的回歸模型:G是一個(gè)連接函數(shù)

13、,通常取對(duì)數(shù)函數(shù),所以對(duì)數(shù)線性模型可以寫成:泊松回歸模型是描述目標(biāo)變量Y服從泊松分布的均值和協(xié)變量之間關(guān)系的回歸模型。對(duì)數(shù)線性模型的解釋變量xi增加了一個(gè)單位。單位速率模型可以寫成N,稱為偏移,對(duì)數(shù)(N)用作偏移。當(dāng)所有協(xié)變量都沒有影響時(shí),它等于模型在泊松分布下的似然函數(shù)。對(duì)于低發(fā)病率(疾病)的開放隊(duì)列研究數(shù)據(jù),概率函數(shù)如下:其中di是隨機(jī)變量,其理想值回歸模型的似然函數(shù)是泊松分布條件下每個(gè)格概率函數(shù)的總概率(乘積)。L()=,參數(shù)估計(jì),取兩邊對(duì)數(shù),回歸模型的對(duì)數(shù)似然函數(shù)為: lnL()=,對(duì)數(shù)似然函數(shù)中的未知參數(shù)可用迭代加權(quán)最小二乘法(簡(jiǎn)稱IRLS法)估計(jì),這與通常的最大似然估計(jì)結(jié)果一致。最

14、大似然估計(jì)方法也可以用來檢驗(yàn)?zāi)P蛿M合度和參數(shù)的偏差統(tǒng)計(jì)量。泊松回歸模型的擬合質(zhì)量用離差統(tǒng)計(jì)量來表示,離差統(tǒng)計(jì)量實(shí)際上是對(duì)數(shù)似然比統(tǒng)計(jì)量,是飽和模型和擬合模型之差的兩倍。它在泊松分布條件下的計(jì)算公式是:參數(shù)檢驗(yàn),參數(shù)檢驗(yàn)可以通過偏差統(tǒng)計(jì)量G2的差值(G2)和兩個(gè)不同參數(shù)個(gè)數(shù)模型的自由度的差值(df)來實(shí)現(xiàn)。當(dāng)G2為P0.05時(shí),該參數(shù)(因子)具有統(tǒng)計(jì)學(xué)意義。G2,泊松回歸(Genmod過程),Genmod過程:廣義線性模型通過參數(shù)向量的最大似然估計(jì)進(jìn)行擬合,參數(shù)值通過迭代擬合過程進(jìn)行估計(jì)。GENMOD過程用于廣義線性模型分析。廣義線性模型是傳統(tǒng)線性模型的擴(kuò)展。其總體均值通過非線性連接函數(shù)依賴于線性預(yù)測(cè)值,反應(yīng)變量(誤差項(xiàng))的概率分布是指數(shù)分布族的任意成員。許多廣泛使用的統(tǒng)計(jì)模型是廣義線性模型,包括具有正態(tài)誤差的經(jīng)典線性模型、邏輯回歸模型、概率單位模型和對(duì)數(shù)線性模型。例如:英國(guó)男醫(yī)生冠心病死亡與吸煙關(guān)系的研究數(shù)據(jù),請(qǐng)推斷冠心病死亡是否與吸煙和年齡有關(guān),程序示例2:proc genmod;模型死亡=年齡煙霧/距離=泊松鏈接=對(duì)數(shù)偏移=

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論