復雜抽樣調(diào)查設(shè)計多值有序資料一水平多重Logistic回歸分析_第1頁
復雜抽樣調(diào)查設(shè)計多值有序資料一水平多重Logistic回歸分析_第2頁
復雜抽樣調(diào)查設(shè)計多值有序資料一水平多重Logistic回歸分析_第3頁
復雜抽樣調(diào)查設(shè)計多值有序資料一水平多重Logistic回歸分析_第4頁
復雜抽樣調(diào)查設(shè)計多值有序資料一水平多重Logistic回歸分析_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

復雜抽樣調(diào)查設(shè)計多值有序資料一水平多重Logistic回歸分王慧;李長平;胡良平【期刊名稱】《《四川精神衛(wèi)生》》【年(卷),期】2019(032)005【總頁數(shù)】6頁(P400-405)【關(guān)鍵詞】復雜抽樣設(shè)計;多值有序資料;Logistic回歸分析;抽樣權(quán)重【作者】王慧;李長平;胡良平【作者單位】天津醫(yī)科大學公共衛(wèi)生學院衛(wèi)生統(tǒng)計學教研室天津300070;世界中醫(yī)藥學會聯(lián)合會臨床科研統(tǒng)計學專業(yè)委員會北京100029;軍事科學院研究生院北京100850【正文語種】中文【中圖分類】R195.1調(diào)查資料,尤其是臨床科研或試驗資料,結(jié)果變量常為〃療效”(死亡、無效、好轉(zhuǎn)、顯效、治愈)或〃效果”(優(yōu)、良、中、差),此類資料被稱為多值有序資料[1]。在獲取此類資料的調(diào)查研究中,為提高樣本對總體的代表性和估計的可靠性,研究者常將分層抽樣、整群抽樣、簡單隨機抽樣組合使用,這種調(diào)查被稱為復雜抽樣調(diào)查設(shè)計。然而,在對復雜抽樣數(shù)據(jù)進行回歸分析時,研究者常常忽略此前采取的抽樣設(shè)計方法。在不同的抽樣階段下,每個個體所對應(yīng)的抽樣概率不同,抽樣權(quán)重也就不同,因此,抽樣誤差估計極為復雜。孫日揚等[2]認為,在復雜抽樣調(diào)查研究的分析中應(yīng)考慮抽樣權(quán)重和觀測權(quán)重,同時提出了綜合權(quán)重的概念。在多重線性回歸分析中納入綜合權(quán)重的分析結(jié)果更加準確、穩(wěn)健。本研究通過不同的分析策略對復雜抽樣調(diào)查設(shè)計多值有序資料進行多重logistic回歸分析,并探討各種分析方法之間的異同。1累積多重logistic回歸模型的構(gòu)建與求解1.1累積logistic回歸模型結(jié)果變量為多值有序變量的logistic回歸模型又被稱為累積logistic回歸模型,它是二值變量logistic回歸模型的擴展[3],其回歸模型見式(1):其中y*表示觀測現(xiàn)象的內(nèi)在趨勢,不能被直接測量;xk(k=1,2,…,p)為p個自變量,£為誤差項。當結(jié)果變量有J個可能的結(jié)局時,相應(yīng)的取值為y=1、y=2y=J,即共有J-1個分界點將各相鄰類別分開,即:若y*卻1,則y=1;若M1<y*<p2,則y=2;...;若y*部J-1,則y=J。給定x值的累積概率可以按式(2)表示。其中1-P(y<j|x)即為P(y>j|x),這樣就依次將J個可能的結(jié)局合并成兩個,從而進行一般的多重logistic回歸模型分析。相應(yīng)地,累積概率可通過式(3)進行預(yù)測:SAS軟件在實際運行中,定義阿為各類中截距a與分界點pj的綜合,所以上式就轉(zhuǎn)化為式(4):其參數(shù)估計采用最大似然法求解,其對數(shù)似然方程見式(5):對式(5)的求解需要用到非線性迭代算法,一般需要借助統(tǒng)計軟件來實現(xiàn),此處從略。由以上討論可知,如果結(jié)果變量中有J個可能的結(jié)局,則可獲得J-1個累積logit函數(shù)(當進行統(tǒng)計分析時,若有m個截距項p0j無統(tǒng)計學意義,則只能獲得J-m-1個累積logit函數(shù))。累積logistic回歸模型應(yīng)用的假設(shè)條件是比例優(yōu)勢假定,其含義是自變量的作用與所有累積logit的截斷點無關(guān),即對于任意一個自變量xk而言,所有的累積logit都有一組相同的參數(shù)估計值,只是截距參數(shù)有所差別。若不滿足比例優(yōu)勢假定條件時,Bender等[4]建議可以考慮兩種方法,一是采用獨立的二分類模型,二是采用偏比例優(yōu)勢模型。1.2復雜抽樣的多值有序logistic回歸模型復雜抽樣多值有序資料的logistic回歸模型的構(gòu)建、求解的思路和方法與單純隨機抽樣設(shè)計資料的累積logistic回歸模型基本相同,主要差別在于:復雜抽樣的多值有序logistic回歸模型考慮到了與特定抽樣設(shè)計條件下對應(yīng)的〃抽樣權(quán)重”[3]。其參數(shù)估計求解于下面的對數(shù)似然方程組,見式(6):這種結(jié)合了抽樣權(quán)重的似然估計通常被稱為加權(quán)的最大似然估計或偽似然估計。2基于SAS的實例分析2.1問題與數(shù)據(jù)本研究所使用數(shù)據(jù)為美國衛(wèi)生與公眾服務(wù)部開展的醫(yī)療支出調(diào)查(MedicalExpenditurePanelSurvey,MEPS),用于對醫(yī)療保健的各個方面進行全國性和地區(qū)性的評估。MEPS采用分層整群抽樣,抽樣權(quán)重會根據(jù)無響應(yīng)情況進行調(diào)整,并根據(jù)當前人口調(diào)查的人口控制總量進行調(diào)整。在本例中,使用歐洲議會議員提供的1999年全年綜合數(shù)據(jù)來研究家庭收入與性別和種族的關(guān)系。樣本量為24618,分層數(shù)為143,群集數(shù)為460。數(shù)據(jù)存儲于SAS數(shù)據(jù)集MEPS。本例中變量命名及賦值見表1,分析所用示例數(shù)據(jù)見表2。表1MEPS數(shù)據(jù)集變量命名及賦值變量分層變量群變量被觀測者識別號性別人種家庭收入抽樣權(quán)重變量命名stratumclusterIDsexraceincomeweight賦值共143層共460個群-1=男性,2=女性1=其他人種,2=白種人1=貧窮,2=接近貧窮,3=低收入,4=中等收入,5=高收入-表21999年美國家庭收入情況及影響因素數(shù)據(jù)(基于MEPS數(shù)據(jù)集)stratum131131131...78686894cluster222...10111ID123...24614246152461624618sex121.2122race222.2222income444.5441weight14137.8617050.9935737.55.13224.2916793.4713627.6111660.132.2分析策略2.2.1將復雜調(diào)查設(shè)計資料視為〃單純隨機抽樣設(shè)計資料”2.2.1.1,入,程序需要調(diào)用LOGISTIC過程來實現(xiàn)單純隨機抽樣資料的累積logistic回歸?!菊f明】“descending”選項要求對響應(yīng)變量表中具有較低(1=貧窮)有序值的響應(yīng)進行建模,class語句指定分類變量sex和race;model語句中響應(yīng)變量為income,解釋變量(即自變量)為sex和race。在此段SAS過程步程序之前,應(yīng)基于表2資料創(chuàng)建臨時SAS數(shù)據(jù)集meps,此段SAS數(shù)據(jù)步程序省略了。2.2.1.2主要輸出結(jié)果及解釋在形式上,累積logistic回歸模型分析的結(jié)果大致可分為模型基本信息、比例優(yōu)勢假定檢驗結(jié)果、模型擬合信息以及參數(shù)估計結(jié)果四部分。因篇幅所限,只給出參數(shù)估計結(jié)果;比例優(yōu)勢假定檢驗結(jié)果顯示,x2=7.4931,P=0.2766,不拒絕〃比例優(yōu)勢假設(shè)”的條件,即滿足比例優(yōu)勢假定,可采用累積logistic回歸模型。擬合的累積logistic模型給出4個截距項以及sex和race的兩個自變量的參數(shù)估計值,結(jié)果顯示,性別和人種對家庭收入的影響均有統(tǒng)計學意義。女性貧窮的風險是男性的1.189倍;白種人貧窮的風險比其他人種低43.7%(=1-0.563)。2.2.2考慮抽樣設(shè)計但不考慮抽樣權(quán)重2.2.2.1,入,程序需要調(diào)用surveylogistic過程來實現(xiàn)復雜隨機抽樣多值有序資料的累積logistic回歸模型分析:【說明】由于研究數(shù)據(jù)屬于分層整群隨機抽樣調(diào)查資料,故在strata語句中指定分層變量為stratum,cluster語句中指定群集變量為cluster。2.2.2.2主要輸出結(jié)果及解釋復雜抽樣logistic回歸主要結(jié)果大致可以分為三部分。第一部分是模型的基本信息,可以看到指定的分層變量和群集,擬合的是累積logistic回歸模型;在響應(yīng)概略表中可以看到因變量income順序為5、4、3、2、1以及各響應(yīng)水平的總頻數(shù)。第二部分模型檢驗結(jié)果均顯示整體模型具有統(tǒng)計學意義(P均v0.01)。參數(shù)估計結(jié)果顯示性別和人種對家庭收入的影響均具有統(tǒng)計學意義。女性貧窮的風險是男性的1.189倍;白種人貧窮的風險比其他人種低43.7%(=1-0.563)。2.2.3考慮抽樣權(quán)重,不考慮抽樣設(shè)計2.2.3.1,入,程序需要調(diào)用surveylogistic過程來實現(xiàn)復雜隨機抽樣多值有序資料的累積logistic回歸模型分析:【說明】加入weight語句,指定權(quán)重變量weight。2.2.3.2主要輸出結(jié)果及解釋與前文〃模型信息”相同的部分此處從略。指定的權(quán)重變量在前文2.2.2.2的基礎(chǔ)上增加的各響應(yīng)水平的總權(quán)重。模型檢驗結(jié)果均顯示整體模型具有統(tǒng)計學意義(P均v0.01)。結(jié)果顯示女性貧窮的風險是男性的1.212倍;白種人貧窮的風險比其他人種低53.5%(=1-0.465)。2.2.4同時考慮抽樣設(shè)計和抽樣權(quán)重2.2.4.1,入,程序需調(diào)用SURVEYLOGISTIC過程來實現(xiàn)復雜隨機抽樣多值有序資料的累積logistic回歸模型分析:【說明】在第“2.2.3.1SAS程序節(jié)”的基礎(chǔ)上,加入strata語句指定分層變量stratum,加入cluster語句指定群集變量cluster。2.2.4.2主要輸出結(jié)果及解釋與前文〃模型信息”相同的部分此處從略。模型的基本信息在〃第2.2.3.2主要輸出結(jié)果及解釋”的基礎(chǔ)上增加了關(guān)于分層的內(nèi)容。第二部分模型檢驗結(jié)果均顯示模型總體具有統(tǒng)計學意義(P均<0.01)。最后參數(shù)估計結(jié)果顯示,女性貧窮的風險是男性的1.212倍;白種人貧窮的風險比其他人種低53.5%(=1-0.465)。因此,最終建立的四個模型為:2.3不同分析策略的結(jié)果比較結(jié)合上述分析結(jié)果可以看出,考慮抽樣設(shè)計的累積logistic回歸模型與普通累積logistic回歸模型的結(jié)果相比,二者的參數(shù)估計值完全相同,但是sex的標準誤降低且OR值的置信區(qū)間縮窄,說明對分層整群抽樣資料進行分析時,若忽視分層信息,則會導致過于保守的檢驗(P值偏大),同時OR的置信區(qū)間也會變寬,容易出現(xiàn)假陽性結(jié)果;而race的標準誤和OR值的置信區(qū)間會增大,本研究認為主要是由于race在群內(nèi)存在相關(guān)性導致的。只考慮抽樣權(quán)重的累積logistic回歸模型與普通累積logistic回歸模型的結(jié)果相比,參數(shù)估計值和標準誤均發(fā)生了變化,sex的估計值和標準誤變化不大,而在考慮抽樣權(quán)重后race的參數(shù)估計值降低,標準誤和OR值的置信區(qū)間幾乎沒有變化,所以本研究認為對于存在群內(nèi)相關(guān)性的變量,在加入權(quán)重變量后,可在一定程度上校正這種群內(nèi)相關(guān)性導致的預(yù)測不穩(wěn)定。同時考慮抽樣設(shè)計和抽樣權(quán)重的累積logistic回歸模型與普通累積Logistic回歸模型的結(jié)果相比,自變量的參數(shù)估計值和標準誤均發(fā)生了變化,sex的估計值略高,而標準誤和置信區(qū)間變化不大;race不僅標準誤增大了,而且參數(shù)估計值也發(fā)生了變化,可能是因為race在群變量因素的各個水平中存在相關(guān)性,同時在該群變量水平的權(quán)重也很小,這也是為什么在考慮了抽樣權(quán)重后,其標準誤僅與考慮群變量的模型相比略有變化,因為它的影響很小。而同時考慮抽樣設(shè)計和抽樣權(quán)重的累積logistic回歸模型與只考慮抽樣權(quán)重的累積logistic回歸模型相比,sex的參數(shù)估計值不變,但其標準誤降低、OR值的置信區(qū)間變窄,說明在考慮抽樣權(quán)重的基礎(chǔ)上,納入抽樣設(shè)計的分析,會使分析結(jié)果更加準確和穩(wěn)健。3討論與小結(jié)3.1討論在社會科學或者衛(wèi)生領(lǐng)域的研究中,尤其是大規(guī)模研究,常涉及多地區(qū)或者多中心的抽樣,調(diào)查對象過于分散,若采用單純的隨機抽樣,會出現(xiàn)調(diào)查成本高、可行性低的情況[5],所以研究者經(jīng)常采用復雜抽樣設(shè)計,以提高調(diào)查的可行性,節(jié)約調(diào)查的成本支出[6]。但在實際進行復雜抽樣調(diào)查資料的統(tǒng)計分析時,多數(shù)研究者卻常常忽略抽樣設(shè)計,采用單純隨機抽樣的普通logistic回歸模型分析。例如本研究數(shù)據(jù)是采用動態(tài)權(quán)重法進行的分層整群隨機抽樣數(shù)據(jù),由于存在群變量,而有可能導致存在群內(nèi)的相關(guān)性,若采用普通的累積logistic回歸模型分析,會導致較大的假陽性錯誤;其次,由于普通的累積logistic回歸模型的應(yīng)用假設(shè)條件是所有樣本均來自簡單隨機抽樣,每一個個體被抽中的概率相同[7],所以不能將抽樣權(quán)重納入分析,也會造成信息的損失和結(jié)果的偏差。所以在對復雜抽樣資料進行統(tǒng)計分析與推斷時,將抽樣設(shè)計和抽樣權(quán)重正確納入分析,是分析者應(yīng)該重點關(guān)注的問題。本文采用SAS中的SURVEYLOGISTIC過程對復雜隨機抽樣調(diào)查資料進行累積logistic回歸模型分析,這是一種基于復雜抽樣調(diào)查設(shè)計的分析方法,可以結(jié)合抽樣設(shè)計(分層、整群隨機等)和抽樣權(quán)重進行分析,可以不依賴于模型的假定,充分利用抽樣權(quán)重、群效應(yīng)信息等,進一步提高估計結(jié)果的準確性和穩(wěn)定性[8]。考慮到本研究數(shù)據(jù)是分層整群抽樣資料,這類資料也可以通過多水平logistic回歸模型進行分析,因篇幅所限,此處從略。3.2小結(jié)本研究通過分層整群抽樣的實例數(shù)據(jù)進行了不同分析策略的復雜抽樣調(diào)查多值有序資料的多重logistic回歸分析,對分析結(jié)果給出了解釋,并進一步探討了不同分析策略結(jié)果之間的差異,結(jié)果表明:在對復雜抽樣資料進行統(tǒng)計分析時,將抽樣設(shè)計和抽樣權(quán)重納入分析,會得到更加準確和穩(wěn)定的分析結(jié)果。參考文獻【相關(guān)文獻】[1]胡良平.面向問題的統(tǒng)計學一一(2)多因素設(shè)計與線性模型分析[M].北京:人民衛(wèi)生出版社,2012:508-517.[2]孫日揚,胡良平.復雜隨機抽樣數(shù)據(jù)的多重線性回歸分析方法及其應(yīng)用[J].軍事醫(yī)學,2015,39(5):380-385.[3]SASInstituteInc.SAS/Stat9.4user'sguide[M].Cary,NC:SASInstituteInc,2016:5749-6006,9679-9682.[4]BenderR,BennerA.CalculatingordinalregressionmodelsinSASandS-Plus[J].BiomJ,2015,42(6):677-699.[5]OsborneJW.Bestpracticesinusinglarge,complexsamples:theimportanceofu

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論