版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
利用SPSS進行Logistic歸分析第8章利用SPSS進行Logistic回歸分析現(xiàn)實中的很多現(xiàn)象可以劃分為兩種可能,或者歸結(jié)為兩種狀態(tài),這兩種狀態(tài)分別用0和1表示。如果我們采用多個因素對0-1表示的某種現(xiàn)象進行因果關系解釋,就可能應用到logistic回歸。Logistic回歸分為二值logistic回歸和多值logistic回歸兩類。首先用實例講述二值logistic回歸,然后進一步說明多值logistic回歸。在閱讀這部分內(nèi)容之前,最好先看看有關SPSS軟件操作技術的教科書?!?.1二值logistic回歸8.1.1數(shù)據(jù)準備和選項設置我們研究2005年影響中國各地區(qū)城市化水平的經(jīng)濟地理因素。城市化水平用城鎮(zhèn)人口比重表征,影響因素包括人均GDP、第二產(chǎn)業(yè)產(chǎn)值比重、第三產(chǎn)業(yè)產(chǎn)值比重以及地理位置。地理位置為名義變量,中國各地區(qū)被分別劃分到三大地帶:東部地帶、中部地帶和西部地帶。我們用各地區(qū)的地帶分類代表地理位置。第一步:整理原始數(shù)據(jù)。這些數(shù)據(jù)不妨錄入Excel中。數(shù)據(jù)整理內(nèi)容包括兩個方面:一是對各地區(qū)按照三大地帶的分類結(jié)果賦值,用0、1表示,二是將城鎮(zhèn)人口比重轉(zhuǎn)換邏輯值,變量名稱為“城市化”。以各地區(qū)2005年城鎮(zhèn)人口比重的平均值45.41%為臨界值,凡是城鎮(zhèn)人口比重大于等于45.41%的地區(qū),邏輯值用Yes表示,否則用N。表示(圖8-1-1)。圖8-1-1原始數(shù)據(jù)(Excel中,局部)將數(shù)據(jù)拷貝或者導入SPSS的數(shù)據(jù)窗口(DataView)中(圖8-1-2)。圖8-1-2中國31個地區(qū)的數(shù)據(jù)(SPSS中,局部)第二步:打開〃聚類分析〃對話框。沿著主菜單的“Analyze—Regression—BinaryLogisticK"的路徑(圖8-1-3)打開二值Logistic回歸分析選項框(圖8-1-4)。圖8-1-3打開二值Logistic回歸分析對話框的路徑對數(shù)據(jù)進行多次擬合試驗,結(jié)果表明,像二產(chǎn)比重、三產(chǎn)比重等對城市化水平影響不顯著。至于反映地區(qū)位置的分類變量,不宜一次性的全部引入,至多引入兩個,比方說東部和中部。通過嘗試,發(fā)現(xiàn)引入中部地帶為變量比較合適。因此,為了實例的典型性,我們采用兩個變量作為自變量:一是數(shù)值變量人均GDP,二是分類變量中部地帶。圖8-1-4Logistic回歸分析選項框第三步:選項設置。首先,在源變量框中選中需要進行分析的變量,點擊右邊的箭頭符號,將需要的變量調(diào)入Dependent(因變量)和Covariates(協(xié)變量)列表框中(圖8-1-5)。在本例中,將名義變量“城市化”調(diào)入Dependent(因變量)列表框,將“人均GDP”和“中部"調(diào)入Covariates(協(xié)變量)列表框中。在Method(方法)一欄有七個選項。采用第一種方法,即系統(tǒng)默認的強迫回歸方法(Enter)。圖8-1-5Logistic回歸分析的初步設置接下來進行如下4項設置:設置Categorical(分類)選項:定義分類變量(圖8-1-6)。將中部調(diào)入CategoricalCovariates(分類協(xié)變量)列表框,其余選項取默認值即可。完成后,點擊Continue繼續(xù)。圖8-1-6定義分類變量選項設置Save(保存)選項:決定保存到DataView的計算結(jié)果(圖8-1-7)。選中Leveragevalues、DfBeta(s)、Standardized和Deviance四項。完成后,點擊Continue繼續(xù)。圖8-1-7Logistic回歸分析的存儲選項設置Options:有三個選項區(qū)(圖8-1-5)。第一^個是StatisticsandPlots(統(tǒng)計和畫圖)選項,包括六種可以兼容的選擇(復選項)。選中Classificationplots、Hosmer-Lemeshowgoodness-of-fit和CIforexp(B)三個選項。第二個是Display(顯示)選項,選擇Atlaststep(最后一步),這樣,輸出結(jié)果將僅僅給出最終結(jié)果,而省略每一步的計算過程。由于我們采用強迫回歸,ProbabilityforStepwise(逐步回歸概率)選項可以不管。圖8-1-9樣品處理摘要DependentVariableEncoding(因變量編碼)。這是很重要的信息,告訴我們對不同城市化水平地區(qū)的分類編碼結(jié)果(圖8-110)。我們開始根據(jù)全國各地區(qū)的平均結(jié)果45.41分為兩類:大于等于45.41的地區(qū)用Yes表示,否則用No表示。現(xiàn)在,圖8-1-10顯示,Yes用0表示,No用1表示。也就是說,在這次SPSS分析過程中,0代表城市化水平高于平均值的狀態(tài),1代表城市化水平低于平均值的狀態(tài)。記住這個分類。圖8-1-10因變量編碼CategoricalVariablesCodings(分類變量編碼)。我們的自變量中涉及到代表不同地域類型的名義變量(圖8-1-11)。在我們開始的分類中,屬于中部用1表示,否則用0表示。但是,SPSS改變了這種編碼,原來的0改用1表示,原來的1改用0表示。也就是說,在這次SPSS分析過程中,0代表屬于中部的地區(qū),1代表不屬于中部的地區(qū)。記住這個分類對后面開展預測分析非常重要。圖8-1-11分類變量編碼ClassificationTable(初始分類表)。Logistic建模如同其他很多種建模方式一樣,首先對模型參數(shù)賦予初始值,然后借助迭代計算尋找最佳值。以誤差最小為原則,或者以最大似然為原則,促使迭代過程收斂。當參數(shù)收斂到穩(wěn)定值之后,就給出了我們需要的比較理想的參數(shù)值。下面是用初始值給出的預測和分類結(jié)果(圖8-1-12)。這個結(jié)果主要用于對比,比較模型參數(shù)收斂前后的效果。圖8-1-12初始預測分類表VariableintheEquation(初始方程中的變量)。從這個表中可以看到系統(tǒng)對模型的最初賦值方式(圖8-1-13)。最開始僅僅對常數(shù)項賦值,結(jié)果為B=0.598(復制到Excel可以看來,更精確的數(shù)值為0.597837),標準誤差為S.E.=0.375(復制^"Excel可以看來,更精確的數(shù)值為0.375379),于是Wald值為B??0.597837?Wald=??=??=2.536.SE..0.375379后面的df為自由度,即df=1;Sig.為P值,Sig.=0.111。注意Sig.值越彳氐越好,一般要求小于0.05。當然,對于Sig.值,我們關注的是最終模型的顯示結(jié)果。Exp(E)是B還原之后數(shù)值,顯然22Exp(B)=eB=e0.597837=1.818.在Excel里,利用指數(shù)函數(shù)exp很容易對B值進行還原。圖8-1-13初始方程中的變量6.VariablenotintheEquation(不在初始方程中的變量)。人均GDP和代表地理位置的中部地帶的系數(shù)初始值設為0,這相當于,在初始模型中不考慮這兩個變量(圖8-1-14)。表中給出了Score檢驗值及其對應的自由度df和P值,即Sig.值。Score檢驗是一種初始檢驗,在建模之初根據(jù)變量之間的結(jié)構關系判斷自變量與因變量之間的密切程度。Score檢驗值的計算公式為[Scorej二Ix(yii=1nni]2.i1?I(xi=1因變量為0、1值,根據(jù)圖8-1-10所示的編碼原則,令所有的Yes為0,所有的No為1,容易算出(1?)=0.645161(1?0.645161)=0.228928.人均GDP已知,中部的編碼法則已知,于是不難算出2(GDP?GDP)°ii=131312二3595636978.103,'仲部i=131i中部)2=6.387097,[、GDP(yii=1i)]2=12747397078.835,['中部(yii=131i]2=0.037461.將上面的結(jié)果代入Score檢驗值計算公式,立即得到ScoreGDP=15.486,Score中部=0.026.可以看到,人均GDP的Score檢驗值滿足一般的要求,而中部地帶這個變量的數(shù)值偏低。圖8-1-14不在初始方程中的變量7.OmnibusTestsofModelCoefficients(模型系數(shù)的混合檢驗)。主要是針對步驟、模塊和模型開展模型系數(shù)的綜合性檢驗(圖8-1-15)。表中給出卡方值及其相應的自由度、P值即Sig.值。取顯著性水平0.05,考慮到自由度數(shù)目df=2,在Excel中的任意單元格輸入公式〃二CHIINV(0.05,2)”,回車,就可以查出卡方臨界值5.991。我們計算的卡方值31.187,大于臨界值,并且相應的Sig.值小于0.05,因此在顯著性水平為0.05的情況下,這些檢驗都不成問題。圖8-1-15模型系數(shù)的綜合檢驗圖8-1-15分類數(shù)目統(tǒng)計8.ModelSummary(模型摘要)。模型摘要中給出最大似然平方的對數(shù)、Cox-Snell擬合優(yōu)度以及Nagelkerke擬合優(yōu)度值(圖8-1-16a)。最大似然平方的對數(shù)值(-2loglikelihood=9.137)用于檢驗模型的整體性擬合效果,該值在理論上服從卡方分布,上面給出的卡方臨界值5.991,因此,最大似然對數(shù)值檢驗通過。a以人均GDP和中部為自變量的回歸模型摘要b以常數(shù)項(數(shù)值為1)為自變量的回歸模型摘要圖8-1-16數(shù)據(jù)窗口的輸出結(jié)果為了便于理解,有必要解釋一下Cox-Snell擬合優(yōu)度以及Nagelkerke擬合優(yōu)度值與最大似然平方對數(shù)值的關系。為此,我們需要開展一次特殊的logistic回歸。在圖8-1-5所示的選項中,從協(xié)變量(covariates)列表框中剔除人均GDP和中部兩個選項,選中并引入常數(shù)項——對應于常系數(shù)、所有數(shù)值均為1的變量(參加圖8-1-1)。以常數(shù)項為唯一的自變量,其他選項不變,開展logistic回歸,結(jié)果將會給出特別的模型摘要(圖8-1-16b),其-2loglikelihood=40.324為未引入任何真正自變量的最大似然對數(shù)平方值。然后,我們采用下式計算Cox-Snell擬合優(yōu)度2RCS=1?.S.OH司寸將。寸I告CNm尊cn9onN角著ou£(o)x0角u①o)_lu_CNSU角xeE角su角N角7R宿。M右-si虧us—xouHh洲耍-?真WMOW云M*eNHh煙CNm等cn9.0sigiwwon1%(寸保.。寸;咨.6Isu~CN汩M唳如.(DUCNO)X崗sxICDus)_luk§_l因此,校正后的模型擬合優(yōu)度可以視為0.872。HosmerandLemeshowTes(Hosmer和Lemeshow檢驗)。似然比函數(shù)的自然對數(shù)值對樣品數(shù)目很敏感,作為補充和參照,我們需要Hosmer-Lemeshow檢驗(圖8-1-17)。該檢驗依然以卡方分布為標準,但檢驗的方向與常規(guī)檢驗不同:我們要求其卡方值低于臨界值而不是高于臨界值。取顯著性水平0.05,考慮到自由度數(shù)目df=8,在Excel中的任意單元格輸入函數(shù)〃二CHIINV(0.05,8)”,回車,理解得到卡方臨界值15.507。作為Hosmer-Lemeshow檢驗的卡方值4.730<15.507,檢驗通過。后面的Sig.值0.786大于0.05,據(jù)此也可以判知Hosmer-Lemeshow檢驗可以通過。圖8-1-17Hosmer-Lemeshow檢驗ContingencyTableforHosmerandLemeshowTes(對應于Hosmer-Lemeshow檢驗的列聯(lián)表)。因變量有兩類數(shù)值,即0和1。在正常情況下,我們要求觀測值(observed)與期望值(expected)逐漸趨于接近(圖8-1-18)。我們的計算結(jié)果表明,相應于〃城市化二Yes”,期望值逐漸減少到0,與觀測值趨于接近;相應于〃城市化二No”,期望值逐漸增加到4,與觀測值也趨于接近。這種結(jié)果是比較理想的,否則,模型的Hosmer-Lemeshow檢驗就不太理想,從而模型的整體擬合效果不是很好。圖8-1-18對應于Hosmer-Lemeshow檢驗的列聯(lián)表ClassificationTable(最終預測分類表)。經(jīng)過迭代運算,模型參數(shù)逐漸收斂到穩(wěn)定值,于是我們得到最終模型參數(shù)。利用最終的logistic模型,可以對因變量進行預測,預測結(jié)果分類列入下表(圖8-1-19)??梢钥闯?,觀測值Yes有11個(Yes=0),相應的預測值全部是Yes=0,預測正確率為11/11*100%=100%;觀測值No有20個(No=1),相應的預測值有19個No=1,-個Yes=0,也就是說,預測失敗1例,預測正確率為19/(1+19)*100%=95%??偟念A測正確率為11+1930預測正確率=*100%=*100%=96.8%.11+0+1+1931全部31個樣品有30個預測正確,一個預測失敗,模型效果良好。p(y)=得到1,?z1+e11+e?(16.364888+6.917073*中部-0.001251*人均GDP).1=1+0.00000007813e?16.364888*中部+0.001251*人均GDP有了上面的式子,就可以對因變量的發(fā)生概率進行預測。需要再次強調(diào)的是,對于名義變量中部,我們用1代表〃是”,0代表“非”,而SPSS改為0代表“是”,1代表“非”。對于因變量城市人口比重,我們用Yes代表1(城市化水平高于平均值),用No代表0(城市化水平低于平均值),而SPSS改為相反的表示。明確了SPSS的重新編碼過程及其含義,就可以檢驗上述模型的預測效果。首先,在Excel中,將因變量中的名義變量轉(zhuǎn)換為0、1數(shù)值。根據(jù)SPSS的編碼原則(圖8-1-10),所有的Yes表示為0,所有的No表示為1。一個快捷的處理方式是利用if函數(shù)。在與因變量并列的第二個單元格中,即H2中,輸入函數(shù)“二IF(G2="Yes",0,1)”,回車立即得到0;將鼠標指向H2單元格的右下角,待其變成細小黑十字,雙擊或者下拉,得到全部轉(zhuǎn)換結(jié)果(圖8-1-21)。p(y)二圖8-1-21用于預測的數(shù)據(jù)的整理與轉(zhuǎn)換結(jié)果(部分)數(shù)據(jù)整理完成以后,將圖8-1-20所示的表格從SPSS中復制到Excel中,放在將要開展預
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《GB-T 39003.1-2020工業(yè)自動化系統(tǒng)工程用工程數(shù)據(jù)交換格式 自動化標識語言 第1部分:架構和通 用要求》專題研究報告
- 《GB-T 11322.1-2013射頻電纜 第0部分:詳細規(guī)范設計指南 第1篇 同軸電纜》專題研究報告
- 《GB-T 31181-2014假肢 踝足裝置和足部組件 要求和試驗方法》專題研究報告
- 《GB-T 38842-2020實 用超導線的分類和檢測方法 一般特性和指南》專題研究報告
- 《GBT 34475-2017 尿素級奧氏體不銹鋼棒》專題研究報告
- 《GB-T 7268-2015電力系統(tǒng)保護及其自動化裝置用插箱及插件面板基本尺寸系列》專題研究報告
- Tiamo-basical-method-1參考資料說明
- 《幼兒文學》課件-6.2幼兒圖畫故事特點
- 種子行業(yè)種子銷售經(jīng)理崗位招聘考試試卷及答案
- 2026年消防安全工作計劃(2篇)
- 學堂在線 雨課堂 文物精與文化中國 期末考試答案
- 關于印發(fā)《2026年度安全生產(chǎn)工作計劃》的通知
- 寬容和感恩的培訓
- 廣東省汕頭市金平區(qū)2024-2025學年七年級上學期期末考試數(shù)學試題
- 過敏性休克的搶救流程
- 常用機床電氣檢修課件 課題十一 T612 型臥式鏜床電氣檢修
- 全國人大機關直屬事業(yè)單位2026年度公開招聘工作人員考試模擬卷帶答案解析
- 云肩非遺模板
- 頭頸部腫瘤介紹
- 安全監(jiān)理工作總程序
- 2026年中國宏觀經(jīng)濟展望分析報告:底部夯實亮點引領未來方向
評論
0/150
提交評論