版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
2023/2/6ncutstat1第八章定性數(shù)據(jù)的建模分析
目錄上頁下頁返回結(jié)束
§8.1對數(shù)線性模型基本理論和方法§8.2對數(shù)線性模型分析的上機實驗§8.3Logistic回歸基本理論和方法§8.4Logistic回歸的方法與步驟2023/2/6ncutstat2第八章定型數(shù)據(jù)的建模分析
目錄上頁下頁返回結(jié)束
第三章我們曾討論過定性數(shù)據(jù)的列聯(lián)表分析,對數(shù)線性模型是進一步用于離散型數(shù)據(jù)或整理成列聯(lián)表格式的數(shù)據(jù)的統(tǒng)計分析工具。它可以把方差分析和線性模型的一些方法應(yīng)用到對交叉列聯(lián)表的分析中,從而對定性變量間的關(guān)系作更進一步的描述和分析。2023/2/6ncutstat3列聯(lián)表分析無法系統(tǒng)地評價變量間的聯(lián)系,也無法估計變量間交互作用的大小,而對數(shù)線性模型是處理這些問題的最佳方法。當被解釋變量是非度量變量時,可以用判別分析。然而當被解釋變量只有兩組時,Logistic回歸由于多種原因更受歡迎。
首先,判別分析依賴于嚴格的多元正態(tài)性和相等協(xié)差陣的假設(shè),這在很多情況下是達不到的。Logistic回歸沒有類似的假設(shè),而且這些假設(shè)不滿足時,結(jié)果非常穩(wěn)定。2023/2/6ncutstat5§8.1對數(shù)線性模型基本理論和方法
目錄上頁下頁返回結(jié)束
本節(jié)將利用2×2維的交叉列聯(lián)表來說明對數(shù)線性模型的基本理論和方法,同時利用SPSS軟件對真實的經(jīng)濟定性數(shù)據(jù)作分析。從2×2維的交叉列聯(lián)表的概率表,介紹對數(shù)線性模型的基本理論和方法。2023/2/6ncutstat6§8.1對數(shù)線性模型基本理論和方法
目錄上頁下頁返回結(jié)束
2023/2/6ncutstat7§8.1對數(shù)線性模型基本理論和方法
目錄上頁下頁返回結(jié)束
對上面三式各取其平均數(shù)為:
該式的結(jié)構(gòu)與有交互效應(yīng),且各水平均為二的雙因素方差分析模型的結(jié)構(gòu)相似,因此模仿方差分析,可以有如下關(guān)系式:
2023/2/6ncutstat9§8.1對數(shù)線性模型基本理論和方法
目錄上頁下頁返回結(jié)束
(8.2)
2023/2/6ncutstat10§8.1對數(shù)線性模型基本理論和方法
目錄上頁下頁返回結(jié)束
2023/2/6ncutstat11§8.1對數(shù)線性模型基本理論和方法
目錄上頁下頁返回結(jié)束
在實際分析中,概率表中各項值,以交叉列聯(lián)表計算得的頻率表的對應(yīng)項為無偏估計值。公式表示為:2023/2/6ncutstat13§8.2對數(shù)線性模型分析的上機實踐
目錄上頁下頁返回結(jié)束
可以使用SPSS軟件來實現(xiàn)對數(shù)線性模型分析。這里舉一個例子是3×2維的交叉列聯(lián)表的分析。我們用SPSS軟件中的Loglinear模塊實現(xiàn)分析。【例8.1】某企業(yè)想了解顧客對其產(chǎn)品是否滿意,同時還想了解不同收入的人群對其產(chǎn)品的滿意程度是否相同。在隨機發(fā)放的1000份問卷中收回有效問卷792份,根據(jù)收入高低和滿意回答的交叉分組數(shù)據(jù)如表8-1:2023/2/6ncutstat14§8.2對數(shù)線性模型分析的上機實踐
目錄上頁下頁返回結(jié)束
表8.1.
滿意不滿意合計高533891中434108542低11148159合計5981947922023/2/6ncutstat15§8.2對數(shù)線性模型分析的上機實踐
目錄上頁下頁返回結(jié)束
首先要準備數(shù)據(jù),上面的交叉列連表的數(shù)據(jù)要輸入到spss的表格里去,具體應(yīng)當是入下:頻數(shù)收入情況滿意情況5311434211113138121082248322023/2/6ncutstat17§8.2對數(shù)線性模型分析的上機實踐
目錄上頁下頁返回結(jié)束
按上面的形勢輸入數(shù)據(jù)后,還不能馬上進行對數(shù)線性模型分析,必須先激活頻數(shù),即讓頻數(shù)有效。具體步驟是:使用SPSS軟件,從主菜單中,以Data→WeightCases...順序,打開WeightCases對話框,選中Weightcasesby單選框,從變量列表中選出“頻數(shù)”變量,點擊鈕,使之進入FrequencyVariable框,然后點擊OK鈕,回到數(shù)據(jù)表格,這時分析前的準備工作就完成了。這一步很重要,如果頻數(shù)沒有被激活,對數(shù)線性模型的模塊仍會執(zhí)行命令,但是得出的結(jié)果是錯誤的,所以使用時一定要小心。2023/2/6ncutstat18§8.2對數(shù)線性模型分析的上機實踐
目錄上頁下頁返回結(jié)束
數(shù)據(jù)準備工作完成后,就可以進行下一步的分析了。從主菜單中,按Analyze→Loglinear→ModelSelection...的流程可打開ModelSelectionLoglinearAnalysis對話框,從左側(cè)變量欄里選中“收入情況”,點擊鈕使之進入Factor(s)框,這時該框下面的DefineRange...鈕就會從灰色變?yōu)楹谏?,點擊彈出LoglinearAnalysis:DefineRange對話框,可以定義變量的范圍,即該變量的水平范圍,本例中“收入情況”共有三種類型,代號分別是1、2、3,所以在Minimum處鍵入1,在Maximum處鍵入3,2023/2/6ncutstat19§8.2對數(shù)線性模型分析的上機實踐
目錄上頁下頁返回結(jié)束
點擊Continue鈕,返回ModelSelectionLoglinearAnalysis對話框;按同樣方法,把“滿意情況”變量選入,并定以其范圍為1、2;然后選中“頻數(shù)”變量,點擊鈕使之進入CellWeight框;最后,點擊Options...鈕,進入LoglinearAnalysis:Options對話框,選擇DisplayforSaturatedModel欄下的Parameterestimates項,點擊Continue鈕返回ModelSelectionLoglinearAnalysis對話框,其他選項保持默認值,最后點擊OK鈕即完成分析步驟。2023/2/6ncutstat21§8.2對數(shù)線性模型分析的上機實踐
目錄上頁下頁返回結(jié)束
首先顯示系統(tǒng)對792例資料進行分析,這792例資料可分為6類(3×2)。模型中共有二個分類變量:其中“收入情況”變量為3水平,“滿意情況”情況變量為2水平;分析的效應(yīng)除了兩個分類變量,還有兩者的交互作用(收入情況*滿意情況)。系統(tǒng)經(jīng)1次疊代后,即達到相鄰二次估計之差不大于規(guī)定的0.001。2023/2/6ncutstat22§8.2對數(shù)線性模型分析的上機實踐
目錄上頁下頁返回結(jié)束
2023/2/6ncutstat23§8.2對數(shù)線性模型分析的上機實踐
目錄上頁下頁返回結(jié)束
2023/2/6ncutstat25§8.2對數(shù)線性模型分析的上機實踐
目錄上頁下頁返回結(jié)束
2023/2/6ncutstat26§8.2對數(shù)線性模型分析的上機實踐
目錄上頁下頁返回結(jié)束
為了唯一地估計參數(shù),系統(tǒng)強行限定同一分類變量的各水平參數(shù)之和為0,故根據(jù)上表結(jié)果可推得各參數(shù)為:2023/2/6ncutstat29§8.3Logistic回歸基本理論和方法
目錄上頁下頁返回結(jié)束
2023/2/6ncutstat30§8.3Logistic回歸基本理論和方法
目錄上頁下頁返回結(jié)束
2023/2/6ncutstat31§8.3Logistic回歸基本理論和方法
目錄上頁下頁返回結(jié)束
2023/2/6ncutstat32§8.3Logistic回歸基本理論和方法
目錄上頁下頁返回結(jié)束
Logistic回歸不同于一般回歸分析的地方在于它直接預(yù)測出了事件發(fā)生的概率。盡管這個概率值是個度量尺度,Logistic回歸與多元回歸還是有著很大的差異。概率值可以是0~1之間的任何值,但是預(yù)測值必須落入0~1的區(qū)間。這樣,Logistic回歸假定解釋變量與被解釋變量之間的關(guān)系類似于S形曲線。而且,不能從普通回歸的角度來分析Logistic回歸,因為這樣做會違反幾個假定。2023/2/6ncutstat33首先,離散變量的誤差形式服從貝努里分布,而不是正態(tài)分布,這樣使得基于正態(tài)性假設(shè)的統(tǒng)計檢驗無效。其次,二值變量的方差不是常數(shù),會造成異方差性。Logistic回歸是專門處理這些問題的。它的解釋變量與被解釋變量之間獨特的關(guān)系使得在估計、評價擬合度和解釋系數(shù)方面有不同的方法。2023/2/6ncutstat34§8.3Logistic回歸基本理論和方法
目錄上頁下頁返回結(jié)束
估計Logistic回歸模型與估計多元回歸模型的方法是不同的。多元回歸采用最小二乘估計,將解釋變量的真實值與預(yù)測值差異的平方和最小化。而Logistic變換的非線性特征使得在估計模型的時候采用極大似然估計的疊代方法,找到系數(shù)的“最可能”的估計。這樣在計算整個模型擬合度的時候,就采用似然值而不是離差平方和。2023/2/6ncutstat35§8.3Logistic回歸基本理論和方法
目錄上頁下頁返回結(jié)束
2023/2/6ncutstat36§8.3Logistic回歸基本理論和方法
目錄上頁下頁返回結(jié)束
前面已提到Logistic回歸在估計系數(shù)時,是用的極大似然估計法。就象多元回歸中的殘差平方和,Logistic回歸對模型擬合好壞通過似然值來測量。(實際上是用-2乘以似然值的自然對數(shù)即-2Log似然值,簡記為-2LL)。一個好的模型應(yīng)該有較小的-2LL。如果一個模型完全擬合,則似然值為1,這時-2LL達到最小,為0。Logistic回歸對于系數(shù)的檢驗采用的是與多元回歸中t檢驗不同的統(tǒng)計量,稱為Wald統(tǒng)計量。有關(guān)Logistic回歸的參數(shù)估計和假設(shè)檢驗詳見參考文獻[8]。2023/2/6ncutstat37§8.3Logistic回歸基本理論和方法
目錄上頁下頁返回結(jié)束
一、分組數(shù)據(jù)的Logistic回歸模型針對0-1型因變量產(chǎn)生的問題,我們對回歸模型應(yīng)該做兩個方面的改進。
第一,回歸函數(shù)應(yīng)該改用限制在[0,1]區(qū)間內(nèi)的連續(xù)曲線,而不能再沿用直線回歸方程。限制在[0,1]區(qū)間內(nèi)的連續(xù)曲線有很多,例如所有連續(xù)型隨機變量的分布函數(shù)都符合要求,我們常用的是Logistic函數(shù)與正態(tài)分布函數(shù)。Logistic函數(shù)的形式為(8.4)
Logistic函數(shù)的中文名稱是邏輯斯諦函數(shù),或簡稱邏輯函數(shù)。這里給出幾個Logistic函數(shù)的圖形。見圖8-1、圖8-2。2023/2/6ncutstat38§8.3Logistic回歸基本理論和方法
目錄上頁下頁返回結(jié)束
圖8-1的圖形
2023/2/6ncutstat39§8.3Logistic回歸基本理論和方法
目錄上頁下頁返回結(jié)束
圖8-2的圖形
2023/2/6ncutstat40§8.3Logistic回歸基本理論和方法
目錄上頁下頁返回結(jié)束
2023/2/6ncutstat41§8.3Logistic回歸基本理論和方法
目錄上頁下頁返回結(jié)束
【例8.2】在一次住房展銷會上,與房地產(chǎn)商簽定初步購房意向書的共有n=325名顧客中,在隨后的3個月的時間內(nèi),只有一部分顧客確實購買了房屋。購買了房屋的顧客記為1,沒有購買房屋的顧客記為0。以顧客的年家庭收入(萬元)為自變量x,對如下的數(shù)據(jù),建立Logistic回歸模型2023/2/6ncutstat42§8.3Logistic回歸基本理論和方法
目錄上頁下頁返回結(jié)束
表8.2序號年家庭收入(萬元)x簽定意向書人數(shù)ni實際購房人數(shù)mi實際購房比例pi=mi/ni邏輯變換權(quán)重wi=nipi(1-pi)11.52580.320000-0.753775.44022.532130.406250-0.379497.71933.558260.448276-0.2076414.34544.552220.423077-0.3101512.69255.543200.465116-0.1397610.69866.539220.5641030.2578299.59077.528160.5714290.2876826.85788.521120.5714290.2876825.14399.515100.6666670.6931473.3332023/2/6ncutstat43§8.3Logistic回歸基本理論和方法
目錄上頁下頁返回結(jié)束
2023/2/6ncutstat44§8.3Logistic回歸基本理論和方法
目錄上頁下頁返回結(jié)束
2023/2/6ncutstat45§8.3Logistic回歸基本理論和方法
目錄上頁下頁返回結(jié)束
2023/2/6ncutstat46§8.3Logistic回歸基本理論和方法
目錄上頁下頁返回結(jié)束
2023/2/6ncutstat47§8.3Logistic回歸基本理論和方法
目錄上頁下頁返回結(jié)束
表8.32023/2/6ncutstat48§8.3Logistic回歸基本理論和方法
目錄上頁下頁返回結(jié)束
2023/2/6ncutstat49§8.3Logistic回歸基本理論和方法
目錄上頁下頁返回結(jié)束
得年收入8萬元的家庭預(yù)計實際購房比例為58.5%,這個結(jié)果與未加權(quán)的結(jié)果很接近。以上的例子是只有一個自變量的情況,分組數(shù)據(jù)的Logistic回歸模型可以很方便的推廣到多個自變量的情況,在此就不舉例說明了。分組數(shù)據(jù)的Logistic回歸只適用于大樣本的分組數(shù)據(jù),對小樣本的未分組數(shù)據(jù)不適用。并且以組數(shù)c為回歸擬合的樣本量,使擬合的精度低。實際上,我們可以用極大似然估計直接擬合未分組數(shù)據(jù)的Logistic回歸模型,以下就介紹這個方法。二、未分組數(shù)據(jù)的Logistic回歸模型2023/2/6ncutstat50§8.3Logistic回歸基本理論和方法
目錄上頁下頁返回結(jié)束
2023/2/6ncutstat51§8.3Logistic回歸基本理論和方法
目錄上頁下頁返回結(jié)束
2023/2/6ncutstat52§8.3Logistic回歸基本理論和方法
目錄上頁下頁返回結(jié)束
2023/2/6ncutstat53§8.3Logistic回歸基本理論和方法
目錄上頁下頁返回結(jié)束
2023/2/6ncutstat54§8.3Logistic回歸基本理論和方法
目錄上頁下頁返回結(jié)束
表8.4:序號性別年齡月收入序號性別年齡月收入10188500151201000020211200016125120003023850117127130004023950118128150005028120011913095016031850020132100002023/2/6ncutstat55§8.3Logistic回歸基本理論和方法
目錄上頁下頁返回結(jié)束
表8.4(續(xù))703615001211331800080421000122133100009046950123138120001004812000241411500011055180012514518001120562100126148100001305818001271521500114118850028156180012023/2/6ncutstat56§8.3Logistic回歸基本理論和方法
目錄上頁下頁返回結(jié)束
依次點選SPSS軟件的Statistics-Regression-Logistic命令,進入Logistic回歸對話框,選入變量,點選OK運行,以下表8-5是部分運行結(jié)果.表8.52023/2/6ncutstat57§8.3Logistic回歸基本理論和方法
目錄上頁下頁返回結(jié)束
表8.5中SEX(性別)、AGE(年齡)、X2(月收入)是3個自變量,Wald是回歸系數(shù)檢驗的統(tǒng)計量值,(8.16)
Sig是Wald檢驗的顯著性概率,R是偏相關(guān)系數(shù)??梢钥吹?,X2(月收入)不顯著,決定將其剔除。用y對性別與年齡兩個自變量做回歸,輸出結(jié)果見8-6.2023/2/6ncutstat58§8.3Logistic回歸基本理論和方法
目錄上頁下頁返回結(jié)束
表8.6可以看到,SEX、AGE兩個自變量都是顯著的,因而最終的回歸方程為:2023/2/6ncutstat59§8.3Logistic回歸基本理論和方法
目錄上頁下頁返回結(jié)束
以上方程式表明,女性乘公共汽車的比例高于男性,年齡越高乘車的比例也越高。SPSS軟件沒有給出Logistic回歸的標準化回歸系數(shù),對于Logistic回歸,回歸系數(shù)也沒有普通線性回歸那樣的解釋,因而計算標準化回歸系數(shù)并不重要。如果要考慮每個自變量在回歸方程中的重要性,不妨直接比較Wald值(或Sig值),Wald值大者(或Sig值小者)顯著性高,也就更重要。當然這里假定自變量間沒有強的復(fù)共線性,否則回歸系數(shù)的大小及其顯著性概率都沒有意義。2023/2/6ncutstat60§8.4Logistic回歸的方法與步驟
目錄上頁下頁返回結(jié)束
鑒于Logistic回歸與判別分析的相似性,我們可以對比兩種方法的相似性和不同點。Logistic回歸的自變量可以是定量變量或定性變量(需要編碼),這樣可以檢驗自變量對于Logistic回歸模型的貢獻、自變量的顯著性以及Logistic模型的判別精度。Logistic回歸一般有以下幾個步驟。(1)選擇自變量和因變量。這里因變量為分組變量(限于篇幅,我們僅介紹因變量分兩組的情況),自變量可以是定量變量和定性變量。Logistic回歸對于資料數(shù)據(jù)有較強的穩(wěn)健性(robustness),無須各組自變量的協(xié)差陣相等的假定。2023/2/6ncutstat61§8.4Logistic回歸的方法與步驟
目錄上頁下頁返回結(jié)束
(2)將一部分樣品
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 手機訂購協(xié)議書
- 苗圃購貨協(xié)議書
- 苗木栽植合同協(xié)議
- 蘋果簽署協(xié)議書
- 藿香苗購銷協(xié)議書
- 視力訓(xùn)練協(xié)議書
- 讓利銷售協(xié)議書
- 設(shè)備訂購協(xié)議書
- 設(shè)計師紙協(xié)議書
- 評估協(xié)議合同書
- 雨課堂學(xué)堂在線學(xué)堂云民族學(xué)導(dǎo)論專題中央民族大學(xué)單元測試考核答案
- 2022浙DT9 民用建筑常用水泵和風(fēng)機控制電路圖
- T/CHEC 007-2021自動平移門安裝驗收技術(shù)規(guī)范
- 招標代理公司制度與流程匯編
- 課題申報書:“職教出海”戰(zhàn)略下中國職業(yè)教育國際化路徑與策略研究
- 2025年廣東省粵科金融集團有限公司招聘筆試參考題庫含答案解析
- 正式供銷合同范例
- 成品保護圖冊
- 血透高鉀患者個案護理
- 中國玉石及玉文化鑒賞智慧樹知到期末考試答案章節(jié)答案2024年同濟大學(xué)
- 影視音樂賞析智慧樹知到期末考試答案2024年
評論
0/150
提交評論