公安大數(shù)據(jù)應(yīng)用基礎(chǔ)(第2版)課件ch07分類預(yù)測:Logistic回歸分析_第1頁
公安大數(shù)據(jù)應(yīng)用基礎(chǔ)(第2版)課件ch07分類預(yù)測:Logistic回歸分析_第2頁
公安大數(shù)據(jù)應(yīng)用基礎(chǔ)(第2版)課件ch07分類預(yù)測:Logistic回歸分析_第3頁
公安大數(shù)據(jù)應(yīng)用基礎(chǔ)(第2版)課件ch07分類預(yù)測:Logistic回歸分析_第4頁
公安大數(shù)據(jù)應(yīng)用基礎(chǔ)(第2版)課件ch07分類預(yù)測:Logistic回歸分析_第5頁
已閱讀5頁,還剩26頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

分類預(yù)測:Logistic回歸分析新工科建設(shè)之路·數(shù)據(jù)科學(xué)與大數(shù)據(jù)系列公安大數(shù)據(jù)應(yīng)用基礎(chǔ)第七章01二項(xiàng)Logistic回歸方程二項(xiàng)Logistic回歸方程概述當(dāng)目標(biāo)為二分類型變量時,雖然無法直接采用一般的線性回歸模型進(jìn)行建模,但仍可充分借鑒其理論模型和分析思路。二項(xiàng)Logistic回歸方程第一,對一元線性回歸模型

,其回歸方程

能對輸出變量的平均值進(jìn)行預(yù)測。第二,概率P的取值范圍在0~1之間,而一般線性回歸方程輸出變量的取值范圍為從負(fù)無窮到正無窮。第三,采用一般線性回歸模型建立的回歸方程,方程中的概率P與輸入變量之間的關(guān)系是線性的。二項(xiàng)Logistic回歸方程而在實(shí)際應(yīng)用中,它們之間的關(guān)系往往是非線性的。例如,購買小轎車的概率通常不會隨年收入(或年齡等)的增長而線性增長。一般表現(xiàn)為,在年收入增長的初期,購買小轎車的概率增長緩慢;當(dāng)年收入增長到某個水平時,購買小轎車的概率會快速增長;當(dāng)年收入增長到一定水平時,購買小轎車的概率增長到某個值后,其增長速度會基本保持平穩(wěn)。由此給出的啟示是,對概率P的轉(zhuǎn)換應(yīng)采用非線性轉(zhuǎn)換。二項(xiàng)Logistic回歸方程從形式上看,二項(xiàng)Logistic回歸方程與一般的線性回歸方程的形式相同,可用類似的方法理解和解釋二項(xiàng)Logistic回歸方程中系數(shù)的含義。即當(dāng)其他輸入變量保持不變時,輸入變量xi每增大一個單位,將引起LogitP平均增大(或減小)Bi個單位。由于LogitP無法被直觀觀察且測量單位也無法確定,因此通常以Logistic分布的標(biāo)準(zhǔn)差(1.8138)作為LogitP的測量單位。二項(xiàng)Logistic回歸方程中系數(shù)的含義二項(xiàng)Logistic回歸方程重要的是,在模型的實(shí)際應(yīng)用中,人們關(guān)心的是輸入變量的變化引起的事件發(fā)生概率P的變化程度。當(dāng)輸入變量增大時,P也會增大(或減小),但這種增大(或減小)是非線性的,取決于輸入變量的取值范圍及輸入變量之間的共同作用等。因此,在應(yīng)用中人們通常更關(guān)心輸入變量給相對風(fēng)險Ω帶來的變化。為此應(yīng)首先說明相對風(fēng)險Ω的意義。二項(xiàng)Logistic回歸方程02二項(xiàng)Logistic回歸分析的應(yīng)用案例背景從顧客信息數(shù)據(jù)中,預(yù)測顧客的購買意愿。基礎(chǔ)數(shù)據(jù)購買判斷.sav。業(yè)務(wù)目標(biāo)建立預(yù)測顧客是否購買的模型,分析其影響因素。“”二項(xiàng)Logistic回歸分析的應(yīng)用能力目標(biāo):(1)學(xué)會二項(xiàng)Logistic回歸分析的具體操作。(2)學(xué)會分析二項(xiàng)Logistic回歸分析的結(jié)果。二項(xiàng)Logistic回歸分析的應(yīng)用1.導(dǎo)入數(shù)據(jù):運(yùn)行SPSSModeler,在“源”選項(xiàng)卡中選擇Statistic文件節(jié)點(diǎn),導(dǎo)入“購買判斷.sav”文件,如圖7-1所示。二項(xiàng)Logistic回歸分析的應(yīng)用2.添加節(jié)點(diǎn):(1)選擇“輸出”選項(xiàng)卡中的表格節(jié)點(diǎn)讀取數(shù)據(jù),執(zhí)行表格節(jié)點(diǎn)。(2)在“字段選項(xiàng)”選項(xiàng)卡中選擇類型節(jié)點(diǎn),并將其連接到數(shù)據(jù)流的恰當(dāng)位置上,進(jìn)行參數(shù)設(shè)置,如圖7-2所示。二項(xiàng)Logistic回歸分析的應(yīng)用將“購買”的類型更改為標(biāo)記,因?yàn)槠渲挥匈徺I和不購買兩種類別。將“年齡”的類型更改為連續(xù),因?yàn)槠淙≈捣秶鸀?3~58。將“性別”的類型更改為標(biāo)記,因?yàn)槠渲话泻团畠煞N類別。將“收入”的類型更改為有序,因?yàn)槠浒?種類別,這3種類別是分等級的。還需要將“購買”的角色更改為目標(biāo)。二項(xiàng)Logistic回歸分析的應(yīng)用3.建立模型:在“建?!边x項(xiàng)卡中選擇Logistic節(jié)點(diǎn),并將其連接到數(shù)據(jù)流的恰當(dāng)位置上,進(jìn)行參數(shù)設(shè)置,如圖7-3所示。二項(xiàng)Logistic回歸分析的應(yīng)用(1)進(jìn)入法:表示強(qiáng)制進(jìn)入策略,所有輸入變量將強(qiáng)制進(jìn)入回歸方程,無論其與LogitP之間是否有顯著的線性關(guān)系。這里,我們選擇“進(jìn)入法”選項(xiàng)。(2)向前步進(jìn)法:表示向前篩選策略,輸入變量逐個進(jìn)入回歸方程。(3)后退步進(jìn)法:表示向后篩選策略,將輸入變量逐個剔除出回歸方程。二項(xiàng)Logistic回歸分析的應(yīng)用4.模型結(jié)果:表7-1顯示了Logistic回歸分析中回歸方程模型系數(shù)的綜合檢驗(yàn)情況。二項(xiàng)Logistic回歸分析的應(yīng)用表7-2顯示了當(dāng)前模型擬合優(yōu)度方面的指標(biāo)(評估終止于第4次迭代,因?yàn)閰?shù)估計變化小于0.001),最大似然平方的對數(shù)越小,模型的擬合優(yōu)度越高。二項(xiàng)Logistic回歸分析的應(yīng)用表7-3顯示了模型的分類矩陣。二項(xiàng)Logistic回歸分析的應(yīng)用可以看到,在實(shí)際沒購買的269人中,模型正確識別了236人,錯誤識別了33人,準(zhǔn)確度約為87.7%;在實(shí)際購買的162人中,模型正確識別了31人,錯誤識別了131人,準(zhǔn)確度約為19.1%。模型總體的預(yù)測準(zhǔn)確度約為61.9%。二項(xiàng)Logistic回歸分析的應(yīng)用表7-4顯示了模型中各回歸系數(shù)檢驗(yàn)的指標(biāo)。二項(xiàng)Logistic回歸分析的應(yīng)用可以看出,如果顯著性水平為0.05,那么“年齡”的Wald檢驗(yàn)的概率-P值大于顯著性水平,不應(yīng)拒絕零假設(shè),如果該回歸系數(shù)與0無顯著差異,那么它與LogitP的線性關(guān)系是不顯著的,不應(yīng)保留在方程中。由于方程中包含了不顯著的輸入變量,因此模型不可用,應(yīng)重新建模。二項(xiàng)Logistic回歸分析的應(yīng)用如果希望瀏覽各樣本的具體預(yù)測結(jié)果,可將模型結(jié)果節(jié)點(diǎn)添加到數(shù)據(jù)流中,利用表格節(jié)點(diǎn)查看。表格中,以字符串$L開頭的變量為預(yù)測值,以字符串$LP-0和$LP-1開頭的變量分別為預(yù)測值為0和1的置信度,即取0或1的概率值。默認(rèn)情況下,若以$LP-0開頭的變量大于0.5,則分類預(yù)測值為0,否則為1。二項(xiàng)Logistic回歸分析的應(yīng)用03多項(xiàng)Logistic回歸分析的應(yīng)用在多項(xiàng)Logistic回歸分析中,輸出變量是多分類型變量。多項(xiàng)Logistic回歸模型類似于二項(xiàng)Logistic回歸模型,其研究目的是分析輸出變量各類別與某參照類別的對比情況,即:多項(xiàng)Logistic回歸分析的應(yīng)用其中,Pj為輸出變量為第j類的概率,PJ為輸出變量為第J(j≠J)類的概率,且第J類為參照類。如果輸出變量有k個類別,則需建立k1個方程。這里,僅以一個簡單示例說明多項(xiàng)Logistic回歸分析的具體操作。采用不同性別、3種職業(yè)的顧客選購3個品牌的數(shù)據(jù)進(jìn)行說明,數(shù)據(jù)為“嫌疑人選購品牌情況判斷.sav”。多項(xiàng)Logistic回歸分析的應(yīng)用01020304運(yùn)行SPSSModeler,在“源”選項(xiàng)卡中選擇Statistic文件節(jié)點(diǎn),導(dǎo)入“嫌疑人選購品牌情況判斷.sav”文件。在“建?!边x項(xiàng)卡中選擇Logistic節(jié)點(diǎn),建立模型。在圖7-3所示的對話框中,在過程處選中“多項(xiàng)式”單選按鈕,因?yàn)槟繕?biāo)變量是多分類型變量。在“多項(xiàng)式過程”區(qū)域,在“方法”下拉菜單中選擇“進(jìn)入法”選項(xiàng),在“目標(biāo)的基準(zhǔn)類別”框中指定輸出變量的參照類,這里指定第3個品牌為參照類。多項(xiàng)Logistic回歸分析的應(yīng)用由于輸出變量有3個類別,因此建模結(jié)果包括2個多項(xiàng)Logistic回歸方程。第1個方程為:=-0.656-1.315x1(1)-0.231x1(2)+0.747x2(1)多項(xiàng)Logistic回歸分析的應(yīng)用當(dāng)性別相同時,第1種職業(yè)的自然對數(shù)比第3種職業(yè)(參照水平)平均減少1.315個單位。第1種職業(yè)選擇第1個品牌的傾向不如第3種職業(yè),且差異顯著。當(dāng)職業(yè)相同時,男性的自然對數(shù)比女性(參照水平)平均多0.747個單位。男性較女性更傾向選擇第1個品牌,且差異顯著。多項(xiàng)Logistic回歸分析的應(yīng)用第2個方程為:

=-0.653-0.656x1(1)-0.476x1(2)+0.743x

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論