Clementine自帶實(shí)例_二項(xiàng)式Logistic回歸.ppt_第1頁
Clementine自帶實(shí)例_二項(xiàng)式Logistic回歸.ppt_第2頁
Clementine自帶實(shí)例_二項(xiàng)式Logistic回歸.ppt_第3頁
Clementine自帶實(shí)例_二項(xiàng)式Logistic回歸.ppt_第4頁
Clementine自帶實(shí)例_二項(xiàng)式Logistic回歸.ppt_第5頁
免費(fèi)預(yù)覽已結(jié)束,剩余13頁可下載查看

付費(fèi)下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、Clementine自帶 應(yīng)用程序?qū)嵗ㄖ形陌妫?電信客戶流失(二項(xiàng)式Logistic回歸),譯者注:Logistic regression應(yīng)該翻譯成Logistic回歸,而非邏輯回歸,因?yàn)楸旧砀壿嫑]有什么關(guān)系,本文檔翻譯自Clementine的自帶應(yīng)用程序?qū)嵗?,錯(cuò)漏在所難免,有問題請e-mail,歡迎粉我微博 e-mail: 微博:,說明,logistic回歸是一種基于輸入值的記錄分類統(tǒng)計(jì)技術(shù)。它跟線性回歸相似但用分類目標(biāo)字段替換數(shù)字字段。 使用的流文件%clementine%demoClassification_Moduletelco_churn.str 使用的數(shù)據(jù)文件%clementi

2、ne%demotelco.sav,例如,假設(shè)電信提供商關(guān)心流失給競爭對手的客戶數(shù)量。如果服務(wù)使用數(shù)據(jù)可以被用來預(yù)測哪些客戶有流失到競爭對手的傾向,那么就可以實(shí)施相應(yīng)的措施以挽留客戶。 實(shí)例以客戶使用數(shù)據(jù)預(yù)測客戶的可能流失概率。因?yàn)槟繕?biāo)是分成兩類,所以選用二項(xiàng)式模型。在多目標(biāo)分類的情況下,可以使用多項(xiàng)式模型代替。詳見系列教程Clementine自帶實(shí)例_多項(xiàng)式Logistic回歸.ppt(百度文庫有) 添加一個(gè)SPSS文件源節(jié)點(diǎn),指向telco.sav,添加一個(gè)指向telco.sav的SPSS源文件節(jié)點(diǎn) 添加一個(gè)類型節(jié)點(diǎn)以定義字段,確保它們的類型都設(shè)置正確。例如,對于大多數(shù)只有0值和1值的字段來

3、說應(yīng)該被設(shè)為標(biāo)志,但某些特定的字段,如性別,應(yīng)該被更精確的視為雙值集合。,小技巧:要改變多個(gè)字段的類型,點(diǎn)擊“值”字段排序,按下shift鍵對您要改變的字段進(jìn)行多選??捎覔暨x擇的字段改變選擇字段的類型或者屬性。,添加一個(gè)特征選擇節(jié)點(diǎn)到類型節(jié)點(diǎn)并執(zhí)行 使用特征選擇節(jié)點(diǎn)可以去掉跟預(yù)測目標(biāo)無關(guān)的協(xié)變量 從生成菜單中選擇過濾器以生成過濾節(jié)點(diǎn),不是所有telco.sav中的數(shù)據(jù)都對預(yù)測流失有用。您可以使用過濾器選擇那些重要性比較強(qiáng)的因子 在生成過濾器的對話框中,選擇“所有標(biāo)記的字段:重要”,點(diǎn)擊確定 把生成的過濾節(jié)點(diǎn)連接到類型節(jié)點(diǎn) 連接數(shù)據(jù)審核節(jié)點(diǎn)到生成的過濾節(jié)點(diǎn)并執(zhí)行 在數(shù)據(jù)審核瀏覽器的質(zhì)量標(biāo)簽中,單

4、擊%完成標(biāo)題進(jìn)行升序排序。這讓您能識(shí)別出有大量缺失值的字段;在本例中,我們僅需修正字段logtoll,它的缺失值大于50% 在缺失插補(bǔ)中,為logtoll選擇指定,在插補(bǔ)時(shí)間一欄,選擇空值與無效值,已固定為一欄選擇平均值 在數(shù)據(jù)審計(jì)瀏覽器的質(zhì)量節(jié)點(diǎn),生成缺失值超節(jié)點(diǎn) 在缺失值超節(jié)點(diǎn)對話框中,增加樣本數(shù)量至50%,確定,生成超節(jié)點(diǎn)到面板中,添加超節(jié)點(diǎn)到過濾節(jié)點(diǎn)。,添加Logistic節(jié)點(diǎn)到超節(jié)點(diǎn) 在Logistic節(jié)點(diǎn)中,點(diǎn)擊模型標(biāo)簽并選擇二項(xiàng)式方法選擇前進(jìn)法,在專家標(biāo)簽中,選擇專家模式,點(diǎn)擊輸出 選擇每一個(gè)步驟和參數(shù)估計(jì) 執(zhí)行Logistic節(jié)點(diǎn)生成模型,模型生成在右上角的面板上,右擊選擇瀏覽

5、 匯總標(biāo)簽展示了模型使用的目標(biāo)字段和輸入字段(預(yù)測字段/協(xié)變量)。我們看到這些都是被前進(jìn)法選入的字段,而不是所有的被提交的字段。,在高級(jí)標(biāo)簽展示的項(xiàng)目,依賴于建模節(jié)點(diǎn)中高級(jí)輸出對話框所選 有一項(xiàng)總會(huì)出現(xiàn)在案例處理過程摘要,那就是落在某分類的記錄條數(shù)以及比例。另外,還列出了缺失(如果有的話)數(shù)量,那些一個(gè)或多個(gè)輸入字段不可用且未被選中,向下滾動(dòng)到分類表 前進(jìn)法由空模型(無協(xié)變量,看作基礎(chǔ)模型,用于與最終模型比較)開始。空模型把所有的記錄都預(yù)測為0,所以空模型有72.6%的準(zhǔn)確率,因?yàn)?26名客戶沒有流失。但是那些流失的客戶一個(gè)都沒預(yù)測正確,往下拖到分類表(a) 分類表展示了每次每個(gè)協(xié)變量加入模型

6、后的結(jié)果。我們看到,第一步加入了一個(gè)協(xié)變量后,流失的預(yù)測比例從0提升至29.9%,滾動(dòng)到分類表的底部 分類表展示的最后一步即為第8步。在這步算法決定不再往模型加入更多的協(xié)變量。盡管預(yù)測未流失客戶的精度有一點(diǎn)下降,至91.2%,但預(yù)測流失的客戶從最初的0上升至47.1%。相對于沒有使用任何協(xié)變量的基準(zhǔn)模型來說,是顯著的提高。,對于想減少客戶流失的電信營運(yùn)商來講,若能減少一半的流失,將是保有自身收入流的一大步。 本例還展示了如何考慮模型精確度的問題。有些案例中,整體精確度是會(huì)誤導(dǎo)人的?;鶞?zhǔn)模型有72.6%的精確度,而最終模型的精確度只提高到了79.1%;但是,如我們所見,單個(gè)類別的預(yù)測精度都得到了極大改變。,結(jié)語,要知道模型對數(shù)據(jù)擬合的怎么樣,在建模節(jié)點(diǎn)的專家-輸出里面有一些選項(xiàng)可以使用。欲知詳情可查看幫助文件里的Logistic Model Nugget Advanced Output。Clementine中建模用到的數(shù)學(xué)方法可以在Documentation目錄的Clementine Algorithm G

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論