電信業(yè)客戶分類_第1頁(yè)
電信業(yè)客戶分類_第2頁(yè)
電信業(yè)客戶分類_第3頁(yè)
電信業(yè)客戶分類_第4頁(yè)
電信業(yè)客戶分類_第5頁(yè)
已閱讀5頁(yè),還剩12頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、電信業(yè)客戶分類(多項(xiàng)Logistic回歸)Logistic回歸是一種統(tǒng)計(jì)方法,它可根據(jù)輸入字段的值對(duì)記錄進(jìn)行分類。這種 統(tǒng)計(jì)方法類似于線性回歸,但是它使用的是分類目標(biāo)字段而非數(shù)值目標(biāo)字段。例如,假設(shè)某個(gè)電信服務(wù)提供商已按照服務(wù)使用模式對(duì)其客戶群進(jìn)行了劃分,將 這些客戶分類到四個(gè)組中。如果可使用人口數(shù)據(jù)預(yù)測(cè)組成員,則可以為單個(gè)預(yù)期 客戶定制服務(wù)使用模式。此示例使用名為telco_custcat.str的流,此流引用名為telco.sav的數(shù)據(jù)文 件??梢詮娜魏蜟lementine Client安裝軟件的Demos目錄下找到這些文件, 也可以通過(guò)從Windows的“開(kāi)始”菜單下選擇Start Al

2、l Programs SPSS Clementine 11.1 Demos 來(lái)訪問(wèn)這些文件。文件 telco_custcat.str 位于 Classification_Module 目錄下。本示例將焦點(diǎn)集中于使用人口數(shù)據(jù)預(yù)測(cè)使用模式。目標(biāo)字段custcat有四個(gè)可 能的值對(duì)應(yīng)于四個(gè)客戶組,如下所示:值標(biāo)簽1基本服務(wù)2電子服務(wù)3附加服務(wù)4全套服務(wù)因?yàn)槟繕?biāo)含有多個(gè)類別,因此將使用多項(xiàng)模型。如果目標(biāo)含有兩個(gè)截然不同的分 類,例如是/否,真/假,或流失/保持,則會(huì)轉(zhuǎn)而創(chuàng)建二項(xiàng)模型。請(qǐng)參閱電信 客戶流失(二項(xiàng) Logistic 回歸)詳細(xì)信息。在Demos文件夾中添加指向telco.sav的SPSS文

3、件源節(jié)點(diǎn)。添加一個(gè)用來(lái)定義字段的類型節(jié)點(diǎn),讀取值,確保所有類型均設(shè)置正確。例 如,可以將值為0和1的大多數(shù)字段視為標(biāo)志字段,但對(duì)于某些字段(如性別), 將其視為具有兩個(gè)值的集合字段更為準(zhǔn)確。提示:要更改具有相似值(如0/1)的多個(gè)字段,請(qǐng)單擊值列標(biāo)題,以便按值對(duì) 字段進(jìn)行排序,然后按住Shift鍵的同時(shí)使用鼠標(biāo)或箭頭鍵選擇所有要更改的 字段。然后您可以右鍵單擊這些選擇,以更改所選字段的類型或其他特性。因?yàn)閷⑿詣e視為集合比視為標(biāo)志更精確一些,所以請(qǐng)單擊其“類型”值,然后將 其更改為集合。將客戶類別custcat字段的方向設(shè)置為輸出。所有其他字段的方向都應(yīng)設(shè)置 為輸入。因?yàn)榇耸纠饕P(guān)注人口統(tǒng)計(jì),

4、所以請(qǐng)使用過(guò)濾節(jié)點(diǎn)以選取相關(guān)字段(地區(qū)、年 齡、婚姻狀況、地址、收入、教育程度、行業(yè)、退休、性別、居住地和客戶類別)。 其他字段可以排除在此分析之外。callidX廣callidcallwaitcallwaitforwardforwardconferconferebillebillloglonglaglonglogtoll*lagtolllogequi*lagequilogcard*lagcardlogwirelagwireInincIninccusttatcustcatchurn*4churn(另外,您可以將這些字段的方向更改為無(wú),而不要排除這些字段,或者選擇要 在建模節(jié)點(diǎn)中使用的字段。)在

5、Logistic節(jié)點(diǎn)上,單擊模型選項(xiàng)卡并選擇逐步法。選中多項(xiàng)、主效應(yīng)和 將常量納入方程式。將目標(biāo)的底數(shù)類別保留為1。模型將對(duì)其他客戶與預(yù)訂基本服務(wù)的客戶進(jìn)行比較。在“專家”選項(xiàng)卡上,選中專家模式,選中輸出,然后在“高級(jí)輸出”對(duì)話 框中選中分類表。運(yùn)行節(jié)點(diǎn)以生成模型,該模型會(huì)添加到右上角的模型選項(xiàng)板中。要查看其詳 細(xì)信息,請(qǐng)?jiān)谏傻哪P凸?jié)點(diǎn)上用右鍵單擊并選擇瀏覽?!澳P汀边x項(xiàng)卡中顯示了用于將記錄分配到目標(biāo)字段的每個(gè)類別的方程式。因?yàn)?共有四個(gè)可能的類別,而其中之一是底數(shù)類別,因此選項(xiàng)卡中有三個(gè)方程式,其 中類別3表示附加服務(wù),等等。custca-tC3文件。生成始 園圓倒厘至容全部折疊廠部展開(kāi)回

6、I|-卜等式用于510.021 57 * address 十0.5556 *ed=1 +071 85 *ed=2 +0.6729 *ed=3 +M 0.4547 *ed=4 + 0.051 33 * employ + 0.03447 * reside +|瀏覽模型皓第+ -1.551-等式用于20.03685 * address +-2.17*ed=1 +-1.508 ed=2 +-0.9709 *ed=3 +-0.6764 *ed=4 +0.02635 + employe 0.1 477 * reside + + 0.049011+等式用于4模型匯總設(shè)置注解確定。)職消(C)應(yīng)用模型匯總設(shè)置

7、注解確定。)職消(C)應(yīng)用重置“匯總”選項(xiàng)卡顯示了(包括其他內(nèi)容)模型中使用的目標(biāo)字段和輸入字段(預(yù) 測(cè)變量字段)。注意,這些字段是根據(jù)逐步法實(shí)際選擇出來(lái)的字段,不是為進(jìn)行 分析而提交的完整列表。c u.st cat13文件(D 打生成淄I司赤全部折疊C2) |明 全部展開(kāi)舊:“白勿析-3另段I-&目標(biāo) custcat-&輸入?羅 address:/ ed歡 employ羅 reside【+卜口構(gòu)建設(shè)置田口訓(xùn)孤根要“高級(jí)”選項(xiàng)卡上顯示的項(xiàng)目取決于在建模節(jié)點(diǎn)的“高級(jí)輸出”對(duì)話框中選中 的選項(xiàng)。其中通常顯示的一個(gè)項(xiàng)目是觀測(cè)值處理概要,它顯示了落在目標(biāo)字段每 個(gè)類別中的記錄的百分比。這將生成一個(gè)空模

8、型用作比較的基礎(chǔ)。在不構(gòu)建使用 預(yù)測(cè)變量的模型的情況下,最好的預(yù)計(jì)結(jié)果可能是將所有的客戶分配到最普通的組3 (附加服務(wù)組)中。如果基于訓(xùn)練數(shù)據(jù)將所有客戶分配到空模型,則得到的正確率將是281/1000 = 28.1%?!案呒?jí)”選項(xiàng)卡還包括其他信息,使您能夠檢查模型的預(yù)測(cè)。然后,可custcat將這些預(yù)測(cè)與空模型的結(jié)果相比,以查看使用此數(shù)據(jù)的模型的執(zhí)行效果。Nominal RegressionPercentage23.6%12文件吏)生成囪26.5%28.1H32.2%regian33.4%高綴莊解34 一 custcat將這些預(yù)測(cè)與空模型的結(jié)果相比,以查看使用此數(shù)據(jù)的模型的執(zhí)行效果。Nomin

9、al RegressionPercentage23.6%12文件吏)生成囪26.5%28.1H32.2%regian33.4%高綴莊解34 一 4%嘛定(Q)取消(C)應(yīng)用四重置(E)在“高級(jí)”選項(xiàng)卡底部,分類表顯示了此模型的結(jié)果,其正確率為39.9%。特別 是,此模型在識(shí)別全套服務(wù)客戶(類別4)時(shí)表現(xiàn)優(yōu)異,而在識(shí)別電子服務(wù)客戶 (類別2)時(shí)表現(xiàn)很差。如果想提高預(yù)測(cè)類別2中客戶的準(zhǔn)確性,可能需要再找到一個(gè)預(yù)測(cè)變量來(lái)識(shí)別此類客戶。13 custcat12苴件0生成圈凰1*111111a.參專類別是:I.oaab,因?yàn)榇耸謹(jǐn)?shù)冗余,所以將耳設(shè)為零-分美觀察值預(yù)測(cè)值1.002.003.004.00百分

10、此校正1.001228756145.P%2.00581058814.6%8981335147.3%4.0047124313456.8%總百分比31.6%3.8%31.9%32.7%39.9%模型匯總高皺注解確定(0)依賴于您所期望的預(yù)測(cè),模型可充分滿足您的需求。例如,如果您對(duì)識(shí)別類別2 中的客戶并不關(guān)心,那么該模型的準(zhǔn)確性足以滿足需求。這種情況可能是,電子 服務(wù)僅是一種為吸引顧客而出售且獲利微薄的產(chǎn)品。例如,如果投資的最高回報(bào)來(lái)自于落在類別3或類別4中的客戶,則該模型能 夠提供所需的信息。當(dāng)構(gòu)建模型時(shí),可使用“高級(jí)輸出”對(duì)話框中的大量診斷信息來(lái)評(píng)估模型實(shí)際擬 合數(shù)據(jù)的程度。請(qǐng)參閱Logisti

11、c回歸模型高級(jí)輸出詳細(xì)信息。Clementine中 用到的建模方法的數(shù)據(jù)原理的說(shuō)明在Clementine算法指南中列出,該指南 位于任何Clementine Client安裝軟件的文檔目錄下;也可以通過(guò)從Windows 的“開(kāi)始”菜單下選擇 Start All Programs SPSS Clementine 11.1 文 檔來(lái)訪問(wèn)此文檔。還請(qǐng)注意,這些結(jié)果僅基于訓(xùn)練數(shù)據(jù)產(chǎn)生。要評(píng)估模型對(duì)實(shí)際應(yīng)用中的其他數(shù)據(jù) 的擬合程度,可使用分區(qū)節(jié)點(diǎn)保留部分記錄,以便于測(cè)試和驗(yàn)證。請(qǐng)參閱分區(qū) 節(jié)點(diǎn)詳細(xì)信息。電信業(yè)客戶分類(二項(xiàng)Logistic回歸)Logistic回歸是一種統(tǒng)計(jì)方法,它可根據(jù)輸入字段的值對(duì)記

12、錄進(jìn)行分類。這種 統(tǒng)計(jì)方法類似于線性回歸,但是它使用的是分類目標(biāo)字段而非數(shù)值目標(biāo)字段。此示例使用名為telco_churn.str的流,此流引用名為telco.sav的數(shù)據(jù)文件。 可以從任何Clementine Client安裝軟件的Demos目錄下找到這些文件,也可 以通過(guò)從Windows的“開(kāi)始”菜單下選擇Start All Programs SPSS Clementine 11.1 Demos 來(lái)訪問(wèn)這些文件。文件 telco_churn.str 位于 Classification_Module 目錄下。例如,假設(shè)某個(gè)電信服務(wù)提供商非常關(guān)心流失到競(jìng)爭(zhēng)對(duì)于那里的客戶數(shù)。如果可 以使用服務(wù)使

13、用數(shù)據(jù)預(yù)測(cè)有可能轉(zhuǎn)移到其他提供商的客戶,則可通過(guò)定制服務(wù)使 用數(shù)據(jù)來(lái)盡可能多地保留這些客戶。本示例將焦點(diǎn)集中于利用使用數(shù)據(jù)預(yù)測(cè)客戶的丟失(流失)。因?yàn)槟繕?biāo)含有兩個(gè) 截然不同的類別,因此將使用二項(xiàng)模型。如果目標(biāo)中含有多個(gè)類別,則會(huì)轉(zhuǎn)而創(chuàng) 建多項(xiàng)模型。請(qǐng)參閱電信業(yè)客戶分類(多項(xiàng)Logistic回歸)詳細(xì)信息。在Demos文件夾中添加指向telco.sav的SPSS文件源節(jié)點(diǎn)。添加類型節(jié)點(diǎn)以定義字段,讀取值,確保所有類型都已正確設(shè)置。例如,值 為0和1的大多數(shù)字段都可看作是標(biāo)志字段,但對(duì)于某些字段,例如性別,則 將其看作是含有兩個(gè)值的集合字段會(huì)更準(zhǔn)確些。53 叵叵I 、牌、值ififWS涪隔所有佰g

14、o- employ retire gender reside tolltree equip csllcsrd wirelessifi1I10=0,1 UD. I53 叵叵I 、牌、值ififWS涪隔所有佰go- employ retire gender reside tolltree equip csllcsrd wirelessifi1I10=0,1 UD. In .bi1/D1/01/D1/D10.2,91 9、I國(guó) to DI mon 混 equipmon 澎 cardmon VKlremDn 念 longten tcdllen cqulsteri 憊 carcften 澎 wirete

15、n 0 mullllne 0 voltepagr O inlernetD0.77Y0.0.109.250.0.111.95 9.7257.E.0.0.59-16.0IO.D.5028.65I 0,751 5.DO.DJ:5.:;5|1/0canidI/O1/D1/D!/:查看當(dāng)前手歆蘭看未侵用的字段設(shè)置髡型I榕式I注藉確定口) 職謂。)因?yàn)閷⑿詣e看作集合而不是標(biāo)志會(huì)更準(zhǔn)確,所以可單擊該字段的類型值并將其更 改為集合。將流失字段的類型設(shè)置為標(biāo)志,并將其方向設(shè)置為輸出。所有其他字段的方 向應(yīng)設(shè)置為輸入。將特征選擇節(jié)點(diǎn)添加到SPSS文件節(jié)點(diǎn)并運(yùn)行。通過(guò)使用特征選擇節(jié)點(diǎn),對(duì)于不能為預(yù)測(cè)變量/目標(biāo)之間的

16、關(guān)系添加任何有用信 息的預(yù)測(cè)變量或數(shù)據(jù),可以將其刪除。將模型結(jié)果節(jié)點(diǎn)放入流程區(qū),雙擊,從生成的模型節(jié)點(diǎn)中創(chuàng)建過(guò)濾節(jié)點(diǎn)。churn13支件(E)o生成圈畫(huà)回回目回o建模節(jié)點(diǎn)模型至選項(xiàng)拔姻回口匝秩 過(guò)濾。,秩J重要性回1 tenure 妙連續(xù)1.0回 m2 禽 I叫Icing ,連續(xù)|-| rd 1 1 I haI Ii1 1.0-1 n不是telco.sav文件中的所有數(shù)據(jù)都對(duì)預(yù)測(cè)客戶 流失有用??梢允褂眠^(guò)濾器僅選擇被認(rèn)為很重要的 數(shù)據(jù)來(lái)用作預(yù)測(cè)變量。在“生成過(guò)濾”對(duì)話框中,選擇所有標(biāo)記的字段: 重要并單擊確定。將生成過(guò)濾節(jié)點(diǎn)附加到類型節(jié)點(diǎn)。將數(shù)據(jù)審核節(jié)點(diǎn)附加到生成過(guò)濾節(jié)點(diǎn),然后執(zhí) 行數(shù)據(jù)審核節(jié)

17、點(diǎn)。在“數(shù)據(jù)審核”瀏覽器的“質(zhì)量”選項(xiàng)卡上,單擊%完成列以便按數(shù)值升序 順序?qū)Υ肆羞M(jìn)行排序。這樣就可以識(shí)別所有含有大量缺失數(shù)據(jù)的字段;在本示例 中,唯一需要修改的字段是logtoll,其完成值比例小于50%。在logtoll的歸因于缺失列中,單擊指定。對(duì)于歸因條件,選擇空白值和Null值。對(duì)于固定為,選擇平均值。口歸因設(shè)置岡字段:lei gtcill 存儲(chǔ)類型:碾實(shí)數(shù)字段:lei gtcill 存儲(chǔ)類型:碾實(shí)數(shù)歸因方法:選擇平均值可確保歸因值不會(huì)反過(guò)來(lái)影響總數(shù)據(jù)中所有值的平均值。在“數(shù)據(jù)審核”瀏覽器的“質(zhì)量”選項(xiàng)卡上,生成缺失值超節(jié)點(diǎn)。為完成此 操作,可從菜單中選擇以下項(xiàng):生成缺失值超節(jié)點(diǎn)在“

18、缺失值超節(jié)點(diǎn)”對(duì)話框中,將樣本大小增加到50%,然后單擊確定。此時(shí)超節(jié)點(diǎn)將顯示在流工作區(qū)中,其標(biāo)題為:缺失值歸因。將超節(jié)點(diǎn)附加到過(guò)濾節(jié)點(diǎn)上。將Logistic節(jié)點(diǎn)添加到超節(jié)點(diǎn)。在Logistic節(jié)點(diǎn)上,單擊“模型”選項(xiàng)卡并選擇二項(xiàng)過(guò)程。在二項(xiàng)過(guò)程區(qū)域, 選擇前進(jìn)法。在“專家”選項(xiàng)卡上,選擇專家模式,然后單擊輸出。此時(shí)顯示“高級(jí)輸出” 對(duì)話框。在“高級(jí)輸出”對(duì)話框中,選擇“在每個(gè)步驟”作為顯示類型。選擇迭代歷史 和參數(shù)估計(jì),然后單擊確定。Logistic回歸:高縝第出15生成畫(huà)倒|E: 樣全部折疊%全部展開(kāi)舊?B分析-目標(biāo) 39 churn-3輸入 疹 tenure 疥 employP c eq

19、uip? callcard 疥 cardmon voice internet歲 Ininc+ 口構(gòu)建設(shè)置 口訓(xùn)緣概要匯總高級(jí)注解“匯總”選項(xiàng)卡顯示了(包括其他內(nèi)容)模型中使用的目標(biāo)字段和輸入字段(預(yù) 測(cè)變量字段)。注意,這些字段是根據(jù)前進(jìn)法實(shí)際選擇出來(lái)的字段,不是為進(jìn)行 分析而提交的完整列表。“高級(jí)”選項(xiàng)卡上顯示的項(xiàng)目取決于在Logistic節(jié)點(diǎn)的“高級(jí)輸出”對(duì)話框 中選中的選項(xiàng)。其中通常顯示的一個(gè)項(xiàng)目是觀測(cè)值處理概要,它顯示了包括在分 析中的記錄數(shù)及百分比。此外,在此匯總中還列出了其中有一個(gè)或多個(gè)輸入字段 不可用的缺失觀測(cè)值的數(shù)目(如果有的話),及所有未選定的觀測(cè)值數(shù)。向下滾動(dòng)觀測(cè)值處理概要以顯示塊0下的分類表:起始?jí)K。開(kāi)始使用前進(jìn)逐步法時(shí)會(huì)有一個(gè)空模型(即,沒(méi)有預(yù)測(cè)變量的模型),可將此空 模型用作與最終構(gòu)建的模型進(jìn)行比較的基礎(chǔ)??漳P桶闯R?guī)將所有值預(yù)測(cè)為0, 因此空模型的準(zhǔn)確性為72.6%,這僅僅是因?yàn)橐颜_預(yù)測(cè)到有726個(gè)沒(méi)有流失 的客戶。但是,根本沒(méi)有正確預(yù)測(cè)到已流失的客戶。現(xiàn)在向下滾動(dòng)以顯示塊1(方法二前進(jìn)逐步)下的分類表。此分類表顯示了模型在每個(gè)步驟中添加的預(yù)測(cè)變量。在第一個(gè)步驟中(在僅使用 了一個(gè)預(yù)測(cè)變量之后),模型預(yù)測(cè)流失的準(zhǔn)確性就已從0.0%增加到29.9%。確定(口)觀演值簡(jiǎn)測(cè)值churn百分比校正.001.00步驟1.00砌58P2.0murn1.0019

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論