版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、數(shù)據(jù)挖掘與Clementine使用培訓(xùn),北京瑞斯泰得數(shù)據(jù)技術(shù)開發(fā)有限公司 2020/8/17,1,一、數(shù)據(jù)挖掘概述,什么是數(shù)據(jù)挖掘 數(shù)據(jù)挖掘的實(shí)現(xiàn)路線和流程 數(shù)據(jù)挖掘方法論CRISP-DM,2,為什么進(jìn)行數(shù)據(jù)挖掘? 商業(yè)觀點(diǎn),業(yè)務(wù)中產(chǎn)生了大量的數(shù)據(jù),這些數(shù)據(jù)存儲在業(yè)務(wù)系統(tǒng)中卻不能創(chuàng)造價值 客戶信息數(shù)據(jù) 客戶交易行為數(shù)據(jù) 客戶反饋數(shù)據(jù) 網(wǎng)絡(luò)數(shù)據(jù) 計算機(jī)變得越來越便宜、功能卻越來越強(qiáng)大 商業(yè)競爭越來越激烈,對客戶了解越多就意味著機(jī)會越大,3,為什么進(jìn)行數(shù)據(jù)挖掘? 技術(shù)觀點(diǎn),業(yè)務(wù)中的數(shù)據(jù)量呈現(xiàn)指數(shù)增長(GB/小時) 傳統(tǒng)技術(shù)難以從這些大量數(shù)據(jù)中發(fā)現(xiàn)有價值的規(guī)律 數(shù)據(jù)挖掘可以幫助我們從大量數(shù)據(jù)中發(fā)現(xiàn)有
2、價值的規(guī)律,4,一個市場營銷的例子,在數(shù)據(jù)中發(fā)現(xiàn)有價值的規(guī)則或者模式,女性對市場活動做出回應(yīng),男性對市場活動不做出回應(yīng),和年齡無關(guān),5,一個市場營銷的例子,數(shù)據(jù)變的復(fù)雜會如何?,女性對市場活動做出回應(yīng),老年男性也可能對市場活動做出回應(yīng),6,一個市場營銷的例子,數(shù)據(jù)挖掘可以從異常復(fù)雜的數(shù)據(jù)中發(fā)現(xiàn)規(guī)律,通過數(shù)據(jù)挖掘發(fā)現(xiàn)回應(yīng)的5條規(guī)則: 1、如果收入大于29622,有孩子,并且孩子的數(shù)量小于等于2,那么對市場活動會回應(yīng) ,通過數(shù)據(jù)挖掘發(fā)現(xiàn)不回應(yīng)的5條規(guī)則: 1、如果收入小于12640.3,并且有一個孩子,那么對市場活動不會回應(yīng) ,7,數(shù)據(jù)挖掘收益分析,8,利潤分析圖,9,數(shù)據(jù)挖掘效果模擬分析,目的:
3、發(fā)現(xiàn)新客戶(使響應(yīng)率從1%提高到1.2%),10,什么是數(shù)據(jù)挖掘?,不同的定義 從大量數(shù)據(jù)中發(fā)現(xiàn)非平凡的、先前不知道的、有價值的規(guī)律的過程 從大量數(shù)據(jù)中自動化(或者半自動化)的發(fā)現(xiàn)有價值規(guī)律的過程 數(shù)據(jù)挖掘的其他名稱 數(shù)據(jù)庫內(nèi)知識發(fā)現(xiàn)(KDD- Knowledge discovery in databases ) 數(shù)據(jù)/模式分析 商業(yè)智能 人工智能 ,11,數(shù)據(jù)挖掘的起源,來源于機(jī)器學(xué)習(xí)/人工智能、模式識別、統(tǒng)計學(xué)和數(shù)據(jù)庫 傳統(tǒng)技術(shù)的局限性 巨量的數(shù)據(jù) 高維數(shù)據(jù) 數(shù)據(jù)分布不理想,12,數(shù)據(jù)挖掘面臨的挑戰(zhàn),海量數(shù)據(jù) 高維數(shù)據(jù) 數(shù)據(jù)復(fù)雜性 數(shù)據(jù)質(zhì)量問題 數(shù)據(jù)所有權(quán)和分布 隱私問題,13,數(shù)據(jù)挖掘方
4、法論項目順利實(shí)施的保證,商業(yè)理解 數(shù)據(jù)理解 數(shù)據(jù)準(zhǔn)備 建立模型 模型評估 模型發(fā)布,14,商業(yè)理解,商業(yè) 理解,數(shù)據(jù) 理解,數(shù)據(jù) 準(zhǔn)備,建立 模型,模型 評估,結(jié)果 發(fā)布,確定商業(yè) 目標(biāo),形勢評估,確定數(shù)據(jù) 挖掘目標(biāo),制定項目 計劃,背景,商業(yè)目標(biāo),成功標(biāo)準(zhǔn),擁有資源,需求、假定 和限制,風(fēng)險和 偶然性,專業(yè) 術(shù)語,成本和 收益,數(shù)據(jù)挖掘 目標(biāo),數(shù)據(jù)挖掘 成功標(biāo)準(zhǔn),項目計劃,工具和方法 評估,15,數(shù)據(jù)理解,商業(yè) 理解,數(shù)據(jù) 理解,數(shù)據(jù) 準(zhǔn)備,建立 模型,模型 評估,結(jié)果 發(fā)布,收集原始 數(shù)據(jù),數(shù)據(jù)描述,數(shù)據(jù)探索 性分析,數(shù)據(jù)質(zhì)量 描述,數(shù)據(jù)收集 報告,數(shù)據(jù)描述 報告,探索性數(shù)據(jù) 分析報告,數(shù)
5、據(jù)質(zhì)量 報告,16,數(shù)據(jù)準(zhǔn)備,商業(yè) 理解,數(shù)據(jù) 理解,數(shù)據(jù) 準(zhǔn)備,建立 模型,模型 評估,結(jié)果 發(fā)布,選擇數(shù)據(jù),確定分析包含/剔除數(shù)據(jù),數(shù)據(jù)集,數(shù)據(jù)集 描述,數(shù)據(jù)清理,數(shù)據(jù)清理報告,數(shù)據(jù)重構(gòu),生成新的變量(字段),生成新的記錄,整合數(shù)據(jù),合并相關(guān)數(shù)據(jù),格式化數(shù)據(jù),改變數(shù)據(jù)格式,適應(yīng)分析,17,建立模型,商業(yè) 理解,數(shù)據(jù) 理解,數(shù)據(jù) 準(zhǔn)備,建立 模型,模型 評估,結(jié)果 發(fā)布,選擇建模 技術(shù),產(chǎn)生檢驗(yàn) 設(shè)計,建立模型,評價模型,模型 技術(shù),模型假設(shè),檢驗(yàn)設(shè)計,參數(shù)設(shè)定,建模,模型評價,參數(shù)設(shè)定 的修訂,模型描述,18,模型評估,商業(yè) 理解,數(shù)據(jù) 理解,數(shù)據(jù) 準(zhǔn)備,建立 模型,模型 評估,結(jié)果 發(fā)布
6、,結(jié)果評估,數(shù)據(jù)挖掘 過程回顧,確定下一 步的工作,評估數(shù)據(jù) 挖掘結(jié)果,被認(rèn)可的模型,數(shù)據(jù)挖掘過程 的回顧,列出可能 的行動,決策,19,結(jié)果發(fā)布,商業(yè) 理解,數(shù)據(jù) 理解,數(shù)據(jù) 準(zhǔn)備,建立 模型,模型 評估,結(jié)果 發(fā)布,發(fā)布結(jié)果 計劃,監(jiān)測和維護(hù) 模型計劃,生成最終數(shù)據(jù) 挖掘報告,項目回顧,結(jié)果發(fā)布計劃,監(jiān)測和維護(hù) 模型計劃,最終數(shù)據(jù) 挖掘報告,數(shù)據(jù)挖掘 報告展現(xiàn),項目檢驗(yàn) 總結(jié),20,商業(yè)理解是數(shù)據(jù)挖掘的起點(diǎn),解決方案,商業(yè)需要,21,商業(yè)理解的內(nèi)容,數(shù)據(jù)挖掘能解決什么樣的商業(yè)問題? 數(shù)據(jù)挖掘得到的結(jié)果,是否可以采取相應(yīng)的行動以提高利潤或降低成本? 我們期望模型能夠給我們怎樣的精確率? 有那
7、些前提假定?,22,約束分析,時間約束分析 資源約束分析 人力資源 數(shù)據(jù)資源 軟件資源 硬件資源,23,制定特定的數(shù)據(jù)挖掘目標(biāo),制定的數(shù)據(jù)挖掘目標(biāo)應(yīng)具有: 可評估性(assessable) 可實(shí)現(xiàn)性(attainable),24,如何給定一個數(shù)據(jù)挖掘問題,是檢驗(yàn)性數(shù)據(jù)挖掘還是探索性數(shù)據(jù)挖掘? 確定哪些是可以實(shí)現(xiàn)的數(shù)據(jù)挖掘問題 結(jié)果可測度性 信息(數(shù)據(jù))的可獲得性 評估和控制其他相關(guān)因素的影響,25,數(shù)據(jù)來源與數(shù)據(jù)之間的關(guān)系,26,使數(shù)據(jù)適合數(shù)據(jù)挖掘,對數(shù)據(jù)進(jìn)行適當(dāng)?shù)暮喜⒑蛥R總 一般數(shù)據(jù)挖掘分析都要一個行列(記錄變量)的二維表,必須把從不同數(shù)據(jù)源得到的不同格式的數(shù)據(jù)整合成這樣一張表,要求: 所有
8、的記錄含有排列順序一致的變量 所有記錄的變量信息是完整的(理想化狀態(tài),在現(xiàn)實(shí)中很難達(dá)到),27,檢查數(shù)據(jù)質(zhì)量,影響數(shù)據(jù)質(zhì)量的幾個主要問題 缺失值 不合理值 不同數(shù)據(jù)源的不一致 異常值,28,對數(shù)據(jù)進(jìn)行適當(dāng)?shù)淖儞Q,數(shù)據(jù)的標(biāo)準(zhǔn)化變換 生成新的變量 數(shù)據(jù)的重新編碼 數(shù)據(jù)降維,從變量角度或者從記錄角度,29,數(shù)據(jù)挖掘模型的分類,數(shù)據(jù)描述和匯總(Data description and summarization) 細(xì)分(Segmentation) 概念描述(Concept descriptions) 分類(Classification) 預(yù)測(Prediction) 相關(guān)分析(Dependency a
9、nalysis),30,數(shù)據(jù)挖掘技術(shù)的分類,數(shù)據(jù)挖掘,描述,預(yù)測,統(tǒng)計回歸,關(guān)聯(lián)規(guī)則,決策樹,可視化,聚類,順序關(guān)聯(lián),匯總,神經(jīng)網(wǎng)絡(luò),分類,時間序列預(yù)測,31,數(shù)據(jù)挖掘的典型結(jié)果金融,問題描述:預(yù)測信用水平是好還是差,銀行據(jù)此決定是否向客戶發(fā)放貸款,發(fā)放多少 結(jié)果描述:(決策樹),收入大于5萬元/年,是,否,有無儲蓄帳戶,是否房主,否,是,是,否,批準(zhǔn),不批準(zhǔn),批準(zhǔn),32,數(shù)據(jù)挖掘的典型結(jié)果電信,問題描述:根據(jù)客戶信息,預(yù)測客戶流失可能性 結(jié)果描述:(神經(jīng)網(wǎng)絡(luò)),輸 入,流失概率 (0.87),輸 出,男,29,3000元/月,套餐A,130元/月,33,數(shù)據(jù)挖掘的典型結(jié)果零售,問題描述:如何
10、決定超市中商品的擺放來增加銷售額 結(jié)果描述:(Web圖),34,數(shù)據(jù)挖掘的典型結(jié)果制造業(yè),問題描述:如何對市場進(jìn)行細(xì)分,使產(chǎn)品滿足最有價值客戶 結(jié)果描述:(Koholen聚類),35,數(shù)據(jù)挖掘的典型結(jié)果政府,問題描述:如何從眾多申請經(jīng)費(fèi)或者納稅中發(fā)現(xiàn)欺詐 結(jié)果描述:(回歸、神經(jīng)網(wǎng)絡(luò)),36,檢驗(yàn)的形式,方法層面的檢驗(yàn) 訓(xùn)練集和檢驗(yàn)集 不同方法的互相印證和比較 模型準(zhǔn)確性的檢驗(yàn): 商業(yè)層面上的檢驗(yàn) 利潤率的檢驗(yàn) 模型結(jié)果可操作性的檢驗(yàn) 其他檢驗(yàn),37,關(guān)注那些錯誤的預(yù)測,38,數(shù)據(jù)挖掘不成功的幾種可能性,糟糕的數(shù)據(jù) 組織抵制 結(jié)果沒有被有效的發(fā)布 得到了無用的結(jié)果,39,模型發(fā)布的形式,書面報告
11、 數(shù)據(jù)庫更新 針對特定主題的應(yīng)用系統(tǒng),40,數(shù)據(jù)挖掘的體系結(jié)構(gòu),41,問題 Clementine Server; Clementine Batch; SPSS Data Access Pack; Clementine Solution Publisher (Optional)。,47,Clementine的兩種運(yùn)行方式,單機(jī)版運(yùn)行 以下情況必須使用單機(jī)版運(yùn)行: 數(shù)據(jù)存儲在本機(jī),且不能在網(wǎng)絡(luò)上共享; 機(jī)器不聯(lián)網(wǎng); 無Clementine Server可供使用。 以下情況可以使用單機(jī)版運(yùn)行: 要處理的數(shù)據(jù)量很小(比如:小于2M)并且數(shù)據(jù)存儲在單機(jī)或可到達(dá)局域網(wǎng)處; 單機(jī)內(nèi)存、硬盤相對要處理的數(shù)據(jù)量
12、來說足夠大,并且速度也滿足要求。,C/S結(jié)構(gòu)運(yùn)行 以下情況必須使用C/S結(jié)構(gòu)運(yùn)行: 單機(jī)內(nèi)存或者硬盤不夠大,難以運(yùn)行大量數(shù)據(jù); 單機(jī)上沒有或者無法配置數(shù)據(jù)連結(jié),無法從數(shù)據(jù)庫中獲取數(shù)據(jù); 組織規(guī)則不允許下載大量數(shù)據(jù)到單機(jī)。 以下情況可以使用C/S結(jié)構(gòu)運(yùn)行: 要處理的數(shù)據(jù)量很大,并且存儲在可以通過SPSS Data Access技術(shù)可到達(dá)的數(shù)據(jù)庫處; 單機(jī)速度慢,Clementine Server運(yùn)行的機(jī)器配置高。,48,Clementine的系統(tǒng)結(jié)構(gòu),Clementine的三層結(jié)構(gòu): 1、數(shù)據(jù)庫層; 通過Clementine Server進(jìn)行調(diào)度,把那些可以通過SQL語句執(zhí)行的數(shù)據(jù)操作過程以SQ
13、L語句的形式導(dǎo)入數(shù)據(jù)庫并在其中進(jìn)行; 2、服務(wù)器端; 進(jìn)行調(diào)度,不能在數(shù)據(jù)庫層面進(jìn)行的操作在服務(wù)器端進(jìn)行(比如數(shù)據(jù)挖掘模型計算過程) 3、客戶端。 在三層結(jié)構(gòu)下通過Clementine Server進(jìn)行調(diào)度,由客戶端向服務(wù)器端發(fā)送數(shù)據(jù)挖掘指令,并接受和展示數(shù)據(jù)挖掘結(jié)果。,Clementine Client和Clementine Server通過SDL(Stream Description Language )之間進(jìn)行信息交換,Clementine Server和Database通過SQL語句進(jìn)行信息交換。,49,Clementine運(yùn)行的兩種方式,圖形界面方式 適用操作系統(tǒng) Windows系列
14、 特點(diǎn): 圖形化界面 與客戶直接交互 適合交互式分析過程,命令行方式 使用操作系統(tǒng) Windows系列 Unix系列 特點(diǎn): 命令行操作 不能生成圖形,所有結(jié)果保存在文件里或者數(shù)據(jù)庫中 適合于以下情況使用: 運(yùn)行耗時較長的建模過程 希望在后臺運(yùn)行一些耗時較長的數(shù)據(jù)準(zhǔn)備 過程希望按照一定的時間定期運(yùn)行(比如每周、每月等) 希望把Clementine(數(shù)據(jù)挖掘過程)運(yùn)行過程嵌入應(yīng)用系統(tǒng)中,50,Clementine的界面和設(shè)計思路,可視化界面 四個區(qū)域分別是建模區(qū)、結(jié)點(diǎn)區(qū)、模型描述區(qū)、項目管理區(qū) 通過連接結(jié)點(diǎn)構(gòu)成數(shù)據(jù)流建立模型 Clementine通過6類結(jié)點(diǎn)的連接完成數(shù)據(jù)挖掘工作,它們是: So
15、urce(源結(jié)點(diǎn)):Database、Var. Files等 Record Ops (記錄處理結(jié)點(diǎn)):Select、Sample等 Field Ops(字段處理結(jié)點(diǎn)):Type、Filter等 Graphs(圖形結(jié)點(diǎn)):Plot、Distribute等 Modeling(模型結(jié)點(diǎn)):Neural Net、C5.0等 Output(輸出結(jié)點(diǎn)):Table、Matrix等,51,Clementine操作基本知識,鼠標(biāo)應(yīng)用 三鍵與雙鍵鼠標(biāo) 左鍵選擇節(jié)點(diǎn)或圖標(biāo)置于建模區(qū) 右鍵激活浮動菜單 中鍵連接或斷開兩個節(jié)點(diǎn) 幫助,52,Clementine操作基本知識,節(jié)點(diǎn)的增加,以 為例 Click “Sour
16、ces”,Click ,Click “流區(qū)域” Click “Sources”,Double Click Click “Sources”,Drag to “流區(qū)域” 節(jié)點(diǎn)的刪除 Click , Delete Right Click ,Click “Delete” 節(jié)點(diǎn)的移動:Drag,53,Clementine操作基本知識,節(jié)點(diǎn)的編輯 Double Click Right Click ,Click “Edit” 節(jié)點(diǎn)的重命名和解釋 Right Click ,Click “Edit”,Click “Annotations” Double Click ,Click “Annotations” Ri
17、ght Click ,Click “Rename and Annotations” 拷貝、粘貼,54,Clementine操作基本知識,構(gòu)建流時節(jié)點(diǎn)的連接 Highlight ,Add to the Canvas Right Click ,Click “Connect”,Click Drag the middle mutton from to 構(gòu)建流時節(jié)點(diǎn)連接的刪除 Right Click or , Click “Disconnect” Right Click “Connection”,Click “Delete Connection” Double Click or,55,Clementin
18、e操作基本知識,流的執(zhí)行 Highlight “Stream”,Click Right Click ,Click “Execute” In the Edit Window of the , Click “Execute” 流的保存 幫助 Help Menu Dialogue Window,56,一個例子羅斯文商貿(mào)公司,商業(yè)問題: 微軟公司提供的案例數(shù)據(jù)庫羅斯文商貿(mào)公司,如何對客戶價值進(jìn)行評估 背景介紹: 1.羅斯文商貿(mào)公司是Microsoft數(shù)據(jù)庫產(chǎn)品(Access, SQL Server等)中的一個示例數(shù)據(jù)庫; 2.它虛擬了一家經(jīng)銷日用品的商貿(mào)公司的情況; 3.目前該公司保存的歷史數(shù)據(jù)資料,
19、見下頁; 4.我們需要對客戶的價值進(jìn)行評估,以便采取有效的市場銷售策略。,57,羅斯林商貿(mào)公司數(shù)據(jù),58,羅斯文商貿(mào)公司統(tǒng)計問題,數(shù)據(jù)挖掘問題: (1)如何描述客戶價值?購買總金額?購買頻次?平均每次購買金額?最近購買金額?它們的線性組合?使用最簡單的購買總金額 (2)需要什么樣的數(shù)據(jù)挖掘方法?描述匯總?分類?預(yù)測?概念描述?細(xì)分?相關(guān)分析?使用最簡單的描述匯總 (3)需要的數(shù)據(jù)從哪里來?從以下幾個來源: 客戶 訂單 訂單明細(xì),59,羅斯文商貿(mào)公司商業(yè)問題解決方案,商業(yè)問題解決方案 從所有客戶中找出最有價值的10個客戶,將名單發(fā)給市場部門,讓其對這些客戶進(jìn)行更多的關(guān)注,60,Clementin
20、e的優(yōu)化,包括兩個方面的優(yōu)化 結(jié)構(gòu)優(yōu)化 用戶優(yōu)化,61,結(jié)構(gòu)優(yōu)化,把中間結(jié)果存儲在Server上(盡量使用server版處理) 從數(shù)據(jù)流上整理考慮的執(zhí)行數(shù)據(jù)流(能一步完成的處理盡量不要分解到多個執(zhí)行) 減少數(shù)據(jù)的遷移(數(shù)據(jù)提前進(jìn)行規(guī)劃),62,用戶優(yōu)化,自動優(yōu)化數(shù)據(jù)流:當(dāng)使用這一選項時,Clementine將重寫數(shù)據(jù)流以使效率最高(可以通過Clementine Server中的sql_rewriting_enabled來調(diào)整是否可以使用) 優(yōu)化的SQL生成。使盡可能的操作在數(shù)據(jù)庫內(nèi)進(jìn)行。 優(yōu)化Clementine執(zhí)行。調(diào)整數(shù)據(jù)降維的操作盡可能接近數(shù)據(jù)源完成。 手動優(yōu)化數(shù)據(jù)流 操作順序:有些操作
21、可以在SQL中完成,有些操作不能在SQL中完成,盡可能把能夠在SQL中完成的一起排在前面 數(shù)據(jù)類型:盡可能在源節(jié)點(diǎn)處由用戶自定義數(shù)據(jù)類型,而不是Clementine自動讀取。,63,一個數(shù)據(jù)挖掘的實(shí)例客戶信用級別判斷系統(tǒng),64,問題的提出,如何通過數(shù)據(jù)挖掘?qū)崿F(xiàn)小靈通信用級別的判斷系統(tǒng) 某電信公司按照某種標(biāo)準(zhǔn)將小靈通客戶信用等級分為5類,分別是gradeA、gradeB 、gradeC、gradeX、gradeY?,F(xiàn)在希望建立一套系統(tǒng),能夠使得市場部人員根據(jù)用戶的幾項關(guān)鍵的個人基本信息判斷該客戶的信用級別,從而有針對性地對其采用不同的市場營銷策略。,65,數(shù)據(jù)描述,66,遵循CRISP-DM的數(shù)
22、據(jù)挖掘過程,67,在進(jìn)行數(shù)據(jù)挖掘過程中應(yīng)該注意的幾個問題,商業(yè)經(jīng)驗(yàn)的作用 數(shù)據(jù)的拆分訓(xùn)練集與檢驗(yàn)集 不同模型的印證與比較,68,結(jié)果發(fā)布,信用級別靜態(tài)列表 信用級別寫回數(shù)據(jù)庫 實(shí)時判斷信用級別的分析應(yīng)用,69,問題 被用來進(jìn)行預(yù)測的數(shù)據(jù)常常是不穩(wěn)定、不確定和不完全的,由其來源和收集的方式所決定; 不同的時間區(qū)域常常需要不同的預(yù)測方法,形式上難以統(tǒng)一; 因?yàn)椴煌念A(yù)測方法在復(fù)雜性、數(shù)據(jù)要求以及準(zhǔn)確程度上均不同,因此選擇一個合適的預(yù)測方法是很困難的。,169,Chapter 8,Neural Networks,170,Chpater 8 Neural Networks,目的: 掌握如何在Cleme
23、ntine中進(jìn)行Neural Network 模型的構(gòu)建和解讀 掌握Neural Network節(jié)點(diǎn) 數(shù)據(jù):Risktrain.txt,171,Chpater 8 Neural Networks,內(nèi)容 8.1 Neural Net節(jié)點(diǎn)介紹 8.2 構(gòu)建Neural Network 8.3 模型管理區(qū)介紹 8.4 結(jié)果查看和結(jié)果解釋 8.5 模型預(yù)測值生成 8.6 模型評價 8.7 理解預(yù)測原因 8.8 模型總結(jié),172,神經(jīng)網(wǎng)絡(luò)模型預(yù)測技術(shù),基本概念: 神經(jīng)元 三層結(jié)構(gòu),173,8.1 Neural Net節(jié)點(diǎn)介紹,字段方向-Type節(jié)點(diǎn)或表 In-X字段-自變量字段 Out-Y字段-結(jié)果字段
24、-聚類、主成分分析除外 Both-自變量和結(jié)果字段-關(guān)聯(lián)規(guī)則或順序算法 None-不用字段 ID-typeless-None 五種Neural Net方法,默認(rèn)Quick 過度訓(xùn)練(長時間接觸同一個數(shù)據(jù)源,并用同樣特征去描述其他數(shù)據(jù)集,結(jié)果往往錯誤) 停止規(guī)則(避免過度訓(xùn)練) 字段的相對重要性分析,174,避免過度訓(xùn)練問題選擇測試集錯誤較低,或者兩集錯誤交叉點(diǎn),175,8.2 構(gòu)建Neural Network,例:用age、sex、income等來預(yù)測客戶的風(fēng)險等級,176,8.3 模型管理區(qū)介紹,瀏覽模型結(jié)果 導(dǎo)出模型代碼 將模型載入數(shù)據(jù)流 將模型導(dǎo)入項目管理區(qū) 保存、清除、裝載模型管理區(qū),
25、177,8.4 結(jié)果查看和結(jié)果解釋,結(jié)果的瀏覽:Right click generated “model” 模型準(zhǔn)確性 輸入字段或?qū)?輸出字段或?qū)?各輸入字段的相對重要性,178,8.5 模型預(yù)測值生成,將模型裝入數(shù)據(jù)流 $N-Risk是Neural Net對該記錄風(fēng)險等級 的預(yù)測值 $NC-Risk是$N-Risk的置信度(confidence),179,8.6 模型評價-預(yù)測值與實(shí)際值的比較,利用Matrix比較,通常關(guān)注的不是整體,例如欠費(fèi)用戶群而不是整個用戶群。,180,8.6 模型評價,Evaluation Node-評估比較模型,以選擇最優(yōu)模型 Evaluation 的原理:將數(shù)據(jù)
26、按預(yù)測值和置信度從高到低排序,將數(shù)據(jù)拆分為多個集合,每集合包含相同的記錄數(shù),然后作圖。 關(guān)注值:flag變量的真值,set變量的第一個值 五種圖形:收益圖、功效圖、響應(yīng)圖、投資回報圖、利潤圖,181,8.6 模型評價,收益圖,功效圖,182,8.7 理解預(yù)測原因,Web節(jié)點(diǎn)-Symbolic Input 2.離散變量模型的檢驗(yàn); 3.組合模型概述; 4.二值預(yù)測問題的組合模型。,234,Clementine中提供的模型概述,Data Mining Model,Supervised Model (Predictive Model),Unsupervised Model,Data Reductio
27、n,Neural Networks,C5.0,C&RT(CART),Regression,Logistic regression,Kohonen,K-means,Two-Step,PCA(Principal Component Analysis),Factor,Clustering,APRIORI,GRI,Sequence,Associations,235,離散變量預(yù)測問題是最重要的一類問題,離散變量預(yù)測問題也就是分類問題 在Clementine(8.1)中有很多模型可以做分類問題 Neural Net C5.0 C&RT Logistic 連續(xù)變量預(yù)測問題可以通過某種形式轉(zhuǎn)化為離散變量預(yù)測問
28、題 多值變量問題可以轉(zhuǎn)化為兩值預(yù)測問題,236,離散值預(yù)測模型的幾個重要檢驗(yàn)指標(biāo),1.準(zhǔn)確率 2.命中率 3.覆蓋率,237,離散值預(yù)測模型的幾個重要檢驗(yàn)圖形,1.收益圖(Gains) 2.響應(yīng)圖(Response) 3.功效圖(Lift) 4.利潤圖(Profit) 5.投資回報圖(ROI),238,離散值預(yù)測模型的幾個重要檢驗(yàn)圖形,239,什么是組合模型,在數(shù)據(jù)挖掘模型中,每種模型都有各自的優(yōu)點(diǎn)和缺陷,為了更好的利用模型的優(yōu)點(diǎn),在Clementine中可以把不同模型通過一定的方式組合在一起以解決特定的問題 為了提高模型的精確度,我們可以把多個模型通過某種方式組合在一起,240,組合模型類型
29、,為了提高模型的可解釋性,可以應(yīng)用C5.0對預(yù)測或者聚類結(jié)果進(jìn)行解釋 為了得到各指標(biāo)對模型影響的重要程度,可以應(yīng)用神經(jīng)網(wǎng)絡(luò)對指標(biāo)重要性進(jìn)行分析 可以通過模型的特定組合提高模型的準(zhǔn)確性下面以數(shù)據(jù)挖掘模型中最常用的二值預(yù)測來說明組合模型如何能夠提供模型的準(zhǔn)確性,241,二值預(yù)測是數(shù)據(jù)挖掘中重要問題,二值預(yù)測問題是個非常常見的數(shù)據(jù)挖掘問題 流失、客戶獲得、欠費(fèi)、欺詐 多值預(yù)測可以轉(zhuǎn)化為二值預(yù)測問題 連續(xù)預(yù)測問題可以轉(zhuǎn)化為多值預(yù)測問題,242,二值預(yù)測結(jié)果的可能表達(dá)方式,T or F,我們稱為預(yù)測值; 預(yù)測值為T,預(yù)測準(zhǔn)確率為P;或者預(yù)測值為F,預(yù)測準(zhǔn)確率為P; T的概率為p,稱為預(yù)測評分(scori
30、ng)。 和置信度區(qū)分 例:以預(yù)測流失為例 預(yù)測客戶A流失; 預(yù)測客戶B不流失,把握程度為0.8; 預(yù)測客戶C的流失概率為0.792。,243,多值(set)問題向二值問題的轉(zhuǎn)化(flag),多值集合變量向幾個二值變量的轉(zhuǎn)化(設(shè)為標(biāo)志),由Clementine中神經(jīng)網(wǎng)絡(luò)算法想起的 1、多個輸出變量; 2、如果把二值變量問題再轉(zhuǎn)化成多值變量問題。,244,連續(xù)預(yù)測問題向多值預(yù)測問題的轉(zhuǎn)化,從C&RT算法想到的用分級節(jié)點(diǎn),把連續(xù)預(yù)測問題轉(zhuǎn)化為多值預(yù)測問題,245,二值預(yù)測的結(jié)果表述,T or F 評分(scoring) T1.0 F0.0 二值預(yù)測結(jié)果的評價 (1)總體準(zhǔn)確率 (2)命中率 (3)
31、覆蓋率,246,Clementine中預(yù)測二值問題,Neural Net($N-outcome ,$NC-outcome) C5.0($C-outcome,$CC-outcome) C&RT($R-outcome ,$RC-outcome)得到這 Logistic($L-outcome ,$LP-outcome) 得到概率 $N-outcome,$C-outcome,$R-outcome,$L-outcome為預(yù)測T或F,得到置信度;$NC-outcome,$CC-outcome,$RC-outcome,$LP為前者預(yù)測的把握程度。,247,由預(yù)測值和預(yù)測把握程度向預(yù)測評分的轉(zhuǎn)化,由Cleme
32、ntine中神經(jīng)網(wǎng)絡(luò)算法說起 |0.5 Raw Output |* 2 例如,神經(jīng)網(wǎng)絡(luò)的raw output取置信度,概率為預(yù)測為真的概率,置信度為無論預(yù)測真假的可信程度。 在Clementine中生成的預(yù)測模型(神經(jīng)網(wǎng)絡(luò)、決策樹或Logistic回歸)后接一個Derive節(jié)點(diǎn),生成新字段預(yù)測評分: Type :Conditional If$N-Outcome Then0.5 + ($NC-Outcome / 2.0) Else0.5 - ($NC-Outcome / 2.0),248,練習(xí)1,對數(shù)據(jù)集data1.csv建立二值預(yù)測模型,實(shí)現(xiàn)以下目標(biāo)深圳電信/組合模型) 應(yīng)用C5.0模型得出預(yù)
33、測模型,對模型的準(zhǔn)確率(總體準(zhǔn)確率、命中率、覆蓋率)作出描述; 應(yīng)用神經(jīng)網(wǎng)絡(luò)模型建立預(yù)測模型,練習(xí)把離散問題連續(xù)化的方法;(提示:flag-range,T-1.0) 應(yīng)用C5.0模型建立scoring型的預(yù)測模型( 提示:$C,$CC的組合),249,組合模型解決二值預(yù)測的幾種思路,投票法(Voting)少數(shù)服從多數(shù),小概率服從大概率原則,主要目的在于提高命中率 修正法根據(jù)預(yù)測結(jié)果與實(shí)際結(jié)果比較調(diào)整預(yù)測(多個訓(xùn)練集,一個檢驗(yàn)集),250,投票法之一多個模型一致,對于同一問題建立不同模型,會得出不同的結(jié)果,多個模型同時預(yù)測同一結(jié)果時,往往這個結(jié)果更加可信 方法的優(yōu)點(diǎn)和缺點(diǎn): 優(yōu)點(diǎn):提高模型預(yù)測精
34、度 缺點(diǎn):會有一些記錄沒有預(yù)測結(jié)果,251,投票法之二建立奇數(shù)個模型,建立奇數(shù)個預(yù)測模型 遵循少數(shù)服從多數(shù)原則 Derive node (type: Conditional) If $N-Outcome = $C-Outcome or $N-Outcome = $R-Outcomethen $N-Outcomeelse $C-Outcome 帶$的變量需要加引號,252,投票法之三更高把握程度原則,應(yīng)用那些具有更多把握程度的模型進(jìn)行預(yù)測 If $CC-Outcome $NC-Outcome Then $C-Outcome Else $N-Outcome,253,投票法之四根據(jù)把握程度匯總進(jìn)行投
35、票,建立不同模型的評分(scoring)模型 對不同模型得到評分(score)進(jìn)行平均 轉(zhuǎn)化為二值預(yù)測問題 Converting : If all_score0.5 then T else F Converting the confidence back Ifall_score 0.5 Then(all_score 0.5) * 2 Else(0.5 - all_score) * 2,254,練習(xí)2,應(yīng)用data2分別應(yīng)用神經(jīng)網(wǎng)絡(luò)模型、C5.0模型和C&RT模型建立二值預(yù)測模型,再按照以上4中思路建立預(yù)測模型。對于test數(shù)據(jù)完成下表:,255,修正法之一模型堆疊(stacking),把模型的
36、預(yù)測輸出作為另外模型的輸入,256,修正法之二找出錯誤預(yù)測的規(guī)律(error modelling),對于一個預(yù)測模型,我們能夠發(fā)現(xiàn)錯誤預(yù)測的規(guī)律嗎? 挑出那些錯誤的,建立模型(常常需要平衡數(shù)據(jù)) 缺點(diǎn):有些記錄會沒有預(yù)測,257,修正法之三多個模型一致(agreement modelling)處理投票法一中的不確定值,多個模型預(yù)測一致的作為預(yù)測 對那些不一致的重新建立模型進(jìn)行預(yù)測 Select node $N-Outcome /= $C-Outcome Derive node (type: conditional) If $N-Outcome = $C-Outcome Then $N-Outc
37、ome Else $N1-Outcome,258,修正法之四對模型建模(speciallist modelling),建立關(guān)于何時規(guī)則模型或神經(jīng)網(wǎng)絡(luò)模型預(yù)測準(zhǔn)確的模型,得出模型的適用條件(數(shù)據(jù)情況) 根據(jù)數(shù)據(jù)情況選擇使用不同的模型,259,練習(xí)3,對于數(shù)據(jù)集data1 to data5按照修正法思路1思路4建立模型,對于數(shù)據(jù)集test完成下表:,260,總結(jié)提高二值預(yù)測效果的幾種思路,離散問題向打分(scoring)問題的轉(zhuǎn)化 投票法之一多個模型一致 投票法之二建立奇數(shù)個模型 投票法之三更高把握程度原則 投票法之四根據(jù)把握程度匯總進(jìn)行投票 修正法之一模型堆疊(stacking) 修正法之二找出
38、錯誤預(yù)測的規(guī)律 修正法之三多個模型一致 修正法之四對模型建模,261,多尋思!,262,六、數(shù)據(jù)挖掘技術(shù)在電信行業(yè)中的應(yīng)用,數(shù)據(jù)挖掘技術(shù)在電信行業(yè)中的應(yīng)用 案例1:流失分析 案例2:流失癥狀與營銷預(yù)演 案例3:交叉銷售(套餐分析),263,客戶生命周期理論客戶分析的基礎(chǔ),時間,利潤,案例一,電信行業(yè)的流失分析,265,電信行業(yè)流失分析的數(shù)據(jù)挖掘模型,266,客戶流失分析之商業(yè)理解,移動通信業(yè)是一個競爭異常激烈的行業(yè),對于移動通信運(yùn)營商來說,如何對其客戶進(jìn)行有效的管理,盡可能的減少客戶的流失和跳網(wǎng)是一個緊迫的問題。在這里我們將介紹數(shù)據(jù)挖掘在移動通信業(yè)關(guān)于客戶流失研究中的應(yīng)用。 數(shù)據(jù)挖掘技術(shù)將提供
39、功能強(qiáng)大的模型,可以回答“哪些客戶最可能流失?”和“為什么這些客戶會流失?”等問題。,267,客戶流失分析之商業(yè)理解,什么是流失,流失如何定義 連續(xù)欠費(fèi)不交?號碼長期不用?二分標(biāo)記變量? 流失和哪些因素相關(guān) 顧客年齡?性別?收入?行業(yè)?話費(fèi)水平?話務(wù)質(zhì)量? 確定數(shù)據(jù)挖掘目標(biāo) (1)對客戶進(jìn)行聚類分析,尋找那些流失量比較大的客戶群 (2)建立規(guī)則,描述那些易于流失的客戶群的特征 (3)建立打分模型,對客戶流失可能性(概率)進(jìn)行評價,268,客戶流失分析之?dāng)?shù)據(jù)理解,顧客信息資料 (共31769條記錄,10個變量),269,客戶流失分析之?dāng)?shù)據(jù)理解,CDR數(shù)據(jù)資料 (190,614條記錄,10個變量)
40、,270,客戶流失分析之?dāng)?shù)據(jù)理解,資費(fèi)數(shù)據(jù)資料 (共5條記錄,9個變量),271,客戶流失分析之?dāng)?shù)據(jù)準(zhǔn)備,把CDR月度數(shù)據(jù)匯總成6個月的總體數(shù)據(jù) 根據(jù)CDR數(shù)據(jù)生成各種不同的平均數(shù)據(jù)和組合 數(shù)據(jù) 歸并客戶信息數(shù)據(jù)、CDR數(shù)據(jù)與話費(fèi)數(shù)據(jù) 對客戶現(xiàn)在付費(fèi)類型的合理性進(jìn)行簡單分析,272,客戶流失分析之建立模型和模型評估,對客戶進(jìn)行聚類分析,并比較不同客戶群流失可能性,建立規(guī)則,描述那些易于流失的客戶群的特征 建立打分模型,對客戶流失可能性(概率)進(jìn)行評價,273,客戶流失分析之模型發(fā)布,對每個特定客戶的流失可能性進(jìn)行打分評估 寫回數(shù)據(jù)庫,274,客戶流失分析之建模圖,圖例:,數(shù)據(jù),數(shù)據(jù)流,案例二,
41、流失癥狀與營銷預(yù)演,276,說明,本案例意在說明如何應(yīng)用Clementine實(shí)現(xiàn)規(guī)則導(dǎo)出和營銷預(yù)演 本案例是一個簡化了的電信流失問題,我們不追求變量選擇的完整性 本案例目的是說明過程,不追求模型的準(zhǔn)確性,對模型不進(jìn)行任何調(diào)整,277,流失分析使用變量,目標(biāo)變量:二分變量(是否流失) 輸入變量: 長途時長 國際時長 本地時長 通話時長合計 投訴次數(shù) 支付方式 本地話費(fèi)支付方式 長途話費(fèi)支付方式 年齡 性別 收入估計 婚姻狀態(tài) 孩子數(shù)量 是否有汽車,278,流失分析模型,在流失分析規(guī)則導(dǎo)出中我們應(yīng)用C5.0模型建立模型 在流失分析營銷預(yù)演中我們應(yīng)用神經(jīng)網(wǎng)絡(luò)建立模型,流失分析規(guī)則導(dǎo)出,280,數(shù)據(jù)流總體,281,超級節(jié)點(diǎn)1規(guī)則總結(jié),282,超級節(jié)點(diǎn)2規(guī)則對應(yīng)(Clementine自動生成),283,超級節(jié)點(diǎn)3指定客戶,可以在該節(jié)點(diǎn)中根據(jù)需要指定對哪些客戶是否流失進(jìn)行分析,284,主要結(jié)果1,生成了預(yù)測客戶是否流失的決策樹圖如下(片斷):,285,主要結(jié)果2,生成了客戶流失和不流失的若干規(guī)則如下:,286,主要結(jié)果3針對指定客戶的流失規(guī)則(1),例如針對年齡小于30歲的客戶我們可以得到如下流失情況和對應(yīng)流失規(guī)則:,287,主要結(jié)果4針對指定客戶的流失規(guī)則(2),我們也可以針對某一個客戶給出詳細(xì)的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 納米科學(xué)與技術(shù)
- 種子銷售經(jīng)營管理制度(3篇)
- 精細(xì)化能耗管理制度(3篇)
- 藥房營運(yùn)活動方案策劃(3篇)
- 請假外出審批管理制度內(nèi)容(3篇)
- 《GA 777.2-2008指紋數(shù)據(jù)代碼 第2部分:指紋紋型代碼》專題研究報告
- 中學(xué)宿舍管理規(guī)則制度
- 養(yǎng)老院入住評估與管理制度
- 企業(yè)員工培訓(xùn)與職業(yè)成長路徑制度
- 交通監(jiān)控設(shè)備管理規(guī)范制度
- 化學(xué)●廣西卷丨2024年廣西普通高中學(xué)業(yè)水平選擇性考試高考化學(xué)真題試卷及答案
- 人衛(wèi)基礎(chǔ)護(hù)理學(xué)第七版試題及答案
- 煙草物流寄遞管理制度
- 被打和解協(xié)議書范本
- 《糖尿病合并高血壓患者管理指南(2025版)》解讀
- 養(yǎng)老院敬老院流動資產(chǎn)管理制度
- 工程施工計劃與資源配置
- 監(jiān)理掛靠合同協(xié)議
- 機(jī)械密封安裝及維護(hù)培訓(xùn)
- 噴粉廠噴粉施工方案
- 廣東省湛江市雷州市2024-2025學(xué)年七年級上學(xué)期期末語文試題(原卷版+解析版)
評論
0/150
提交評論