數(shù)據(jù)挖掘與系統(tǒng)平臺(tái)使用原理培訓(xùn)教材_第1頁(yè)
數(shù)據(jù)挖掘與系統(tǒng)平臺(tái)使用原理培訓(xùn)教材_第2頁(yè)
數(shù)據(jù)挖掘與系統(tǒng)平臺(tái)使用原理培訓(xùn)教材_第3頁(yè)
數(shù)據(jù)挖掘與系統(tǒng)平臺(tái)使用原理培訓(xùn)教材_第4頁(yè)
數(shù)據(jù)挖掘與系統(tǒng)平臺(tái)使用原理培訓(xùn)教材_第5頁(yè)
已閱讀5頁(yè),還剩301頁(yè)未讀 繼續(xù)免費(fèi)閱讀

付費(fèi)下載

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)挖掘與 Clementine使用培訓(xùn) 北京瑞斯泰得數(shù)據(jù)技術(shù)開(kāi)發(fā)有限公司 2015/8/4 Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 1 一、數(shù)據(jù)挖掘概述 什么是數(shù)據(jù)挖掘 數(shù)據(jù)挖掘的實(shí)現(xiàn)路線和流程 數(shù)據(jù)挖掘方法論 CRISP-DM Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 2 為什么進(jìn)行數(shù)據(jù)挖掘? 商業(yè)觀點(diǎn) 業(yè)務(wù)中產(chǎn)生了大量的數(shù)據(jù),這些數(shù)據(jù)存儲(chǔ)在業(yè)務(wù)系統(tǒng)中卻不能創(chuàng)造價(jià)值 客戶(hù)信息數(shù)據(jù) 客戶(hù)交易行為數(shù)據(jù) 客戶(hù)反饋數(shù)據(jù) 網(wǎng)絡(luò)數(shù)據(jù) 計(jì)算機(jī)變得越來(lái)越便宜、功能卻越來(lái)越強(qiáng)大 商業(yè)競(jìng)爭(zhēng)越來(lái)越激烈,對(duì)客戶(hù)了解越多就意味著機(jī)會(huì)越大 Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 3 為什么進(jìn)行數(shù)據(jù)挖掘? 技術(shù)觀點(diǎn) 業(yè)務(wù)中的數(shù)據(jù)量呈現(xiàn)指數(shù)增長(zhǎng)( GB/小時(shí)) 傳統(tǒng)技術(shù)難以從這些大量數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值的規(guī)律 數(shù)據(jù)挖掘可以幫助我們從大量數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值的規(guī)律 05 0 0 , 0 0 01 , 0 0 0 , 0 0 01 , 5 0 0 , 0 0 02 , 0 0 0 , 0 0 02 , 5 0 0 , 0 0 03 , 0 0 0 , 0 0 03 , 5 0 0 , 0 0 04 , 0 0 0 , 0 0 01995 1996 1997 1998 1999The Data Gap Total new disk (TB) since 1995 Number of analysts From: R. Grossman, C. Kamath, V. Kumar, Data Mining for Scientific and Engineering Applications Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 4 一個(gè)市場(chǎng)營(yíng)銷(xiāo)的例子 在數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值的規(guī)則或者模式 女性對(duì)市場(chǎng)活動(dòng)做出回應(yīng),男性對(duì)市場(chǎng)活動(dòng)不做出回應(yīng),和年齡無(wú)關(guān) Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 5 一個(gè)市場(chǎng)營(yíng)銷(xiāo)的例子 數(shù)據(jù)變的復(fù)雜會(huì)如何? 女性對(duì)市場(chǎng)活動(dòng)做出回應(yīng),老年男性也可能對(duì)市場(chǎng)活動(dòng)做出回應(yīng) Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 6 一個(gè)市場(chǎng)營(yíng)銷(xiāo)的例子 數(shù)據(jù)挖掘可以從異常復(fù)雜的數(shù)據(jù)中發(fā)現(xiàn)規(guī)律 通過(guò)數(shù)據(jù)挖掘發(fā)現(xiàn)回應(yīng)的 5條規(guī)則: 1、如果收入大于 29622,有孩子,并且孩子的數(shù)量小于等于 2,那么對(duì)市場(chǎng)活動(dòng)會(huì)回應(yīng) 通過(guò)數(shù)據(jù)挖掘發(fā)現(xiàn)不回應(yīng)的 5條規(guī)則: 1、如果收入小于 12640.3,并且有一個(gè)孩子,那么對(duì)市場(chǎng)活動(dòng)不會(huì)回應(yīng) Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 7 數(shù)據(jù)挖掘收益分析 向 60%的客戶(hù)發(fā)信,得到了 90%的收益 數(shù)據(jù)挖掘的意義 Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 8 利潤(rùn)分析圖 Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 9 數(shù)據(jù)挖掘效果模擬分析 數(shù)據(jù)挖掘以前 數(shù)據(jù)挖掘以后 差別 發(fā)信的數(shù)量 1,000,000 750,000 (250,000) 成本 $1,000,000 $750,000 ($250,000) 響應(yīng)的數(shù)量 10,000 9,000 (1,000) 每個(gè)響應(yīng)的收入 $125 $125 $0 總收入 $1,250,000 $1,125,000 ($125,000) 凈利潤(rùn) $250,000 $375,000 $125,000 建模的費(fèi)用 0 40,000 $40,000 最終的利潤(rùn) $250,000 $335,000 $85,000 目的:發(fā)現(xiàn)新客戶(hù) (使響應(yīng)率從 1%提高到 1.2%) Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 10 什么是數(shù)據(jù)挖掘? 不同的定義 從大量數(shù)據(jù)中發(fā)現(xiàn)非平凡的、先前不知道的、有價(jià)值的規(guī)律的過(guò)程 從大量數(shù)據(jù)中自動(dòng)化(或者半自動(dòng)化)的發(fā)現(xiàn)有價(jià)值規(guī)律的過(guò)程 數(shù)據(jù)挖掘的其他名稱(chēng) 數(shù)據(jù)庫(kù)內(nèi)知識(shí)發(fā)現(xiàn)( KDD- Knowledge discovery in databases ) 數(shù)據(jù) /模式分析 商業(yè)智能 人工智能 Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 11 數(shù)據(jù)挖掘的起源 來(lái)源于機(jī)器學(xué)習(xí) /人工智能、模式識(shí)別、統(tǒng)計(jì)學(xué)和數(shù)據(jù)庫(kù) 傳統(tǒng)技術(shù)的局限性 巨量的數(shù)據(jù) 高維數(shù)據(jù) 數(shù)據(jù)分布不理想 機(jī)器學(xué)習(xí) / 模式識(shí)別 統(tǒng)計(jì)學(xué) 數(shù)據(jù)挖掘 數(shù)據(jù)庫(kù)系統(tǒng) Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 12 數(shù)據(jù)挖掘面臨的挑戰(zhàn) 海量數(shù)據(jù) 高維數(shù)據(jù) 數(shù)據(jù)復(fù)雜性 數(shù)據(jù)質(zhì)量問(wèn)題 數(shù)據(jù)所有權(quán)和分布 隱私問(wèn)題 Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 13 數(shù)據(jù)挖掘方法論 項(xiàng)目順利實(shí)施的保證 商業(yè)理解 數(shù)據(jù)理解 數(shù)據(jù)準(zhǔn)備 建立模型 模型評(píng)估 模型發(fā)布 Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 14 商業(yè)理解 商業(yè) 理解 數(shù)據(jù) 理解 數(shù)據(jù) 準(zhǔn)備 建立 模型 模型 評(píng)估 結(jié)果 發(fā)布 確定商業(yè) 目標(biāo) 形勢(shì)評(píng)估 確定數(shù)據(jù) 挖掘目標(biāo) 制定項(xiàng)目 計(jì)劃 背景 商業(yè)目標(biāo) 成功標(biāo)準(zhǔn) 擁有資源 需求、假定 和限制 風(fēng)險(xiǎn)和 偶然性 專(zhuān)業(yè) 術(shù)語(yǔ) 成本和 收益 數(shù)據(jù)挖掘 目標(biāo) 數(shù)據(jù)挖掘 成功標(biāo)準(zhǔn) 項(xiàng)目計(jì)劃 工具和方法 評(píng)估 Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 15 數(shù)據(jù)理解 商業(yè) 理解 數(shù)據(jù) 理解 數(shù)據(jù) 準(zhǔn)備 建立 模型 模型 評(píng)估 結(jié)果 發(fā)布 收集原始 數(shù)據(jù) 數(shù)據(jù)描述 數(shù)據(jù)探索 性分析 數(shù)據(jù)質(zhì)量 描述 數(shù)據(jù)收集 報(bào)告 數(shù)據(jù)描述 報(bào)告 探索性數(shù)據(jù) 分析報(bào)告 數(shù)據(jù)質(zhì)量 報(bào)告 Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 16 數(shù)據(jù)準(zhǔn)備 商業(yè) 理解 數(shù)據(jù) 理解 數(shù)據(jù) 準(zhǔn)備 建立 模型 模型 評(píng)估 結(jié)果 發(fā)布 選擇數(shù)據(jù) 確定分析包含 /剔除數(shù)據(jù) 數(shù)據(jù)集 數(shù)據(jù)集 描述 數(shù)據(jù)清理 數(shù)據(jù)清理報(bào)告 數(shù)據(jù)重構(gòu) 生成新的變量(字段) 生成新的記錄 整合數(shù)據(jù) 合并相關(guān)數(shù)據(jù) 格式化數(shù)據(jù) 改變數(shù)據(jù)格式,適應(yīng)分析 Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 17 建立模型 商業(yè) 理解 數(shù)據(jù) 理解 數(shù)據(jù) 準(zhǔn)備 建立 模型 模型 評(píng)估 結(jié)果 發(fā)布 選擇建模 技術(shù) 產(chǎn)生檢驗(yàn) 設(shè)計(jì) 建立模型 評(píng)價(jià)模型 模型 技術(shù) 模型假設(shè) 檢驗(yàn)設(shè)計(jì) 參數(shù)設(shè)定 建模 模型評(píng)價(jià) 參數(shù)設(shè)定 的修訂 模型描述 Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 18 模型評(píng)估 商業(yè) 理解 數(shù)據(jù) 理解 數(shù)據(jù) 準(zhǔn)備 建立 模型 模型 評(píng)估 結(jié)果 發(fā)布 結(jié)果評(píng)估 數(shù)據(jù)挖掘 過(guò)程回顧 確定下一 步的工作 評(píng)估數(shù)據(jù) 挖掘結(jié)果 被認(rèn)可的模型 數(shù)據(jù)挖掘過(guò)程 的回顧 列出可能 的行動(dòng) 決策 Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 19 結(jié)果發(fā)布 商業(yè) 理解 數(shù)據(jù) 理解 數(shù)據(jù) 準(zhǔn)備 建立 模型 模型 評(píng)估 結(jié)果 發(fā)布 發(fā)布結(jié)果 計(jì)劃 監(jiān)測(cè)和維護(hù) 模型計(jì)劃 生成最終數(shù)據(jù) 挖掘報(bào)告 項(xiàng)目回顧 結(jié)果發(fā)布計(jì)劃 監(jiān)測(cè)和維護(hù) 模型計(jì)劃 最終數(shù)據(jù) 挖掘報(bào)告 數(shù)據(jù)挖掘 報(bào)告展現(xiàn) 項(xiàng)目檢驗(yàn) 總結(jié) Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 20 商業(yè)理解是數(shù)據(jù)挖掘的起點(diǎn) C2 C1 解決方案 商業(yè)價(jià)值 商業(yè)需要 Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 21 商業(yè)理解的內(nèi)容 數(shù)據(jù)挖掘能解決什么樣的商業(yè)問(wèn)題? 數(shù)據(jù)挖掘得到的結(jié)果,是否可以采取相應(yīng)的行動(dòng)以提高利潤(rùn)或降低成本? 我們期望模型能夠給我們?cè)鯓拥木_率? 有那些前提假定? Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 22 約束分析 時(shí)間約束分析 資源約束分析 人力資源 數(shù)據(jù)資源 軟件資源 硬件資源 Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 23 制定特定的數(shù)據(jù)挖掘目標(biāo) 制定的數(shù)據(jù)挖掘目標(biāo)應(yīng)具有: 可評(píng)估性( assessable) 可實(shí)現(xiàn)性( attainable) Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 24 如何給定一個(gè)數(shù)據(jù)挖掘問(wèn)題 是檢驗(yàn)性數(shù)據(jù)挖掘還是探索性數(shù)據(jù)挖掘? 確定哪些是可以實(shí)現(xiàn)的數(shù)據(jù)挖掘問(wèn)題 結(jié)果可測(cè)度性 信息(數(shù)據(jù))的可獲得性 評(píng)估和控制其他相關(guān)因素的影響 Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 25 數(shù)據(jù)來(lái)源與數(shù)據(jù)之間的關(guān)系 Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 26 使數(shù)據(jù)適合數(shù)據(jù)挖掘 對(duì)數(shù)據(jù)進(jìn)行適當(dāng)?shù)暮喜⒑蛥R總 一般數(shù)據(jù)挖掘分析都要一個(gè)行 列 (記錄 變量)的二維表,必須把從不同數(shù)據(jù)源得到的不同格式的數(shù)據(jù)整合成這樣一張表,要求: 所有的記錄含有排列順序一致的變量 所有記錄的變量信息是完整的(理想化狀態(tài),在現(xiàn)實(shí)中很難達(dá)到) Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 27 檢查數(shù)據(jù)質(zhì)量 影響數(shù)據(jù)質(zhì)量的幾個(gè)主要問(wèn)題 缺失值 不合理值 不同數(shù)據(jù)源的不一致 異常值 Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 28 對(duì)數(shù)據(jù)進(jìn)行適當(dāng)?shù)淖儞Q 數(shù)據(jù)的標(biāo)準(zhǔn)化變換 生成新的變量 數(shù)據(jù)的重新編碼 數(shù)據(jù)降維,從變量角度或者從記錄角度 Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 29 數(shù)據(jù)挖掘模型的分類(lèi) 數(shù)據(jù)描述和匯總 (Data description and summarization) 細(xì)分 (Segmentation) 概念描述 (Concept descriptions) 分類(lèi) (Classification) 預(yù)測(cè) (Prediction) 相關(guān)分析 (Dependency analysis) Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 30 數(shù)據(jù)挖掘技術(shù)的分類(lèi) 數(shù)據(jù)挖掘 描述 預(yù)測(cè) 統(tǒng)計(jì)回歸 關(guān)聯(lián)規(guī)則 決策樹(shù) 可視化 聚類(lèi) 順序關(guān)聯(lián) 匯總 神經(jīng)網(wǎng)絡(luò) 分類(lèi) 時(shí)間序列預(yù)測(cè) Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 31 數(shù)據(jù)挖掘的典型結(jié)果 金融 問(wèn)題描述:預(yù)測(cè)信用水平是好還是差,銀行據(jù)此決定是否向客戶(hù)發(fā)放貸款,發(fā)放多少 結(jié)果描述 :(決策樹(shù)) 收入大于 5萬(wàn)元 /年 是 否 有無(wú)儲(chǔ)蓄帳戶(hù) 是否房主 否 是 是 否 批準(zhǔn) 不批準(zhǔn) 批準(zhǔn) Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 32 數(shù)據(jù)挖掘的典型結(jié)果 電信 問(wèn)題描述:根據(jù)客戶(hù)信息,預(yù)測(cè)客戶(hù)流失可能性 結(jié)果描述 :(神經(jīng)網(wǎng)絡(luò)) 輸 入 流失概率 ( 0.87) 輸 出 男 29 3000元 /月 套餐 A 130元 /月 Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 33 數(shù)據(jù)挖掘的典型結(jié)果 零售 問(wèn)題描述:如何決定超市中商品的擺放來(lái)增加銷(xiāo)售額 結(jié)果描述 :(Web圖) Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 34 數(shù)據(jù)挖掘的典型結(jié)果 制造業(yè) 問(wèn)題描述:如何對(duì)市場(chǎng)進(jìn)行細(xì)分,使產(chǎn)品滿足最有價(jià)值客戶(hù) 結(jié)果描述 :(Koholen聚類(lèi)) Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 35 數(shù)據(jù)挖掘的典型結(jié)果 政府 問(wèn)題描述:如何從眾多申請(qǐng)經(jīng)費(fèi)或者納稅中發(fā)現(xiàn)欺詐 結(jié)果描述 :(回歸、神經(jīng)網(wǎng)絡(luò)) Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 36 檢驗(yàn)的形式 方法層面的檢驗(yàn) 訓(xùn)練集和檢驗(yàn)集 不同方法的互相印證和比較 模型準(zhǔn)確性的檢驗(yàn) : 商業(yè)層面上的檢驗(yàn) 利潤(rùn)率的檢驗(yàn) 模型結(jié)果可操作性的檢驗(yàn) 其他檢驗(yàn) Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 37 關(guān)注那些錯(cuò)誤的預(yù)測(cè) Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 38 數(shù)據(jù)挖掘不成功的幾種可能性 糟糕的數(shù)據(jù) 組織抵制 結(jié)果沒(méi)有被有效的發(fā)布 得到了無(wú)用的結(jié)果 Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 39 模型發(fā)布的形式 書(shū)面報(bào)告 數(shù)據(jù)庫(kù)更新 針對(duì)特定主題的應(yīng)用系統(tǒng) Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 40 數(shù)據(jù)挖掘的體系結(jié)構(gòu) 用戶(hù)界面 SPSS Data Access Pack Clementine Solutions Publisher Runtime C/S結(jié)構(gòu)或B/S結(jié)構(gòu) 發(fā)布數(shù)據(jù)挖掘模型 C/S結(jié)構(gòu) 建立數(shù)據(jù)挖掘模型 數(shù)據(jù)庫(kù) 模型庫(kù) 分析員 Clementine Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 41 Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 42 二、 Clementine概述 Clementine在數(shù)據(jù)挖掘中的地位 Clementine發(fā)展歷史 Clementine的配置 Clementine操作基礎(chǔ) Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 43 數(shù)據(jù)挖掘的一般流程及數(shù)據(jù)挖掘軟件在數(shù)據(jù)挖掘過(guò)程中的地位 Better data mining results ! Insight Business problem ? What you know Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 44 數(shù)據(jù)挖掘方法論 項(xiàng)目順利實(shí)施的保證 商業(yè)理解 數(shù)據(jù)理解 數(shù)據(jù)準(zhǔn)備 建立模型 模型評(píng)估 模型發(fā)布 Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 45 Clementine發(fā)展歷程 Clementine是 ISL (Integral Solutions Limited)公司開(kāi)發(fā)的數(shù)據(jù)挖掘工具平臺(tái) 1998年 SPSS公司收購(gòu)了 ISL公司 ,對(duì)Clementine產(chǎn)品進(jìn)行重新整合和開(kāi)發(fā) ,現(xiàn)在Clementine已經(jīng)成為 SPSS公司的又一亮點(diǎn) 1998-2007 Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 46 Clementine的軟件構(gòu)成 Clementine Client; Clementine Server; Clementine Batch; SPSS Data Access Pack; Clementine Solution Publisher (Optional)。 Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 47 Clementine的兩種運(yùn)行方式 單機(jī)版運(yùn)行 以下情況必須使用單機(jī)版運(yùn)行: 數(shù)據(jù)存儲(chǔ)在本機(jī),且不能在網(wǎng)絡(luò)上共享; 機(jī)器不聯(lián)網(wǎng); 無(wú) Clementine Server可供使用。 以下情況可以使用單機(jī)版運(yùn)行: 要處理的數(shù)據(jù)量很小(比如:小于 2M)并且數(shù)據(jù)存儲(chǔ)在單機(jī)或可到達(dá)局域網(wǎng)處; 單機(jī)內(nèi)存、硬盤(pán)相對(duì)要處理的數(shù)據(jù)量來(lái)說(shuō)足夠大,并且速度也滿足要求。 C/S結(jié)構(gòu)運(yùn)行 以下情況必須使用 C/S結(jié)構(gòu)運(yùn)行: 單機(jī)內(nèi)存或者硬盤(pán)不夠大,難以運(yùn)行大量數(shù)據(jù); 單機(jī)上沒(méi)有或者無(wú)法配置數(shù)據(jù)連結(jié),無(wú)法從數(shù)據(jù)庫(kù)中獲取數(shù)據(jù); 組織規(guī)則不允許下載大量數(shù)據(jù)到單機(jī)。 以下情況可以使用 C/S結(jié)構(gòu)運(yùn)行: 要處理的數(shù)據(jù)量很大,并且存儲(chǔ)在可以通過(guò) SPSS Data Access技術(shù)可到達(dá)的數(shù)據(jù)庫(kù)處; 單機(jī)速度慢, Clementine Server運(yùn)行的機(jī)器配置高。 Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 48 Clementine的系統(tǒng)結(jié)構(gòu) Clementine的三層結(jié)構(gòu) : 1、數(shù)據(jù)庫(kù)層; 通過(guò) Clementine Server進(jìn)行調(diào)度,把那些可以通過(guò) SQL語(yǔ)句執(zhí)行的數(shù)據(jù)操作過(guò)程以 SQL語(yǔ)句的形式導(dǎo)入數(shù)據(jù)庫(kù)并在其中進(jìn)行; 2、服務(wù)器端; 進(jìn)行調(diào)度,不能在數(shù)據(jù)庫(kù)層面進(jìn)行的操作在服務(wù)器端進(jìn)行(比如數(shù)據(jù)挖掘模型計(jì)算過(guò)程) 3、客戶(hù)端。 在三層結(jié)構(gòu)下通過(guò) Clementine Server進(jìn)行調(diào)度,由客戶(hù)端向服務(wù)器端發(fā)送數(shù)據(jù)挖掘指令,并接受和展示數(shù)據(jù)挖掘結(jié)果。 Clementine Client和 Clementine Server通過(guò) SDL( Stream Description Language )之間進(jìn)行信息交換, Clementine Server和Database通過(guò) SQL語(yǔ)句進(jìn)行信息交換。 Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 49 Clementine運(yùn)行的兩種方式 圖形界面方式 適用操作系統(tǒng) Windows系列 特點(diǎn): 圖形化界面 與客戶(hù)直接交互 適合交互式分析過(guò)程 命令行方式 使用操作系統(tǒng) Windows系列 Unix系列 特點(diǎn): 命令行操作 不能生成圖形,所有結(jié)果保存在文件里或者數(shù)據(jù)庫(kù)中 適合于以下情況使用: 1. 運(yùn)行耗時(shí)較長(zhǎng)的建模過(guò)程 2. 希望在后臺(tái)運(yùn)行一些耗時(shí)較長(zhǎng)的數(shù)據(jù)準(zhǔn)備 3. 過(guò)程希望按照一定的時(shí)間定期運(yùn)行(比如每周、每月等) 4. 希望把 Clementine(數(shù)據(jù)挖掘過(guò)程)運(yùn)行過(guò)程嵌入應(yīng)用系統(tǒng)中 Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 50 Clementine的界面和設(shè)計(jì)思路 可視化界面 四個(gè)區(qū)域分別是建模區(qū)、結(jié)點(diǎn)區(qū)、模型描述區(qū)、項(xiàng)目管理區(qū) 通過(guò)連接結(jié)點(diǎn)構(gòu)成數(shù)據(jù)流建立模型 Clementine通過(guò) 6類(lèi)結(jié)點(diǎn)的連接完成數(shù)據(jù)挖掘工作,它們是: Source(源結(jié)點(diǎn) ):Database、 Var. Files等 Record Ops (記錄處理結(jié)點(diǎn) ):Select、 Sample等 Field Ops(字段處理結(jié)點(diǎn) ):Type、 Filter等 Graphs(圖形結(jié)點(diǎn) ):Plot、 Distribute等 Modeling(模型結(jié)點(diǎn) ):Neural Net、 C5.0等 Output(輸出結(jié)點(diǎn) ):Table、 Matrix等 Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 51 Clementine操作基本知識(shí) 鼠標(biāo)應(yīng)用 三鍵與雙鍵鼠標(biāo) 左鍵 選擇節(jié)點(diǎn)或圖標(biāo)置于建模區(qū) 右鍵 激活浮動(dòng)菜單 中鍵 連接或斷開(kāi)兩個(gè)節(jié)點(diǎn) 幫助 Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 52 Clementine操作基本知識(shí) 節(jié)點(diǎn)的增加,以 為例 Click Sources, Click , Click 流區(qū)域 ” Click Sources, Double Click Click Sources, Drag to 流區(qū)域 ” 節(jié)點(diǎn)的刪除 Click , Delete Right Click , Click Delete 節(jié)點(diǎn)的移動(dòng): Drag Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 53 Clementine操作基本知識(shí) 節(jié)點(diǎn)的編輯 Double Click Right Click , Click Edit 節(jié)點(diǎn)的重命名和解釋 Right Click , Click Edit,Click Annotations Double Click , Click Annotations Right Click , Click Rename and Annotations 拷貝、粘貼 Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 54 Clementine操作基本知識(shí) 構(gòu)建流時(shí)節(jié)點(diǎn)的連接 Highlight , Add to the Canvas Right Click , Click Connect, Click Drag the middle mutton from to 構(gòu)建流時(shí)節(jié)點(diǎn)連接的刪除 Right Click or , Click Disconnect Right Click Connection, Click Delete Connection Double Click or Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 55 Clementine操作基本知識(shí) 流的執(zhí)行 Highlight “ Stream” , Click Right Click , Click “ Execute” In the Edit Window of the , Click “ Execute” 流的保存 幫助 Help Menu Dialogue Window Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 56 一個(gè)例子 羅斯文商貿(mào)公司 商業(yè)問(wèn)題: 微軟公司提供的案例數(shù)據(jù)庫(kù) 羅斯文商貿(mào)公司,如何對(duì)客戶(hù)價(jià)值進(jìn)行評(píng)估 背景介紹: 1.羅斯文商貿(mào)公司是 Microsoft數(shù)據(jù)庫(kù)產(chǎn)品( Access, SQL Server等 )中的一個(gè)示例數(shù)據(jù)庫(kù); 2.它虛擬了一家經(jīng)銷(xiāo)日用品的商貿(mào)公司的情況; 3.目前該公司保存的歷史數(shù)據(jù)資料,見(jiàn)下頁(yè); 4.我們需要對(duì)客戶(hù)的價(jià)值進(jìn)行評(píng)估,以便采取有效的市場(chǎng)銷(xiāo)售策略。 Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 57 羅斯林商貿(mào)公司數(shù)據(jù) Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 58 羅斯文商貿(mào)公司統(tǒng)計(jì)問(wèn)題 數(shù)據(jù)挖掘問(wèn)題: ( 1)如何描述客戶(hù)價(jià)值? 購(gòu)買(mǎi)總金額?購(gòu)買(mǎi)頻次?平均每次購(gòu)買(mǎi)金額?最近購(gòu)買(mǎi)金額?它們的線性組合? 使用最簡(jiǎn)單的購(gòu)買(mǎi)總金額 ( 2)需要什么樣的數(shù)據(jù)挖掘方法? 描述匯總?分類(lèi)?預(yù)測(cè)?概念描述?細(xì)分?相關(guān)分析? 使用最簡(jiǎn)單的描述匯總 ( 3)需要的數(shù)據(jù)從哪里來(lái)? 從以下幾個(gè)來(lái)源: 客戶(hù) 訂單 訂單明細(xì) Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 59 羅斯文商貿(mào)公司商業(yè)問(wèn)題解決方案 商業(yè)問(wèn)題解決方案 從所有客戶(hù)中找出最有價(jià)值的 10個(gè)客戶(hù),將名單發(fā)給市場(chǎng)部門(mén),讓其對(duì)這些客戶(hù)進(jìn)行更多的關(guān)注 Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 60 Clementine的優(yōu)化 包括兩個(gè)方面的優(yōu)化 結(jié)構(gòu)優(yōu)化 用戶(hù)優(yōu)化 Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 61 結(jié)構(gòu)優(yōu)化 把中間結(jié)果存儲(chǔ)在 Server上(盡量使用server版處理) 從數(shù)據(jù)流上整理考慮的執(zhí)行數(shù)據(jù)流(能一步完成的處理盡量不要分解到多個(gè)執(zhí)行) 減少數(shù)據(jù)的遷移(數(shù)據(jù)提前進(jìn)行規(guī)劃) Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 62 用戶(hù)優(yōu)化 自動(dòng)優(yōu)化數(shù)據(jù)流:當(dāng)使用這一選項(xiàng)時(shí),Clementine將重寫(xiě)數(shù)據(jù)流以使效率最高(可以通過(guò) Clementine Server中的sql_rewriting_enabled來(lái)調(diào)整是否可以使用) 1.優(yōu)化的 SQL生成。使盡可能的操作在數(shù)據(jù)庫(kù)內(nèi)進(jìn)行。 2.優(yōu)化 Clementine執(zhí)行。調(diào)整數(shù)據(jù)降維的操作盡可能接近數(shù)據(jù)源完成。 手動(dòng)優(yōu)化數(shù)據(jù)流 1.操作順序:有些操作可以在 SQL中完成,有些操作不能在 SQL中完成,盡可能把能夠在 SQL中完成的一起排在前面 2.數(shù)據(jù)類(lèi)型:盡可能在源節(jié)點(diǎn)處由用戶(hù)自定義數(shù)據(jù)類(lèi)型,而不是Clementine自動(dòng)讀取。 Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 63 一個(gè)數(shù)據(jù)挖掘的實(shí)例 客戶(hù)信用級(jí)別判斷系統(tǒng) Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 64 問(wèn)題的提出 如何通過(guò)數(shù)據(jù)挖掘?qū)崿F(xiàn)小靈通信用級(jí)別的判斷系統(tǒng) 某電信公司按照某種標(biāo)準(zhǔn)將小靈通客戶(hù)信用等級(jí)分為 5類(lèi),分別是 gradeA、 gradeB 、gradeC、 gradeX、 gradeY?,F(xiàn)在希望建立一套系統(tǒng),能夠使得市場(chǎng)部人員根據(jù)用戶(hù)的幾項(xiàng)關(guān)鍵的個(gè)人基本信息判斷該客戶(hù)的信用級(jí)別,從而有針對(duì)性地對(duì)其采用不同的市場(chǎng)營(yíng)銷(xiāo)策略。 Beijing Stats Data Mining Co. Ltd. Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 www.b

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論