數(shù)據(jù)挖掘軟件與工具_(dá)第1頁
數(shù)據(jù)挖掘軟件與工具_(dá)第2頁
數(shù)據(jù)挖掘軟件與工具_(dá)第3頁
數(shù)據(jù)挖掘軟件與工具_(dá)第4頁
數(shù)據(jù)挖掘軟件與工具_(dá)第5頁
已閱讀5頁,還剩23頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)挖掘軟件與工具2026/1/24/sundae_meng1數(shù)據(jù)挖掘是多學(xué)科知識的綜合,涵蓋了數(shù)據(jù)庫技術(shù)、統(tǒng)計(jì)學(xué)、可視化技術(shù)、信息科學(xué)、機(jī)器學(xué)習(xí)等多方面知識。數(shù)據(jù)挖掘的重要作用已為人們了解,為了實(shí)現(xiàn)有效的數(shù)據(jù)挖掘,絕大多數(shù)用戶必須借助于合適的數(shù)據(jù)挖掘軟件,所以,數(shù)據(jù)挖掘軟件的研究是數(shù)據(jù)挖掘的一個重要研究方向。2026/1/24/sundae_meng2一、數(shù)據(jù)挖掘軟件—重要研究方向3二、數(shù)據(jù)挖掘軟件的發(fā)展代次特征DM算法支持集成性分布計(jì)算數(shù)據(jù)模型可視化功能1作為一個獨(dú)立的應(yīng)用和移動數(shù)據(jù)/各種計(jì)算設(shè)備的數(shù)據(jù)聯(lián)合獨(dú)立的系統(tǒng)單個機(jī)器向量數(shù)據(jù)無2和數(shù)據(jù)庫以及數(shù)據(jù)倉庫集成多個算法:能夠挖掘一次不能放進(jìn)內(nèi)存的數(shù)據(jù)數(shù)據(jù)管理系統(tǒng),包括數(shù)據(jù)庫和數(shù)據(jù)倉庫同質(zhì)、局部區(qū)域的計(jì)算機(jī)群集有些系統(tǒng)支持對象,文本和連續(xù)的媒體數(shù)據(jù)基本圖表3和預(yù)測模型系統(tǒng)集成多個算法數(shù)據(jù)管理和預(yù)言模型系統(tǒng)intranet/extranet網(wǎng)絡(luò)計(jì)算支持半結(jié)構(gòu)化數(shù)據(jù)和web數(shù)據(jù)較復(fù)雜多維圖形及動畫4和移動數(shù)據(jù)/各種計(jì)算設(shè)備的數(shù)據(jù)聯(lián)合多個算法數(shù)據(jù)管理、預(yù)言模型、移動系統(tǒng)移動和各種計(jì)算設(shè)備普遍存在的計(jì)算模型交互式可視化挖掘流程設(shè)計(jì)和結(jié)果展示功能2026/1/24/sundae_meng數(shù)據(jù)挖掘功能2026/1/24/sundae_meng數(shù)據(jù)挖掘估計(jì)Estimation分類Classification預(yù)測Prediction關(guān)聯(lián)規(guī)則AssociationRules描述與可視化DescriptionandVisualization聚類Cluster4數(shù)據(jù)挖掘模型的分類數(shù)據(jù)描述和匯總(Datadescriptionandsummarization)細(xì)分(Segmentation)概念描述(Conceptdescriptions)分類(Classification)預(yù)測(Prediction)相關(guān)分析(Dependencyanalysis)/sundae_meng52026/1/24數(shù)據(jù)挖掘技術(shù)的分類/sundae_meng6數(shù)據(jù)挖掘描述預(yù)測統(tǒng)計(jì)回歸關(guān)聯(lián)規(guī)則決策樹可視化聚類順序關(guān)聯(lián)匯總神經(jīng)網(wǎng)絡(luò)分類時間序列預(yù)測2026/1/24數(shù)據(jù)挖掘的典型結(jié)果——金融

問題描述:預(yù)測信用水平是好還是差,銀行據(jù)此決定是否向客戶發(fā)放貸款,發(fā)放多少結(jié)果描述:(決策樹)/sundae_meng7收入大于5萬元/年是否有無儲蓄帳戶是否房主否是是否批準(zhǔn)不批準(zhǔn)批準(zhǔn)2026/1/24數(shù)據(jù)挖掘的典型結(jié)果——電信

問題描述:根據(jù)客戶信息,預(yù)測客戶流失可能性結(jié)果描述:(神經(jīng)網(wǎng)絡(luò))/sundae_meng8輸入流失概率(0.87)輸出男293000元/月套餐A130元/月…………2026/1/24數(shù)據(jù)挖掘的典型結(jié)果——零售問題描述:如何決定超市中商品的擺放來增加銷售額結(jié)果描述:(Web圖)/sundae_meng92026/1/24數(shù)據(jù)挖掘的典型結(jié)果——制造業(yè)

問題描述:如何對市場進(jìn)行細(xì)分,使產(chǎn)品滿足最有價(jià)值客戶結(jié)果描述:(Koholen聚類)/sundae_meng102026/1/24數(shù)據(jù)挖掘的典型結(jié)果——政府

問題描述:如何從眾多申請經(jīng)費(fèi)或者納稅中發(fā)現(xiàn)欺詐結(jié)果描述:(回歸、神經(jīng)網(wǎng)絡(luò))/sundae_meng112026/1/24BusinessUnderstanding商業(yè)理解過程理解商業(yè)目標(biāo)熟悉業(yè)務(wù)流程統(tǒng)一業(yè)務(wù)術(shù)語成本/收益分析當(dāng)前系統(tǒng)評估主要用戶使用者結(jié)果的輸出形式挖掘任務(wù)的結(jié)果和現(xiàn)有系統(tǒng)的集成任務(wù)分解挖掘目標(biāo)分解為子任務(wù)將商業(yè)目標(biāo)轉(zhuǎn)化為數(shù)據(jù)挖掘任務(wù)約束條件確認(rèn)資源數(shù)據(jù)保護(hù)制度等制定項(xiàng)目計(jì)劃2026/1/24/sundae_meng1商業(yè)目標(biāo)的確認(rèn)數(shù)據(jù)挖掘目標(biāo)的確定數(shù)據(jù)挖掘成功的標(biāo)準(zhǔn)12DataUnderstanding數(shù)據(jù)理解過程數(shù)據(jù)源情況數(shù)據(jù)處理范圍數(shù)據(jù)源訪問情況數(shù)據(jù)描述數(shù)據(jù)質(zhì)量描述基本統(tǒng)計(jì)值/匯總值數(shù)據(jù)探索數(shù)據(jù)分布相關(guān)性分析缺失值處理空值處理奇異值處理2026/1/24/sundae_meng2收集數(shù)據(jù)數(shù)據(jù)描述數(shù)據(jù)探索數(shù)據(jù)質(zhì)量檢查13DataPreparation數(shù)據(jù)準(zhǔn)備過程數(shù)據(jù)整合多個數(shù)據(jù)表的數(shù)據(jù)聯(lián)合數(shù)據(jù)的匯總和聚合數(shù)據(jù)選擇記錄的選擇和排除數(shù)據(jù)集合構(gòu)成:測試集,檢驗(yàn)集數(shù)據(jù)轉(zhuǎn)換函數(shù)轉(zhuǎn)換標(biāo)準(zhǔn)化處理離散化處理數(shù)據(jù)清洗數(shù)據(jù)缺失值處理數(shù)據(jù)派生新變量的生成2026/1/24/sundae_meng3數(shù)據(jù)合并和清洗數(shù)據(jù)選擇數(shù)據(jù)轉(zhuǎn)換14Modeling數(shù)據(jù)建模過程選擇合適的建模技術(shù)數(shù)據(jù)預(yù)處理的情況依賴于數(shù)據(jù)挖掘問題類型和輸出形式構(gòu)建模型訓(xùn)練環(huán)境訓(xùn)練樣本的構(gòu)建模型建立選擇初始化參數(shù)設(shè)置模型估計(jì)考慮過訓(xùn)練的情況誤差分布的調(diào)查模型參數(shù)修正及其原因2026/1/24/sundae_meng4依據(jù)目標(biāo)選擇模型構(gòu)建模型訓(xùn)練環(huán)境模型建立和評估15Evaluation模型評估過程模型評估根據(jù)專家的知識和經(jīng)驗(yàn)進(jìn)行人工評估從商業(yè)角度來評價(jià)結(jié)果的有效性定義參照對象計(jì)算升益曲線(LiftCurve)期望的投資回報(bào)率(ROI)對整個數(shù)據(jù)挖掘過程進(jìn)行回顧決定下一步驟模型發(fā)布的時機(jī)發(fā)布框架結(jié)構(gòu)進(jìn)一步改進(jìn)模型2026/1/24/sundae_meng5依據(jù)測試集模型評估不同模型的檢驗(yàn)標(biāo)準(zhǔn)技術(shù)標(biāo)準(zhǔn)和商業(yè)準(zhǔn)則16Deployment模型發(fā)布過程數(shù)據(jù)挖掘結(jié)果的發(fā)布方式模型的結(jié)果輸出到數(shù)據(jù)庫形成簡單的報(bào)表結(jié)果轉(zhuǎn)化為可解釋的業(yè)務(wù)規(guī)則在線實(shí)時地模型評分過程數(shù)據(jù)的輸入輸出與原有業(yè)務(wù)系統(tǒng)的集成實(shí)時數(shù)據(jù)的來源和結(jié)果反饋模型運(yùn)用的模式實(shí)時處理批處理自動化問題(周期)2026/1/24/sundae_meng6結(jié)果的發(fā)布方式數(shù)據(jù)挖掘結(jié)果的運(yùn)用數(shù)字到業(yè)務(wù)知識轉(zhuǎn)化17Clementine的軟件構(gòu)成ClementineClient;ClementineServer;ClementineBatch;SPSSDataAccessPack;ClementineSolutionPublisher(Optional)。/sundae_meng182026/1/24Clementine的兩種運(yùn)行方式單機(jī)版運(yùn)行以下情況必須使用單機(jī)版運(yùn)行:數(shù)據(jù)存儲在本機(jī),且不能在網(wǎng)絡(luò)上共享;機(jī)器不聯(lián)網(wǎng);無ClementineServer可供使用。以下情況可以使用單機(jī)版運(yùn)行:要處理的數(shù)據(jù)量很?。ū热纾盒∮?M)并且數(shù)據(jù)存儲在單機(jī)或可到達(dá)局域網(wǎng)處;單機(jī)內(nèi)存、硬盤相對要處理的數(shù)據(jù)量來說足夠大,并且速度也滿足要求。/sundae_meng19C/S結(jié)構(gòu)運(yùn)行以下情況必須使用C/S結(jié)構(gòu)運(yùn)行:單機(jī)內(nèi)存或者硬盤不夠大,難以運(yùn)行大量數(shù)據(jù);單機(jī)上沒有或者無法配置數(shù)據(jù)連結(jié),無法從數(shù)據(jù)庫中獲取數(shù)據(jù);組織規(guī)則不允許下載大量數(shù)據(jù)到單機(jī)。以下情況可以使用C/S結(jié)構(gòu)運(yùn)行:要處理的數(shù)據(jù)量很大,并且存儲在可以通過SPSSDataAccess技術(shù)可到達(dá)的數(shù)據(jù)庫處;單機(jī)速度慢,ClementineServer運(yùn)行的機(jī)器配置高。2026/1/24Clementine的系統(tǒng)結(jié)構(gòu)/sundae_meng20Clementine的三層結(jié)構(gòu):1、數(shù)據(jù)庫層;通過ClementineServer進(jìn)行調(diào)度,把那些可以通過SQL語句執(zhí)行的數(shù)據(jù)操作過程以SQL語句的形式導(dǎo)入數(shù)據(jù)庫并在其中進(jìn)行;2、服務(wù)器端;進(jìn)行調(diào)度,不能在數(shù)據(jù)庫層面進(jìn)行的操作在服務(wù)器端進(jìn)行(比如數(shù)據(jù)挖掘模型計(jì)算過程)3、客戶端。在三層結(jié)構(gòu)下通過ClementineServer進(jìn)行調(diào)度,由客戶端向服務(wù)器端發(fā)送數(shù)據(jù)挖掘指令,并接受和展示數(shù)據(jù)挖掘結(jié)果。ClementineClient和ClementineServer通過SDL(StreamDescriptionLanguage

)之間進(jìn)行信息交換,ClementineServer和Database通過SQL語句進(jìn)行信息交換。2026/1/24Clementine運(yùn)行的兩種方式圖形界面方式適用操作系統(tǒng)Windows系列特點(diǎn):圖形化界面與客戶直接交互適合交互式分析過程/sundae_meng21命令行方式使用操作系統(tǒng)Windows系列Unix系列特點(diǎn):命令行操作不能生成圖形,所有結(jié)果保存在文件里或者數(shù)據(jù)庫中適合于以下情況使用:運(yùn)行耗時較長的建模過程希望在后臺運(yùn)行一些耗時較長的數(shù)據(jù)準(zhǔn)備過程希望按照一定的時間定期運(yùn)行(比如每周、每月等)希望把Clementine(數(shù)據(jù)挖掘過程)運(yùn)行過程嵌入應(yīng)用系統(tǒng)中2026/1/24Clementine的界面和設(shè)計(jì)思路可視化界面四個區(qū)域分別是建模區(qū)、結(jié)點(diǎn)區(qū)、模型描述區(qū)、項(xiàng)目管理區(qū)通過連接結(jié)點(diǎn)構(gòu)成數(shù)據(jù)流建立模型Clementine通過7類結(jié)點(diǎn)的連接完成數(shù)據(jù)挖掘工作,它們是:Source(源結(jié)點(diǎn)):Database、Var.Files等RecordOps(記錄處理結(jié)點(diǎn)):Select、Sample等`FieldOps(字段處理結(jié)點(diǎn)):Type、Filter等Graphs(圖形結(jié)點(diǎn)):Plot、Distribute等Modeling(模型結(jié)點(diǎn)):NeuralNet、C5.0等Output(輸出結(jié)點(diǎn)):Table、Matrix等/sundae_meng222026/1/24七大類節(jié)點(diǎn)按功能分為七大類節(jié)點(diǎn)數(shù)據(jù)源節(jié)點(diǎn)記錄處理節(jié)點(diǎn)變量處理節(jié)點(diǎn)圖形節(jié)點(diǎn)模型節(jié)點(diǎn)輸出節(jié)點(diǎn)導(dǎo)出節(jié)點(diǎn)2026/1/24/sundae_meng23圖形基本版產(chǎn)生圖形種類2026/1/24/sundae_meng24記錄和變量的處理對于記錄的處理對于變量的處理DEMO數(shù)據(jù)探索數(shù)據(jù)清洗

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論