《數(shù)據(jù)挖掘原理與應(yīng)用 第2版 》課件 9.2數(shù)據(jù)挖掘的工具-選用_第1頁(yè)
《數(shù)據(jù)挖掘原理與應(yīng)用 第2版 》課件 9.2數(shù)據(jù)挖掘的工具-選用_第2頁(yè)
《數(shù)據(jù)挖掘原理與應(yīng)用 第2版 》課件 9.2數(shù)據(jù)挖掘的工具-選用_第3頁(yè)
《數(shù)據(jù)挖掘原理與應(yīng)用 第2版 》課件 9.2數(shù)據(jù)挖掘的工具-選用_第4頁(yè)
《數(shù)據(jù)挖掘原理與應(yīng)用 第2版 》課件 9.2數(shù)據(jù)挖掘的工具-選用_第5頁(yè)
已閱讀5頁(yè),還剩26頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第9章數(shù)據(jù)挖掘的工具數(shù)據(jù)挖掘工具的選用如何選擇數(shù)據(jù)挖掘系統(tǒng)不同的數(shù)據(jù)挖掘系統(tǒng)相似性較小不同的功能模塊和方法處理的數(shù)據(jù)集不同如何選擇數(shù)據(jù)挖掘系統(tǒng)數(shù)據(jù)類型(關(guān)系、文本、事務(wù)、時(shí)間序列、空間)系統(tǒng)問題(運(yùn)行的操作系統(tǒng))數(shù)據(jù)源(ODBC、多關(guān)系數(shù)據(jù)源)數(shù)據(jù)挖掘的功能和方法數(shù)據(jù)挖掘系統(tǒng)和數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的結(jié)合可伸縮性(數(shù)據(jù)庫(kù)的大小和維度)可視化工具數(shù)據(jù)挖掘查詢語(yǔ)言和圖形用戶接口數(shù)據(jù)挖掘常用工具SPSSSASWeka懷卡托智能分析環(huán)境,開放源碼的數(shù)據(jù)挖掘軟件;Matlab矩陣實(shí)驗(yàn)室美國(guó)MathWorks公司的商業(yè)數(shù)學(xué)軟件。MicrosoftSSAS(SQLSERVERAnalysisService)數(shù)據(jù)挖掘常用工具目前,世界上比較有影響的典型數(shù)據(jù)挖掘系統(tǒng)有:社會(huì)科學(xué)統(tǒng)計(jì)軟件包,適用非專業(yè)人士IBM公司的SPSS

Clementine/Modeler統(tǒng)計(jì)分析軟件,適用專業(yè)統(tǒng)計(jì)分析人員SAS公司的EnterpriseMiner基于DB2數(shù)據(jù)庫(kù)系統(tǒng)IBM公司的IntelligentMiner懷卡托智能分析環(huán)境,開放源碼的數(shù)據(jù)挖掘軟件新西蘭懷卡托大學(xué)的WEKASGI軟件SGI公司的SetMinerSybase軟件Sybase公司的WarehouseStudioSPSSModelerSPSS(StatisticalPackagefortheSocialScience)軟件是世界上著名的統(tǒng)計(jì)分析軟件之一2000年SPSS公司由于產(chǎn)品升級(jí)及業(yè)務(wù)拓展的需要,將其產(chǎn)品正式更名為SPSS(StatisticalProductandServiceSolutions),即統(tǒng)計(jì)產(chǎn)品與服務(wù)解決方案2009年,SPSS公司被IBM收購(gòu),SPSS產(chǎn)品也稱為了IBM公司眾多軟件產(chǎn)品中最為耀眼的一員IBMSPSS功能強(qiáng)大,應(yīng)用廣泛,在社會(huì)科學(xué),自然科學(xué)的各個(gè)領(lǐng)域都能發(fā)揮巨大作用6SPSSModelerSPSS易學(xué)易用,通過具有豐富菜單和對(duì)話框的用戶圖形界面(GUI),引導(dǎo)用戶進(jìn)行操作和設(shè)置各類分析選項(xiàng),提供了非常友好的用戶界面SPSS的數(shù)據(jù)挖掘產(chǎn)品是SPSSModeler直觀的操作界面自動(dòng)化的數(shù)據(jù)準(zhǔn)備和成熟的預(yù)測(cè)分析模型完全支持SPSS所推出的CRISP-DM標(biāo)準(zhǔn),針對(duì)各個(gè)階段都開發(fā)了與之相對(duì)應(yīng)的結(jié)點(diǎn)7SPSSModeler8SPSSModeler9業(yè)界領(lǐng)先的數(shù)據(jù)挖掘平臺(tái)強(qiáng)大的數(shù)據(jù)挖掘功能將復(fù)雜的統(tǒng)計(jì)方法和機(jī)器學(xué)習(xí)技術(shù)應(yīng)用到數(shù)據(jù)當(dāng)中,幫助客戶揭示隱藏在交易系統(tǒng)、ERP系統(tǒng)、結(jié)構(gòu)數(shù)據(jù)庫(kù)或普通文件中的模式和趨勢(shì),幫助客戶始終站在行業(yè)發(fā)展的前端使數(shù)據(jù)挖掘貫穿業(yè)務(wù)流程的始終,在縮短投資回報(bào)周期的同時(shí)極大提高了投資回報(bào)率。顯著的投資回報(bào)率使得SPSSModeler在業(yè)界久負(fù)盛譽(yù)。SPSSModeler102017年,IBM正式推出了IBMSPSSModeler18.1最新產(chǎn)品較以前版本在與開源技術(shù)的集成上得到了進(jìn)一步地增強(qiáng)和擴(kuò)展融入了Python和R語(yǔ)言的編寫、接入和運(yùn)行節(jié)點(diǎn)還集成了Spark2.0,直接利用其技術(shù)優(yōu)勢(shì)加速計(jì)算運(yùn)行效率最新版本的Modeler產(chǎn)品為與Hadoop系統(tǒng)集成,在處理算法性能和分布式系統(tǒng)數(shù)據(jù)源連接上進(jìn)行了加強(qiáng)。SPSSModeler11SPSSModeler12特點(diǎn)支持圖形化界面,進(jìn)行菜單驅(qū)動(dòng),支持拖拉式操作。提供豐富的接口函數(shù),便于二次開發(fā)提供了豐富的數(shù)據(jù)挖掘模型和靈活多變的數(shù)據(jù)挖掘算法數(shù)據(jù)挖掘流程易于管理、可再利用、可充分共享。支持訪問異構(gòu)數(shù)據(jù)庫(kù),具有多模型的整合能力,是的生成的模型穩(wěn)定和高效。提供模型評(píng)估的方法。挖掘結(jié)果可以集成于其他的應(yīng)用中。能夠轉(zhuǎn)化為主流格式的適當(dāng)圖形具有并行的處理能力,能夠滿足大數(shù)據(jù)量的處理要求。能夠?qū)?shù)據(jù)挖掘的過程進(jìn)行監(jiān)控,及時(shí)處理異常情況SASEnterpriseMinerSAS(STATISTICALANALYSISSYSTEM)是由美國(guó)NORTHCAROLINA州立大學(xué)1966年開發(fā)的統(tǒng)計(jì)分析軟件。SAS(StatisticalAnalysisSystem)是一個(gè)模塊化、集成化的大型應(yīng)用軟件系統(tǒng)。它由數(shù)十個(gè)專用模塊構(gòu)成,功能包括數(shù)據(jù)訪問、數(shù)據(jù)儲(chǔ)存及管理、應(yīng)用開發(fā)、圖形處理、數(shù)據(jù)分析、報(bào)告編制、運(yùn)籌學(xué)方法、計(jì)量經(jīng)濟(jì)學(xué)與預(yù)測(cè)等等。13SASEnterpriseMinerSAS系統(tǒng)基本上可以分為四大部分:SAS數(shù)據(jù)庫(kù)SAS分析核心SAS開發(fā)呈現(xiàn)工具SAS對(duì)分布處理模式的支持及其數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)SAS系統(tǒng)主要完成以數(shù)據(jù)為中心的四大任務(wù):數(shù)據(jù)訪問、數(shù)據(jù)管理、數(shù)據(jù)呈現(xiàn)、數(shù)據(jù)分析SAS持續(xù)良好的統(tǒng)計(jì)分析功能,得到了業(yè)界廣泛好評(píng),這為它在國(guó)際專業(yè)統(tǒng)計(jì)分析軟件領(lǐng)域獲得頭把交椅奠定了基礎(chǔ)。14SASEnterpriseMinerSASEnterpriseMiner是SAS軟件系統(tǒng)中的一個(gè)集成的數(shù)據(jù)挖掘系統(tǒng),允許使用和比較不同的技術(shù),同時(shí)還集成了復(fù)雜的數(shù)據(jù)庫(kù)管理軟件SASEnterpriseMiner把統(tǒng)計(jì)分析系統(tǒng)和圖形用戶界面(GUI)集成在一起,并與SAS協(xié)會(huì)定義的數(shù)據(jù)挖掘方法——SEMMA方法,即抽樣(Sample)、探索(Explore)、修改(Modify)建模(Model)、評(píng)價(jià)(Assess)緊密結(jié)合,對(duì)用戶友好、直觀、靈活、適用方便,使對(duì)統(tǒng)計(jì)學(xué)無經(jīng)驗(yàn)的用戶也可以理解和使用。15SASEnterpriseMiner16SASEnterpriseMinerEnterpriseMiner的運(yùn)行方式是通過在一個(gè)工作空間(workspace)中按照一定的順序添加各種可以實(shí)現(xiàn)不同功能的節(jié)點(diǎn),然后對(duì)不同節(jié)點(diǎn)進(jìn)行相應(yīng)的設(shè)置,最后運(yùn)行整個(gè)工作流程(workflow),便可以得到相應(yīng)的結(jié)果。17SASEnterpriseMinerEnterpriseMiner中工具分為七類:18SampleInputDataSource、Sampling、DataPartitionExploreDistributionExplorer、Multiplot、Insight、Association、VariableSelection、LinkAnalysisModifyDataSetAttribute、TransformVariable、FilterOutliers、Replacement、Clustering、SOM/Kohonen、TimeSeriesMedelRegression、Tree、NeuralNetwork、Princomp/Dmneural、UserDefinedModel、Ensemble、Memory-BasedReasoning、TwoStageModelAssessAssessment、ReporterScoringScore、C*ScoreUtilityGroupProcessing、DataMiningDatabase、SASCode、Controlpoint、SubdiagramSASEnterpriseMiner19WEKAWEKA的全名是懷卡托智能分析環(huán)境(WaikatoEnvironmentforKnowledgeAnalysis),是新西蘭懷卡托大學(xué)WEKA小組用Java開發(fā)的機(jī)器學(xué)習(xí)/數(shù)據(jù)挖掘開源軟件。WEKA是一個(gè)公開的數(shù)據(jù)挖掘工作平臺(tái),集合了大量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機(jī)器學(xué)習(xí)算法,包括對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,分類,回歸、聚類、關(guān)聯(lián)規(guī)則以及在新的交互式界面上的可視化。20WEKA其主要主要特點(diǎn)是集數(shù)據(jù)預(yù)處理、學(xué)習(xí)算法(分類、回歸、聚類、關(guān)聯(lián)分析)和評(píng)估方法等為一體的,一個(gè)綜合性數(shù)據(jù)挖掘工具,且具有交互式可視化界面,還能夠提供算法學(xué)習(xí)比較環(huán)境,通過其接口,可實(shí)現(xiàn)自己的數(shù)據(jù)挖掘算法。這是本書要用于數(shù)據(jù)挖掘的工具,將在第十章

WEKA數(shù)據(jù)挖掘應(yīng)用中進(jìn)行詳細(xì)介紹,并利用這個(gè)工具展示幾個(gè)數(shù)據(jù)挖掘的實(shí)例和算法的應(yīng)用。21MATLABMATLAB是MatrixLaboratory的簡(jiǎn)稱,是一種廣泛應(yīng)用于工程計(jì)算及數(shù)值分析領(lǐng)域的新型高級(jí)語(yǔ)言自1984年由美國(guó)MathWorks公司推出以來,歷經(jīng)發(fā)展與競(jìng)爭(zhēng),現(xiàn)已成為國(guó)際公認(rèn)的最優(yōu)秀的工程應(yīng)用開發(fā)環(huán)境和科技應(yīng)用軟件之一22MATLABMATLAB被廣泛用于數(shù)據(jù)分析、數(shù)值與符號(hào)計(jì)算、工程與科學(xué)計(jì)算、繪圖、控制系統(tǒng)設(shè)計(jì)、航天工業(yè)、汽車工業(yè)、生物醫(yī)學(xué)工程、語(yǔ)言處理、圖像與數(shù)字信號(hào)處理、財(cái)務(wù)、金融分析、建模、仿真及樣機(jī)開發(fā)、算法研究開發(fā)、圖形圖像處理等領(lǐng)域。MATLAB以強(qiáng)大的科學(xué)計(jì)算與可視化功能、簡(jiǎn)單易用、開放式可擴(kuò)展環(huán)境,特別是所附帶的多種面向不同領(lǐng)域的工具箱支持,使其在許多科學(xué)領(lǐng)域中成為計(jì)算機(jī)輔助設(shè)計(jì)和分析、算法研究和應(yīng)用開發(fā)的基本工具和首選平臺(tái)。23MATLABMATLAB具有其獨(dú)特的優(yōu)勢(shì),提供了豐富齊全的命令和多個(gè)接口,能夠非常方便地與其他平臺(tái)進(jìn)行交互和融合集成了豐富的數(shù)學(xué)模型庫(kù),能夠靈活方便和高效地進(jìn)行數(shù)據(jù)處理具有強(qiáng)大的繪圖功能,便于數(shù)據(jù)與結(jié)果的可視化處理24MATLAB25MATLAB該軟件已經(jīng)在國(guó)外的許多大學(xué)普及,在國(guó)內(nèi)大學(xué)中的應(yīng)用也日趨普遍近年來MATLAB的應(yīng)用領(lǐng)域已經(jīng)擴(kuò)展到各個(gè)行業(yè)的很多學(xué)科,在各大公司、科研機(jī)構(gòu)和高校里日益普及,得到了廣泛應(yīng)用,其自身也因此得到了迅速發(fā)展,功能不斷擴(kuò)充,現(xiàn)已發(fā)展至MATLABR2018a版本。26MATLAB最新版本除了新增了實(shí)時(shí)編輯器、AppDesigner、圖形、團(tuán)隊(duì)開發(fā)和硬件支持的新功能,在性能上較以往版本有了較大提升,還強(qiáng)化了數(shù)據(jù)分析功能的數(shù)據(jù)導(dǎo)入、數(shù)據(jù)清理、數(shù)據(jù)篩選和數(shù)據(jù)分組等功能,讓使用MATLAB來進(jìn)行數(shù)據(jù)挖掘更加方便快捷新增大數(shù)據(jù)模塊,在處理海量數(shù)據(jù)時(shí),雖然數(shù)據(jù)過大無法裝入內(nèi)存,但可借助tall數(shù)組,使用慣常的開發(fā)模式,在已有的存儲(chǔ)系統(tǒng)上(傳統(tǒng)文件系統(tǒng)、SQL/NoSQL數(shù)據(jù)庫(kù)或Hadoop/HDFS)完成數(shù)據(jù)的分析和挖掘工作。27MATLAB經(jīng)過30多年的發(fā)展,MATLAB已經(jīng)開發(fā)和集成了大量的專業(yè)工具箱。能夠在工具箱的各模塊的基礎(chǔ)上,經(jīng)過配置或修改,非常便利地進(jìn)行數(shù)據(jù)挖掘。28RR是用于統(tǒng)計(jì)分析和圖形化的計(jì)算機(jī)語(yǔ)言和操作環(huán)境。R定義了一種腳本語(yǔ)言--R語(yǔ)言用戶可以利用R語(yǔ)言,結(jié)合調(diào)用R軟件提供的大量的、功能齊全的數(shù)學(xué)和統(tǒng)計(jì)計(jì)算的函數(shù),自由靈活地進(jìn)行編寫腳本程序來進(jìn)行統(tǒng)計(jì)計(jì)算、數(shù)據(jù)分析和數(shù)據(jù)挖掘,或者創(chuàng)建符合特定需要的數(shù)學(xué)計(jì)算和統(tǒng)計(jì)計(jì)算的新的方法和函數(shù)。29R30RR也是屬于GNU

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論