《數(shù)據(jù)挖掘原理與應(yīng)用 第2版 》課件 第10章 WEKA數(shù)據(jù)挖掘應(yīng)用_第1頁(yè)
《數(shù)據(jù)挖掘原理與應(yīng)用 第2版 》課件 第10章 WEKA數(shù)據(jù)挖掘應(yīng)用_第2頁(yè)
《數(shù)據(jù)挖掘原理與應(yīng)用 第2版 》課件 第10章 WEKA數(shù)據(jù)挖掘應(yīng)用_第3頁(yè)
《數(shù)據(jù)挖掘原理與應(yīng)用 第2版 》課件 第10章 WEKA數(shù)據(jù)挖掘應(yīng)用_第4頁(yè)
《數(shù)據(jù)挖掘原理與應(yīng)用 第2版 》課件 第10章 WEKA數(shù)據(jù)挖掘應(yīng)用_第5頁(yè)
已閱讀5頁(yè),還剩89頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第10章WEKA數(shù)據(jù)挖掘應(yīng)用WEKA簡(jiǎn)介WEKAWEKA的全名是懷卡托智能分析環(huán)境(WaikatoEnvironmentforKnowledgeAnalysis)2WEKA也是新西蘭的一種鳥(niǎo)名WEKAWEKA軟件是新西蘭懷卡托大學(xué)(http://www.waikato.ac.nz)的計(jì)算機(jī)科學(xué)系的機(jī)器學(xué)習(xí)小組用Java開(kāi)發(fā)的機(jī)器學(xué)習(xí)/數(shù)據(jù)挖掘開(kāi)源軟件機(jī)器學(xué)習(xí)小組網(wǎng)址:http://www.cs.waikato.ac.nz/ml/index.html主要項(xiàng)目即為WEKA3WEKA2005年8月,在第11屆ACMSIGKDD國(guó)際會(huì)議上,懷卡托大學(xué)的WEKA小組榮獲了數(shù)據(jù)挖掘和知識(shí)探索領(lǐng)域的最高服務(wù)獎(jiǎng),WEKA系統(tǒng)得到了廣泛的認(rèn)可,被譽(yù)為數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)歷史上的里程碑,是現(xiàn)今最完備的數(shù)據(jù)挖掘工具之一4目前,WEKA的每月下載次數(shù)已超過(guò)萬(wàn)次WEKAWEKA幾乎可以運(yùn)行在所有操作系統(tǒng)平臺(tái)上,包括Linux、Windows、Macintosh等綜合性數(shù)據(jù)挖掘工具:集數(shù)據(jù)預(yù)處理、學(xué)習(xí)算法(分類、回歸、聚類、關(guān)聯(lián)分析)和評(píng)估方法等為一體具有交互式可視化界面,提供算法學(xué)習(xí)比較環(huán)境,通過(guò)其提供的接口,可實(shí)現(xiàn)自己的數(shù)據(jù)挖掘算法5WEKA安裝與運(yùn)行目前(2020年),WEKA的最新穩(wěn)定版本為3.8.4,可以進(jìn)入WEKA開(kāi)發(fā)組的下載頁(yè)面,根據(jù)操作系統(tǒng)和使用情況,選擇合適安裝包下載和安裝。WEKA項(xiàng)目組也在進(jìn)行3.9版本的開(kāi)發(fā)和調(diào)試工作,網(wǎng)站也提供WEKA3.9的下載。6WEKA安裝與運(yùn)行下載安裝包:http://www.cs.waikato.ac.nz/ml/index.htmlWEKA需要Java虛擬機(jī)的支持,需事先安裝所需版本的Java虛擬機(jī)。為了用戶方便,WEKA也提供集成了Java虛擬機(jī)安裝程序的安裝包查找下載類如WEKA-3-8-0jre(withOracle's32-bitJavaVM1.8).exe進(jìn)行安裝即可安裝完成Java虛擬機(jī)和WEKA軟件7WEKA安裝與運(yùn)行WEKA軟件的代碼是開(kāi)源的,其源代碼獲取可以從http://www.cs.waikato.ac.nz/ml/WEKA/上獲取。安裝完成后,點(diǎn)擊圖標(biāo)即可運(yùn)行WEKA軟件8WEKA安裝與運(yùn)行從WEKA運(yùn)行主界面可以看出,WEKA的主要模塊包括:Explorer探索環(huán)境Experimenter算法試驗(yàn)環(huán)境KnowledgeFlow知識(shí)流環(huán)境Workbench工作臺(tái)SimpleCLI命令行環(huán)境910探索環(huán)境命令行環(huán)境知識(shí)流環(huán)境算法試驗(yàn)環(huán)境WEKA的功能模塊Arff數(shù)據(jù)格式WEKA存儲(chǔ)數(shù)據(jù)的格式是ARFF(Attribute-RelationFileFormat)文件,這是一種ASCII文本文件。寫字板打開(kāi)weather.numeric.arff記事本打開(kāi)weather.numeric.arff11Arff數(shù)據(jù)格式注釋以“%”開(kāi)始的行是注釋,WEKA將忽略這些行。關(guān)系聲明關(guān)系名稱定義格式為:@relation<relation-name>屬性聲明定義它的屬性名稱和數(shù)據(jù)類型,格式為:@attribute<attribute-name><datatype>WEKA支持的<datatype>有四種,分別是:numeric(數(shù)值型)、nominal(分類型)、String(字符串型)、date(日期時(shí)間型)數(shù)據(jù)信息數(shù)據(jù)信息中“@data”標(biāo)記獨(dú)占一行,隨后為各實(shí)例的數(shù)據(jù)。實(shí)例的各屬性值用逗號(hào)“,”隔開(kāi)。如果某個(gè)屬性的值是缺失值(missingvalue),用問(wèn)號(hào)“?”表示,且這個(gè)問(wèn)號(hào)不能省略。12Arff數(shù)據(jù)格式WEKA自帶的“weather.numeric.arff”文件內(nèi)容為13%ARFFfilefortheweatherdatawithsomenumricfeatures%@relationweather@attributeoutlook{sunny,overcast,rainy}@attributetemperaturereal@attributehumidityreal@attributewindy{TRUE,FALSE}@attributeplay{yes,no}@data%14instancessunny,85,85,FALSE,nosunny,80,90,TRUE,noovercast,83,86,FALSE,yesrainy,70,96,FALSE,yesrainy,68,80,FALSE,yesrainy,65,70,TRUE,noovercast,64,65,TRUE,yessunny,72,95,FALSE,nosunny,69,70,FALSE,yesrainy,75,80,FALSE,yessunny,75,70,TRUE,yesovercast,72,90,TRUE,yesovercast,81,75,FALSE,yesrainy,71,91,TRUE,no小結(jié)WEKA完成數(shù)據(jù)挖掘相關(guān)的數(shù)據(jù)預(yù)處理分類回歸聚類關(guān)聯(lián)分析評(píng)估14第10章WEKA數(shù)據(jù)挖掘應(yīng)用ExplorerExplorer16Explorer主界面17Preprocess(數(shù)據(jù)預(yù)處理)載入將要進(jìn)行處理的數(shù)據(jù),可進(jìn)行適當(dāng)選擇和修改;Classify(分類)建立分類或回歸模型,并進(jìn)行測(cè)試;Cluster(聚類分析)從數(shù)據(jù)中建立聚類模型和結(jié)果;Associate(關(guān)聯(lián)分析)從數(shù)據(jù)中學(xué)習(xí)關(guān)聯(lián)規(guī)則;SelectAttributes(選擇屬性)通過(guò)對(duì)數(shù)據(jù)屬性的評(píng)估來(lái)選擇數(shù)據(jù)中最相關(guān)的屬性;Visualize(可視化)

查看數(shù)據(jù)的二維散布圖Preprocess·數(shù)據(jù)準(zhǔn)備18WEKAExplorerPreprocessClassifyClusterAssociateSelectAttributesVisualize數(shù)據(jù)準(zhǔn)備數(shù)據(jù)篩選數(shù)據(jù)可視化數(shù)據(jù)載入數(shù)據(jù)生成數(shù)據(jù)編輯數(shù)據(jù)轉(zhuǎn)換19PreProcess預(yù)處理Preprocess(數(shù)據(jù)預(yù)處理)數(shù)據(jù)準(zhǔn)備數(shù)據(jù)篩選數(shù)據(jù)屬性選擇數(shù)據(jù)可視化20Preprocess·數(shù)據(jù)準(zhǔn)備21載入數(shù)據(jù)打開(kāi)一個(gè)本地?cái)?shù)據(jù)文件支持的格式主要包括:ARFFCSVC4.5JsonbinaryARFF數(shù)據(jù)文件WEKA軟件安裝好后,會(huì)提供一些以ARFF格式存放的實(shí)驗(yàn)數(shù)據(jù)可以在安裝目錄的data文件夾下找到(例如:C:\ProgramFiles\WEKA-3-9\data)22Preprocess·數(shù)據(jù)準(zhǔn)備23請(qǐng)求一個(gè)存有數(shù)據(jù)的URL地址載入數(shù)據(jù)Preprocess·數(shù)據(jù)準(zhǔn)備24從數(shù)據(jù)庫(kù)中讀取數(shù)據(jù)載入數(shù)據(jù)Preprocess·數(shù)據(jù)準(zhǔn)備25從一些數(shù)據(jù)生成器(DataGenerators)中生成隨機(jī)數(shù)據(jù)載入數(shù)據(jù)Preprocess·數(shù)據(jù)準(zhǔn)備數(shù)據(jù)生成生成滿足一定要求的實(shí)驗(yàn)數(shù)據(jù)單擊主界面上的

按鈕(a)數(shù)據(jù)生成的界面(b)選擇數(shù)據(jù)生成算法(c)配置數(shù)據(jù)生成的參數(shù)(d)所生成的數(shù)據(jù)26Preprocess·數(shù)據(jù)準(zhǔn)備27數(shù)據(jù)編輯查看和編輯數(shù)據(jù)Preprocess·數(shù)據(jù)準(zhǔn)備28保存數(shù)據(jù),可完成數(shù)據(jù)格式轉(zhuǎn)換數(shù)據(jù)轉(zhuǎn)換Preprocess·數(shù)據(jù)準(zhǔn)備29數(shù)據(jù)轉(zhuǎn)換Preprocess·數(shù)據(jù)篩選使用篩選器Filter來(lái)對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)類型變換數(shù)據(jù)屬性篩選數(shù)據(jù)實(shí)例篩選等等30點(diǎn)擊

Choose按鈕,可選擇某個(gè)Filter,選定的篩選器的名稱顯示在按鈕右側(cè)的文本框中點(diǎn)擊

Apply按鈕完成篩選Preprocess·數(shù)據(jù)可視化3132Classify分類分析Classify(分類分析)決策樹(shù)分類貝葉斯分類器Logistic回歸分類人工神經(jīng)網(wǎng)絡(luò)分類支持向量機(jī)分類基于規(guī)則的分類33Classify(分類分析)功能界面選擇算法和參數(shù)設(shè)置測(cè)試選項(xiàng)運(yùn)行結(jié)果列表運(yùn)行結(jié)果細(xì)節(jié)運(yùn)行狀態(tài)34Classify·決策樹(shù)分類J4835選擇算法,設(shè)置參數(shù)Classify(J48)參數(shù)v3.8.036binarySplits:設(shè)置是否對(duì)Nominal類型的屬性進(jìn)行二叉分裂;默認(rèn)值為False。collapseTree:設(shè)置是否按照使訓(xùn)練數(shù)據(jù)集上分類誤差(ClassificationError)最小的原則進(jìn)行剪枝。confidenceFactor:設(shè)置用于修剪的置信因子(小于該值導(dǎo)致修剪);默認(rèn)值為0.25。debug:設(shè)置分類器運(yùn)行時(shí)是否在控制臺(tái)輸出更為詳細(xì)的的信息;默認(rèn)值為False。Donotmakesplitpointactualvalue.minNumObj:設(shè)置決策樹(shù)葉結(jié)點(diǎn)的最小實(shí)例數(shù)量,默認(rèn)值為2。numFolds:設(shè)置將數(shù)據(jù)集分為的折數(shù),其中1折將用于剪枝計(jì)算,剩余的用于生成決策樹(shù),默認(rèn)值為2。reducedErrorPruning:設(shè)置是否使用REP剪枝,而非使用C4.5算法默認(rèn)的EBP剪枝。seed:設(shè)置隨機(jī)數(shù)生成器的種子值。所產(chǎn)生的隨機(jī)數(shù)用于對(duì)REP剪枝所用的數(shù)據(jù)進(jìn)行隨機(jī)排列。useMDLcorrection:設(shè)置確定連續(xù)屬性劃分時(shí),是否在使用MDL(MinimumDescriptionLength準(zhǔn)則)方法修正。useLaplace:設(shè)置是否基于拉普拉斯平滑來(lái)進(jìn)行葉結(jié)點(diǎn)計(jì)數(shù);默認(rèn)值為False。unpruned:設(shè)置是否不進(jìn)行C4.5算法默認(rèn)的EBP剪枝。saveInstanceData:設(shè)置是否保存訓(xùn)練數(shù)據(jù),以便后續(xù)進(jìn)行展示;默認(rèn)值為False。subtreeRaising:設(shè)置C4.5的EBP剪枝是否也考慮和評(píng)估子樹(shù)上升的修剪方法。TestOptions37Usetrainingset:設(shè)置使用訓(xùn)練數(shù)據(jù)集來(lái)對(duì)模型進(jìn)行評(píng)估。Suppliedtestset:設(shè)置使用額外的測(cè)試數(shù)據(jù)集來(lái)對(duì)模型進(jìn)行評(píng)估。TestOptions38Cross-validationFolds:設(shè)置使用n折交叉測(cè)試。TestOptions39Percentagesplit:設(shè)置按照一定的百分比將數(shù)據(jù)集劃分為訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集來(lái)完成分析。TestOptions40Outputmodel:設(shè)置是否輸出所建立的分類模型。Outputper-classstats:設(shè)置是否輸出測(cè)試結(jié)果中各個(gè)類的統(tǒng)計(jì)信息。Outputentropyevaluatoinmeasures:設(shè)置是否輸出基于熵的評(píng)估指標(biāo)。Outputconfusionmatrix:設(shè)置是否輸出混淆矩陣。Storepredictionsforvisualization:設(shè)置保存預(yù)測(cè)結(jié)果,以便隨后進(jìn)行可視化分析。RandomseedforXVal/%Split:設(shè)置交叉驗(yàn)證和按百分比劃分訓(xùn)練和測(cè)試數(shù)據(jù)集時(shí),隨機(jī)劃分的種子值。ResultList41Classify·貝葉斯分類器選擇算法,設(shè)置參數(shù)42useKernelEstimator:設(shè)置是否對(duì)于數(shù)值型屬性值使用核概率密度估計(jì)而非使用正態(tài)分布。useSupervisedDiscretization:設(shè)置是否使用帶監(jiān)督的離散化將Numeric屬性值轉(zhuǎn)換為Nominal類型。Classify·貝葉斯分類器查看運(yùn)行結(jié)果43Classify·Logistic回歸分類選擇算法,設(shè)置參數(shù)44ridge:設(shè)置對(duì)數(shù)似然方程的ridge值。useConjugateGradientDescent:設(shè)置是否使用共軛梯度法(而不是BFGS算法)進(jìn)行回歸方程的優(yōu)化求解計(jì)算(對(duì)于多系數(shù)的回歸方程,較為快速)。maxIts:設(shè)置最大迭代次數(shù)。默認(rèn)值為-1,表示不限定。Classify·人工神經(jīng)網(wǎng)絡(luò)分類選擇算法,設(shè)置參數(shù)45Classify·人工神經(jīng)網(wǎng)絡(luò)分類46GUI:設(shè)置是否運(yùn)行時(shí)彈出圖形界面,顯示人工神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu);默認(rèn)值為False。autoBuild:設(shè)置是否自動(dòng)添加網(wǎng)絡(luò)中的連接和隱層。decay:設(shè)置是否用初始學(xué)習(xí)速率除以迭代次數(shù)來(lái)決定當(dāng)前的學(xué)習(xí)速率。hiddenLayers:設(shè)置定義神經(jīng)網(wǎng)絡(luò)的各隱藏層中神經(jīng)處理單元的數(shù)量。learningRate:設(shè)置神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)率。momentum:設(shè)置當(dāng)更新weights時(shí)添加的動(dòng)量nominalToBinaryFilter:設(shè)置是否將nominal值轉(zhuǎn)換為二值的numeric類型。normalizeAttributes:設(shè)置是否對(duì)數(shù)據(jù)進(jìn)行正則化(normalize)處理。normalizeNumericClass:設(shè)置是否對(duì)數(shù)值型分類屬性值進(jìn)行正則化。trainTime:設(shè)置對(duì)網(wǎng)絡(luò)參數(shù)訓(xùn)練的次數(shù)。validationSetSize:設(shè)置測(cè)試數(shù)據(jù)集的大小比例。設(shè)為0表示不運(yùn)用validationThreshold的作用(運(yùn)用trainTime)。validationThreshold:設(shè)置測(cè)試停止條件閾值,為誤差持續(xù)變壞的次數(shù)。reset:設(shè)置是否允許網(wǎng)絡(luò)將學(xué)習(xí)率復(fù)位到較低的值,重新進(jìn)行訓(xùn)練。Classify·支持向量機(jī)分類47Classify·基于規(guī)則的分類4849Cluster聚類分析Cluster聚類分析Kmeans層次聚類DBSCAN50Cluster·Kmeans聚類51Cluster·Kmeans聚類52

設(shè)置最低canopy密度,默認(rèn)值2。如果用canopy聚類方法進(jìn)行初始化,修剪時(shí)的canopy最低密度。設(shè)置修剪周期,默認(rèn)值11。如果用canopy聚類方法進(jìn)行初始化,修剪低密度canopies周期。設(shè)置canopy聚類T1半徑,默認(rèn)值-1.25。設(shè)置canopy聚類T2半徑,默認(rèn)值-1。設(shè)置是否為調(diào)試模式并輸出調(diào)試信息,默認(rèn)值False。設(shè)置是否顯示標(biāo)準(zhǔn)差并統(tǒng)計(jì)標(biāo)稱類型屬性各類別樣本數(shù)目,默認(rèn)值False。設(shè)置距離函數(shù),默認(rèn)值為EuclideanDistance,或選擇其他距離函數(shù)。設(shè)置是否不檢查適用范圍,默認(rèn)值為False。設(shè)置是否不替換缺失值,默認(rèn)值為False。設(shè)置是否加速距離計(jì)算,默認(rèn)值為False。Kmeans聚類參數(shù)Kmeans聚類參數(shù)53設(shè)置初始化質(zhì)心的方法,默認(rèn)值為Random。還可以設(shè)置為k-means++、canopy、farthestfirst。設(shè)置最大迭代次數(shù),默認(rèn)值500。設(shè)置簇的數(shù)目,默認(rèn)值為2。設(shè)置運(yùn)算執(zhí)行線程數(shù),默認(rèn)值為1,??梢栽O(shè)置為可用CPU的數(shù)目。設(shè)置是否保持實(shí)例的原有順序,默認(rèn)值False。設(shè)置是否減少計(jì)算距離數(shù)目,默認(rèn)值為False,指在進(jìn)行canopy聚類初始化時(shí),減少計(jì)算距離的數(shù)目。設(shè)置隨機(jī)數(shù)種子,默認(rèn)值為10。Kmeans聚類參數(shù)Cluster·Kmeans聚類54Cluster·層次聚類55Cluster·層次聚類56Cluster·DBSCAN聚類57Cluster·DBSCAN聚類5859Associate關(guān)聯(lián)分析Associate(關(guān)聯(lián)分析)Apriori算法FPGrowth算法60分析過(guò)程PreProcess載入數(shù)據(jù)(NormalBasket.ARFF)Associate選擇算法AprioriFPGrowth設(shè)置算法參數(shù)AprioriFPGrowthStart運(yùn)行評(píng)估結(jié)果61NormalBasket.ARFF62940instances11attributesApriori算法參數(shù)63car是否為基于分類屬性的關(guān)聯(lián)分析(需由classIndex指定分類屬性)。classindex指定分類屬性所在的列(-1為最后一列),僅當(dāng)car=True時(shí)有效。delta支持度閾值由upperBoundMinSupport遞減至直至lowerBoundMinSupport或產(chǎn)生了滿足數(shù)量要求的規(guī)則的迭代步長(zhǎng)。doNotCheckCapababilities是否不檢查關(guān)聯(lián)器的適用范圍。lowerBoundMinSupport迭代過(guò)程中,支持度閾值下界。默認(rèn)值為0.1。metricType關(guān)聯(lián)規(guī)則度量指標(biāo)類型??梢允侵眯哦菴onfidence,提升度Lift,杠桿率Leverage,確信度Conviction。minMtric由metricType指定的度量的閾值。numRules要發(fā)現(xiàn)的關(guān)聯(lián)規(guī)則個(gè)數(shù)。outputItemSets是否在運(yùn)行結(jié)果中輸出項(xiàng)集。removeAllMissingCols是否去除均為缺失值的屬性。significanceLevel設(shè)置卡方檢驗(yàn)的顯著性水平。重要性測(cè)試(僅用于置信度)。upperBoundMinSupport支持度閾值上界。從這個(gè)值開(kāi)始迭代減小支持度閾值。verbose算法是否以冗余模式運(yùn)行。FPGrowth算法參數(shù)64Delta同Apriori算法參數(shù)。doNotCheckCapababilities同Apriori算法參數(shù)。findAllRulesForSupportLevel是否提取滿足支持度閾值和metricType所定義的度量閾值的所有關(guān)聯(lián)規(guī)則。lowerBoundMinSupport同Apriori算法參數(shù)。maxNumberOfItems所產(chǎn)生的頻繁項(xiàng)集的最大項(xiàng)的個(gè)數(shù)。metricType同Apriori算法參數(shù)。minMtric同Apriori算法參數(shù)。numRulesToFind要發(fā)現(xiàn)的規(guī)則數(shù)。同Apriori算法的numRules參數(shù)。positiveIndex指定二元變量屬性的第幾個(gè)為“正”(positive)值rulesMustContain指定只有這些項(xiàng)相關(guān)的關(guān)聯(lián)規(guī)則才會(huì)輸出的數(shù)據(jù)項(xiàng)transactionMustContain指定只有這些項(xiàng)相關(guān)的事務(wù),才會(huì)被當(dāng)作輸入由FPGrowth算法處理的數(shù)據(jù)項(xiàng)upperBoundMinSupport同Apriori算法參數(shù)。useORForMustContainList是否對(duì)上述“MustContain”項(xiàng)運(yùn)用OR關(guān)系而非AND關(guān)系。關(guān)聯(lián)分析結(jié)果評(píng)估65關(guān)聯(lián)分析結(jié)果評(píng)估66Associate·FPGrowth算法6768SelectAttributes屬性選擇SelectAttributes(屬性選擇)69SelectAttributes(屬性選擇)7071Visualize可視化Visualize(可視化)72小結(jié)ExplorerPreprocessClassifyClusterAssociateSelectattributesVisualize73第10章WEKA數(shù)據(jù)挖掘應(yīng)用ExperimenterWEKAExperimenterExperimenter為使用者提供了一個(gè)進(jìn)行算法試驗(yàn)的環(huán)境,完成對(duì)多種算法方案進(jìn)行管理和統(tǒng)計(jì)檢驗(yàn)及比較。Experimenter環(huán)境可以讓用戶可創(chuàng)建一個(gè)試驗(yàn)空間,配置實(shí)驗(yàn)場(chǎng)景(scheme),對(duì)一系列數(shù)據(jù)集運(yùn)用多個(gè)算法進(jìn)行處理,分析處理結(jié)果并進(jìn)行比較,來(lái)判斷算法對(duì)不同類型的數(shù)據(jù)集的適用性。75配置Experimenter76添加weather.numeric.arff和weather.nominal.arff數(shù)據(jù)集設(shè)置了J48決策樹(shù)分類、Logisitic回歸分類、Jrip基于規(guī)則和樸素貝葉斯分類算法,并設(shè)置算法參數(shù)指定實(shí)驗(yàn)結(jié)果的輸出文件運(yùn)行Experimenter77給出運(yùn)行的狀態(tài)(包括錯(cuò)誤提示等)給出運(yùn)行過(guò)程的結(jié)果分析運(yùn)行結(jié)果78載入實(shí)驗(yàn)運(yùn)行結(jié)果,即在設(shè)置模塊中在ResultsDestination功能區(qū)所指定的文件第10章WEKA數(shù)據(jù)挖掘應(yīng)用KnowledgeFlowKnowledgeFlowKnowledgeFlow為WEKA提供了一個(gè)圖形化的“知識(shí)流”形式的界面。用戶可以從一個(gè)工具欄中選擇組件,把它們放置在面板上并按一定的順序連接起來(lái),這樣組成一個(gè)KnowledgeFlow來(lái)處理和分析數(shù)據(jù)。80KnowledgeFlow81[例]決策樹(shù)分類[例]決策樹(shù)分類完成過(guò)程:加載數(shù)據(jù)指定類別屬性確定訓(xùn)練數(shù)據(jù)集確定測(cè)試數(shù)據(jù)集指定算法并配置參數(shù)顯示模型結(jié)果對(duì)模型進(jìn)行評(píng)估顯示評(píng)估結(jié)果82[例]決策樹(shù)分類1.加載數(shù)據(jù)83使用數(shù)據(jù)載入器ArffLoader或CSVLoader

DatabaseLoaderweather.numeric.arff[例]決策樹(shù)分類2.指定類別屬性84[例]決策樹(shù)分類3.確定訓(xùn)練數(shù)據(jù)集4.確定測(cè)試數(shù)據(jù)集85[例]決策樹(shù)分類3.確定訓(xùn)練數(shù)據(jù)集4.確定測(cè)試數(shù)據(jù)集86或[例]決策樹(shù)分類5.指定算法并配置參數(shù)87[例]決策樹(shù)分類6.顯示模型結(jié)果88[例]決策樹(shù)分類7.對(duì)模型進(jìn)行評(píng)估89[例]決策樹(shù)分類8.顯示評(píng)估結(jié)果90[例]決策樹(shù)分類8.顯示評(píng)估結(jié)果91小結(jié)通過(guò)圖形化的處理過(guò)程的配置,可以記錄處理的過(guò)程,并對(duì)不同的處理過(guò)程、方法和參數(shù)所得的不同結(jié)果進(jìn)行對(duì)比分析和評(píng)估92第10章WEKA數(shù)據(jù)挖掘應(yīng)用WEKAAPIWEKAAPIWEKA還定義了豐富的應(yīng)用程序編程接口API。用戶使用其他開(kāi)發(fā)系統(tǒng)或語(yǔ)言的程序,可以非常方便地調(diào)用這些API來(lái)完成從數(shù)據(jù)加載(包括從文件進(jìn)行加載或者從數(shù)據(jù)庫(kù)進(jìn)行加載)、數(shù)據(jù)的保存、數(shù)據(jù)的處理到數(shù)據(jù)的挖掘等各項(xiàng)任務(wù)。94WEKAAPI例如,從Arff文件中讀取數(shù)據(jù)的基本讀取方式為:Instancesdata=DataSource.read("data\\iris.arff");而從數(shù)據(jù)庫(kù)中讀取數(shù)據(jù)的基本方式可以是:InstanceQueryquery=newInstanceQuery();query.setDatabaseURL("jdbc:mysql://localhost:3306/new_schema");query.setUsername("root");query.setPassword("*******");query.setQuery("s

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論