《數(shù)據(jù)挖掘原理與應(yīng)用 第2版 》課件 10.2WEKA數(shù)據(jù)挖掘應(yīng)用-Explorer_第1頁(yè)
《數(shù)據(jù)挖掘原理與應(yīng)用 第2版 》課件 10.2WEKA數(shù)據(jù)挖掘應(yīng)用-Explorer_第2頁(yè)
《數(shù)據(jù)挖掘原理與應(yīng)用 第2版 》課件 10.2WEKA數(shù)據(jù)挖掘應(yīng)用-Explorer_第3頁(yè)
《數(shù)據(jù)挖掘原理與應(yīng)用 第2版 》課件 10.2WEKA數(shù)據(jù)挖掘應(yīng)用-Explorer_第4頁(yè)
《數(shù)據(jù)挖掘原理與應(yīng)用 第2版 》課件 10.2WEKA數(shù)據(jù)挖掘應(yīng)用-Explorer_第5頁(yè)
已閱讀5頁(yè),還剩42頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第10章WEKA數(shù)據(jù)挖掘應(yīng)用ExplorerExplorer2Explorer主界面3Preprocess(數(shù)據(jù)預(yù)處理)載入將要進(jìn)行處理的數(shù)據(jù),可進(jìn)行適當(dāng)選擇和修改;Classify(分類)建立分類或回歸模型,并進(jìn)行測(cè)試;Cluster(聚類分析)從數(shù)據(jù)中建立聚類模型和結(jié)果;Associate(關(guān)聯(lián)分析)從數(shù)據(jù)中學(xué)習(xí)關(guān)聯(lián)規(guī)則;SelectAttributes(選擇屬性)通過對(duì)數(shù)據(jù)屬性的評(píng)估來選擇數(shù)據(jù)中最相關(guān)的屬性;Visualize(可視化)

查看數(shù)據(jù)的二維散布圖Preprocess·數(shù)據(jù)準(zhǔn)備4WEKAExplorerPreprocessClassifyClusterAssociateSelectAttributesVisualize數(shù)據(jù)準(zhǔn)備數(shù)據(jù)篩選數(shù)據(jù)可視化數(shù)據(jù)載入數(shù)據(jù)生成數(shù)據(jù)編輯數(shù)據(jù)轉(zhuǎn)換5PreProcess預(yù)處理Preprocess(數(shù)據(jù)預(yù)處理)數(shù)據(jù)準(zhǔn)備數(shù)據(jù)篩選數(shù)據(jù)屬性選擇數(shù)據(jù)可視化6Preprocess·數(shù)據(jù)準(zhǔn)備7載入數(shù)據(jù)打開一個(gè)本地?cái)?shù)據(jù)文件支持的格式主要包括:ARFFCSVC4.5JsonbinaryARFF數(shù)據(jù)文件WEKA軟件安裝好后,會(huì)提供一些以ARFF格式存放的實(shí)驗(yàn)數(shù)據(jù)可以在安裝目錄的data文件夾下找到(例如:C:\ProgramFiles\WEKA-3-9\data)8Preprocess·數(shù)據(jù)準(zhǔn)備9請(qǐng)求一個(gè)存有數(shù)據(jù)的URL地址載入數(shù)據(jù)Preprocess·數(shù)據(jù)準(zhǔn)備10從數(shù)據(jù)庫(kù)中讀取數(shù)據(jù)載入數(shù)據(jù)Preprocess·數(shù)據(jù)準(zhǔn)備11從一些數(shù)據(jù)生成器(DataGenerators)中生成隨機(jī)數(shù)據(jù)載入數(shù)據(jù)Preprocess·數(shù)據(jù)準(zhǔn)備數(shù)據(jù)生成生成滿足一定要求的實(shí)驗(yàn)數(shù)據(jù)單擊主界面上的

按鈕(a)數(shù)據(jù)生成的界面(b)選擇數(shù)據(jù)生成算法(c)配置數(shù)據(jù)生成的參數(shù)(d)所生成的數(shù)據(jù)12Preprocess·數(shù)據(jù)準(zhǔn)備13數(shù)據(jù)編輯查看和編輯數(shù)據(jù)Preprocess·數(shù)據(jù)準(zhǔn)備14保存數(shù)據(jù),可完成數(shù)據(jù)格式轉(zhuǎn)換數(shù)據(jù)轉(zhuǎn)換Preprocess·數(shù)據(jù)準(zhǔn)備15數(shù)據(jù)轉(zhuǎn)換Preprocess·數(shù)據(jù)篩選使用篩選器Filter來對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)類型變換數(shù)據(jù)屬性篩選數(shù)據(jù)實(shí)例篩選等等16點(diǎn)擊

Choose按鈕,可選擇某個(gè)Filter,選定的篩選器的名稱顯示在按鈕右側(cè)的文本框中點(diǎn)擊

Apply按鈕完成篩選Preprocess·數(shù)據(jù)可視化1718Classify分類分析Classify(分類分析)決策樹分類貝葉斯分類器Logistic回歸分類人工神經(jīng)網(wǎng)絡(luò)分類支持向量機(jī)分類基于規(guī)則的分類19Classify(分類分析)功能界面選擇算法和參數(shù)設(shè)置測(cè)試選項(xiàng)運(yùn)行結(jié)果列表運(yùn)行結(jié)果細(xì)節(jié)運(yùn)行狀態(tài)20Classify·決策樹分類J4821選擇算法,設(shè)置參數(shù)Classify(J48)參數(shù)v3.8.022binarySplits:設(shè)置是否對(duì)Nominal類型的屬性進(jìn)行二叉分裂;默認(rèn)值為False。collapseTree:設(shè)置是否按照使訓(xùn)練數(shù)據(jù)集上分類誤差(ClassificationError)最小的原則進(jìn)行剪枝。confidenceFactor:設(shè)置用于修剪的置信因子(小于該值導(dǎo)致修剪);默認(rèn)值為0.25。debug:設(shè)置分類器運(yùn)行時(shí)是否在控制臺(tái)輸出更為詳細(xì)的的信息;默認(rèn)值為False。Donotmakesplitpointactualvalue.minNumObj:設(shè)置決策樹葉結(jié)點(diǎn)的最小實(shí)例數(shù)量,默認(rèn)值為2。numFolds:設(shè)置將數(shù)據(jù)集分為的折數(shù),其中1折將用于剪枝計(jì)算,剩余的用于生成決策樹,默認(rèn)值為2。reducedErrorPruning:設(shè)置是否使用REP剪枝,而非使用C4.5算法默認(rèn)的EBP剪枝。seed:設(shè)置隨機(jī)數(shù)生成器的種子值。所產(chǎn)生的隨機(jī)數(shù)用于對(duì)REP剪枝所用的數(shù)據(jù)進(jìn)行隨機(jī)排列。useMDLcorrection:設(shè)置確定連續(xù)屬性劃分時(shí),是否在使用MDL(MinimumDescriptionLength準(zhǔn)則)方法修正。useLaplace:設(shè)置是否基于拉普拉斯平滑來進(jìn)行葉結(jié)點(diǎn)計(jì)數(shù);默認(rèn)值為False。unpruned:設(shè)置是否不進(jìn)行C4.5算法默認(rèn)的EBP剪枝。saveInstanceData:設(shè)置是否保存訓(xùn)練數(shù)據(jù),以便后續(xù)進(jìn)行展示;默認(rèn)值為False。subtreeRaising:設(shè)置C4.5的EBP剪枝是否也考慮和評(píng)估子樹上升的修剪方法。TestOptions23Usetrainingset:設(shè)置使用訓(xùn)練數(shù)據(jù)集來對(duì)模型進(jìn)行評(píng)估。Suppliedtestset:設(shè)置使用額外的測(cè)試數(shù)據(jù)集來對(duì)模型進(jìn)行評(píng)估。TestOptions24Cross-validationFolds:設(shè)置使用n折交叉測(cè)試。TestOptions25Percentagesplit:設(shè)置按照一定的百分比將數(shù)據(jù)集劃分為訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集來完成分析。TestOptions26Outputmodel:設(shè)置是否輸出所建立的分類模型。Outputper-classstats:設(shè)置是否輸出測(cè)試結(jié)果中各個(gè)類的統(tǒng)計(jì)信息。Outputentropyevaluatoinmeasures:設(shè)置是否輸出基于熵的評(píng)估指標(biāo)。Outputconfusionmatrix:設(shè)置是否輸出混淆矩陣。Storepredictionsforvisualization:設(shè)置保存預(yù)測(cè)結(jié)果,以便隨后進(jìn)行可視化分析。RandomseedforXVal/%Split:設(shè)置交叉驗(yàn)證和按百分比劃分訓(xùn)練和測(cè)試數(shù)據(jù)集時(shí),隨機(jī)劃分的種子值。ResultList27Classify·貝葉斯分類器選擇算法,設(shè)置參數(shù)28useKernelEstimator:設(shè)置是否對(duì)于數(shù)值型屬性值使用核概率密度估計(jì)而非使用正態(tài)分布。useSupervisedDiscretization:設(shè)置是否使用帶監(jiān)督的離散化將Numeric屬性值轉(zhuǎn)換為Nominal類型。Classify·貝葉斯分類器查看運(yùn)行結(jié)果29Classify·Logistic回歸分類選擇算法,設(shè)置參數(shù)30ridge:設(shè)置對(duì)數(shù)似然方程的ridge值。useConjugateGradientDescent:設(shè)置是否使用共軛梯度法(而不是BFGS算法)進(jìn)行回歸方程的優(yōu)化求解計(jì)算(對(duì)于多系數(shù)的回歸方程,較為快速)。maxIts:設(shè)置最大迭代次數(shù)。默認(rèn)值為-1,表示不限定。Classify·人工神經(jīng)網(wǎng)絡(luò)分類選擇算法,設(shè)置參數(shù)31Classify·人工神經(jīng)網(wǎng)絡(luò)分類32GUI:設(shè)置是否運(yùn)行時(shí)彈出圖形界面,顯示人工神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu);默認(rèn)值為False。autoBuild:設(shè)置是否自動(dòng)添加網(wǎng)絡(luò)中的連接和隱層。decay:設(shè)置是否用初始學(xué)習(xí)速率除以迭代次數(shù)來決定當(dāng)前的學(xué)習(xí)速率。hiddenLayers:設(shè)置定義神經(jīng)網(wǎng)絡(luò)的各隱藏層中神經(jīng)處理單元的數(shù)量。learningRate:設(shè)置神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)率。momentum:設(shè)置當(dāng)更新weights時(shí)添加的動(dòng)量nominalToBinaryFilter:設(shè)置是否將nominal值轉(zhuǎn)換為二值的numeric類型。normalizeAttributes:設(shè)置是否對(duì)數(shù)據(jù)進(jìn)行正則化(normalize)處理。normalizeNumericClass:設(shè)置是否對(duì)數(shù)值型分類屬性值進(jìn)行正則化。trainTime:設(shè)置對(duì)網(wǎng)絡(luò)參數(shù)訓(xùn)練的次數(shù)。validationSetSize:設(shè)置測(cè)試數(shù)據(jù)集的大小比例。設(shè)為0表示不運(yùn)用validationThreshold的作用(運(yùn)用trainTime)。validationThreshold:設(shè)置測(cè)試停止條件閾值,為誤差持續(xù)變壞的次數(shù)。reset:設(shè)置是否允許網(wǎng)絡(luò)將學(xué)習(xí)率復(fù)位到較低的值,重新進(jìn)行訓(xùn)練。Classify·支持向量機(jī)分類33Classify·基于規(guī)則的分類3435Cluster聚類分析Cluster聚類分析Kmeans層次聚類DBSCAN36Cluster·Kmeans聚類37Cluster·Kmeans聚類38

設(shè)置最低canopy密度,默認(rèn)值2。如果用canopy聚類方法進(jìn)行初始化,修剪時(shí)的canopy最低密度。設(shè)置修剪周期,默認(rèn)值11。如果用canopy聚類方法進(jìn)行初始化,修剪低密度canopies周期。設(shè)置canopy聚類T1半徑,默認(rèn)值-1.25。設(shè)置canopy聚類T2半徑,默認(rèn)值-1。設(shè)置是否為調(diào)試模式并輸出調(diào)試信息,默認(rèn)值False。設(shè)置是否顯示標(biāo)準(zhǔn)差并統(tǒng)計(jì)標(biāo)稱類型屬性各類別樣本數(shù)目,默認(rèn)值False。設(shè)置距離函數(shù),默認(rèn)值為EuclideanDistance,或選擇其他距離函數(shù)。設(shè)置是否不檢查適用范圍,默認(rèn)值為False。設(shè)置是否不替換缺失值,默認(rèn)值為False。設(shè)置是否加速距離計(jì)算,默認(rèn)值為False。Kmeans聚類參數(shù)Kmeans聚類參數(shù)39設(shè)置初始化質(zhì)心的方法,默認(rèn)值為Random。還可以設(shè)置為k-means++、canopy、farthestfirst。設(shè)置最大迭代次數(shù),默認(rèn)值500。設(shè)置簇的數(shù)目,默認(rèn)值為2。設(shè)置運(yùn)算執(zhí)行線程數(shù),默認(rèn)值為1,。可以設(shè)置為可用CPU的數(shù)目。設(shè)置是否保持實(shí)例的原有順序,默認(rèn)值False。設(shè)置是否減少計(jì)算距離數(shù)目,默認(rèn)值為False,指在進(jìn)行canopy聚類初始化時(shí),減少計(jì)算距離的數(shù)目。設(shè)置隨機(jī)數(shù)種子,默認(rèn)值為10。Kmeans聚類參數(shù)Cluster·Kmeans聚類40Cluster·層次聚類41Cluster·層次聚類42Cluster·DBSCAN聚類43Cluster·DBSCAN聚類4445Associate關(guān)聯(lián)分析Associate(關(guān)聯(lián)分析)Apriori算法FPGrowth算法46分析過程PreProcess載入數(shù)據(jù)(NormalBasket.ARFF)Associate選擇算法AprioriFPGrowth設(shè)置算法參數(shù)AprioriFPGrowthStart運(yùn)行評(píng)估結(jié)果47NormalBasket.ARFF48940instances11attributesApriori算法參數(shù)49car是否為基于分類屬性的關(guān)聯(lián)分析(需由classIndex指定分類屬性)。classindex指定分類屬性所在的列(-1為最后一列),僅當(dāng)car=True時(shí)有效。delta支持度閾值由upperBoundMinSupport遞減至直至lowerBoundMinSupport或產(chǎn)生了滿足數(shù)量要求的規(guī)則的迭代步長(zhǎng)。doNotCheckCapababilities是否不檢查關(guān)聯(lián)器的適用范圍。lowerBoundMinSupport迭代過程中,支持度閾值下界。默認(rèn)值為0.1。metricType關(guān)聯(lián)規(guī)則度量指標(biāo)類型。可以是置信度Confidence,提升度Lift,杠桿率Leverage,確信度Conviction。minMtric由metricType指定的度量的閾值。numRules要發(fā)現(xiàn)的關(guān)聯(lián)規(guī)則個(gè)數(shù)。outputItemSets是否在運(yùn)行結(jié)果中輸出項(xiàng)集。removeAllMissingCols是否去除均為缺失值的屬性。significanceLevel設(shè)置卡方檢驗(yàn)的顯著性水平。重要性測(cè)試(僅用于置信度)。upperBoundMinSupport支持度閾值上界。從這個(gè)值開始迭代減小支持度閾值。verbose算法是否以冗余模式運(yùn)行。FPGrowth算法參數(shù)50Delta同Apriori算法參數(shù)。doNotCheckCapababilities同Apriori算法參數(shù)。findAllRulesForSupportLevel是否提取滿足支持度閾值和metricType所定義的度量閾值的所有關(guān)聯(lián)規(guī)則。lowerBoundMinSupport同Apriori算法參數(shù)。maxNumberOfIte

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論