Hadoo項目實戰(zhàn)教程Mahou數(shù)據(jù)挖掘工具2_第1頁
Hadoo項目實戰(zhàn)教程Mahou數(shù)據(jù)挖掘工具2_第2頁
Hadoo項目實戰(zhàn)教程Mahou數(shù)據(jù)挖掘工具2_第3頁
Hadoo項目實戰(zhàn)教程Mahou數(shù)據(jù)挖掘工具2_第4頁
Hadoo項目實戰(zhàn)教程Mahou數(shù)據(jù)挖掘工具2_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

Hadoop大數(shù)據(jù)解決方案進階應(yīng)用Hadoop講師:迪倫(北風(fēng)網(wǎng)版權(quán)所有)Mahout數(shù)據(jù)挖掘工具(2)數(shù)據(jù)挖掘常用方法

數(shù)據(jù)分析工具Mahout支持的算法課程目標回歸分析回歸分析方法反映的是事務(wù)數(shù)據(jù)庫中屬性值在時間上的特征步驟:確定變量->建立預(yù)測模型->進行相關(guān)分析->計算預(yù)測誤差->確定預(yù)測值分類器找出數(shù)據(jù)庫中一組數(shù)據(jù)對象的共同特點并按照分類模式將其劃分為不同的類分類預(yù)測的方法

訓(xùn)練:訓(xùn)練集——>特征選取——>訓(xùn)練——>分類器

分類:新樣本——>特征選取——>分類——>判定常用算法:決策樹、KNN法、SVM法、VSM法、Bayes法、神經(jīng)網(wǎng)絡(luò)聚類把一組數(shù)據(jù)按照相似性和差異性分為幾個類別常見算法:K-means聚類,K-medoid聚類、GMM、層次聚類等聚類GMM將k個高斯模型混合在一起,每個點出現(xiàn)的概率是幾個高斯混合的結(jié)果層次聚類假設(shè)有N個待聚類的樣本,對于層次聚類來說,基本步驟就是:1、(初始化)把每個樣本歸為一類,計算每兩個類之間的距離,也就是樣本與樣本之間的相似度2、尋找各個類之間最近的兩個類,把他們歸為一類(這樣類的總數(shù)就少了一個)3、重新計算新生成的這個類與各個舊類之間的相似度4、重復(fù)2和3直到所有樣本點都歸為一類,結(jié)束整個聚類過程其實是建立了一棵樹,在建立的過程中,可以通過在第二步上設(shè)置一個閾值,當(dāng)最近的兩個類的距離大于這個閾值

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論