聚類分析算法解析_第1頁
聚類分析算法解析_第2頁
聚類分析算法解析_第3頁
聚類分析算法解析_第4頁
聚類分析算法解析_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

聚類分析算法分析一、非相似矩陣計算1.加載數(shù)據(jù)數(shù)據(jù)(iris)str(iris)分類分析是沒有指導的分類,因此從數(shù)據(jù)中刪除原始分類變量。iris $ Species-空2.非相似矩陣計算不相似的矩陣計算,即距離矩陣計算,r中的dist()函數(shù)或cluster包中的daisy()函數(shù)。Dist()函數(shù)的基本形式如下Dist (x,method= euclidean ,diag=false,upper=false,p=2)其中x是數(shù)據(jù)框(數(shù)據(jù)集),方法是歐式距離“euclidean”,最大距離“maximum”,絕對值距離“manhattan”,“canberra”,二進制距離不對稱“binary”默認值是計算歐式距離,并且所有屬性必須是相同類型。例如,連續(xù)類型或兩種值類型。Dd-dist(iris)Str(dd)距離矩陣可以使用as.matrix()函數(shù)變形矩陣形狀,以便于顯示。iris數(shù)據(jù)150例樣本之間的距離矩陣150矩陣。下面是示例1到5之間的歐洲距離。Dd-as.matrix(dd)其次,使用hclust()進行血統(tǒng)群集(層次群集)1.群集函數(shù)r中包含的群集函數(shù)為hclust(),是血統(tǒng)群集方法?;竞瘮?shù)命令如下結(jié)果對象-hclust(距離對象,method=方法)Hclust()可用的類之間距離計算方法包括偏差法“ward”、最短距離法“single”、最大距離法“complete”、平均距離法“average”、“mcquitty”下面使用平均距離方法進行群集。Hc-hclust (dist (iris),method= ave )2.群集函數(shù)的結(jié)果群集結(jié)果對象包含許多群集分析的結(jié)果,可以使用數(shù)據(jù)組件的方法列出相應的計算結(jié)果。Str(hc)下列出了群集結(jié)果對象hc中包含的merge和height結(jié)果值的前六個值。行號表示群集進程的階段,X1、X2表示在該階段組合的兩個類。其中負數(shù)表示原始示例序列號,正數(shù)表示新創(chuàng)建的類。Height變量表示合并時兩個類之間的距離。例如,步驟1合并示例102和143。示例之間的距離為0.0,合并的類使用該步驟的步長編號顯示。也就是說,樣例-102和-143合并為一個類。行6表示類之間的距離為0.1,合并的類稱為6類的示例11和49的合并。Head (hc$merge,hc$height)群集結(jié)果對象HC中包含的merge和height結(jié)果值的步驟50到55的結(jié)果,如下所示。步驟50的結(jié)果表明示例43與13類(即步驟13的群集聯(lián)合結(jié)果)合并。所有類編號負j表示原始數(shù)據(jù)的示例編號,正I表示在群集過程的第I階段形成的新類。步驟54將在群集過程的步驟7和37中形成的類合并到新類中,新類成為54類,類之間的距離為0.2641715。Data.frame (HC $ merge,HC $ height) 503369053.繪制群集圖群集完成后,可以使用plot()繪制群集的樹圖。Plot (HC,hang=-1,labels=iris $ species)4.指定分類和類中心群集觀察樹可以發(fā)現(xiàn),數(shù)據(jù)示例很多,圖形變得復雜,確定合理的分類不容易,為了簡化圖形,可以使用cutree()檢查初始分類結(jié)果,先確定每個樣本原始分類的類數(shù),然后使用hclust()重新聚類,最后得到最終分類結(jié)果。Memb-cutree(hc,k=10) #確定10個分類Table(memb) #不同類型的示例數(shù)要重新聚集,必須計算每個類中心的類中心,如下所示:其中,每種類型的平均矢量表示每個類的中心。Cent-NULLFor (k in 1333610)、Cent-rbind (cent,colmeans (iris sample memb=k,drop=false)如果有各種類中心,請再次使用hclust()函數(shù)從類10開始重新啟動群集。Hclust()函數(shù)現(xiàn)在需要指定各種類中心,并使用中心方法進行群集。Hc1-hclust (dist,method= centroid ,members=table (memb)Plot(hc1)Hc1重新群集的樹非常簡單。在樹形圖中決定三個類別更合適。4.輸出最終分類結(jié)果使用Cutree()確定輸出每個示例的最終分類。Memb-cutree(hc,k=3 #)確定三個分類Table(memb) #不同類型的示例數(shù)以下是聚類結(jié)果與原始分類的比較結(jié)果,表明聚類結(jié)果良好。錯誤率約為14/150=9.33%。5.直接數(shù)據(jù)距離陣列群集您可以直接輸入距離矩陣,然后使用as.dist()函數(shù)將它轉(zhuǎn)換為可以在hclust()中使用的距離數(shù)組對象,最后使用hclust()執(zhí)行群集分析。X-read.table(text=Id BA FI MI VO RM TOBA 0 662 877 255 412 996Fi 6620 295 468 268 268 400美國877 295 0 754 564 138VO 255 468 754 0 219 869RM 412 268 564 219 0 669TO 996 400 138 869 669 0 ,header=T)Rs(x)-x$idX$id-NULLx轉(zhuǎn)換為距離陣列。X-as.dist(x)Hc -hclust(x)顯示群集進程。Data.frame(hc$merge,hc$height)繪制群集圖。Plot(hc2)在聚類圖中,聚合為兩類更為合適。Cutree(hc2,2)所以BA、VO、RM聚集到一類,TO、FI、MI聚集到另一類。四、使用集群包進行集群分析1.距離矩陣計算除了可以使用Dist()函數(shù)外,還可以使用daisy()函數(shù),這樣在加載cluster包后可以使用更多的數(shù)據(jù)類型。如果原始數(shù)據(jù)表包含混合數(shù)據(jù)(即屬性變量連續(xù)且分類),則dist()計算不完美,使用daisy()函數(shù)不會有任何問題。Daisy()要求加載cluster包。第一次使用時也必須安裝。Install.packages (cluster ,repos= HTT/25/rpkg)庫(群集)雛菊()函數(shù)可以采用以下形式使用:包含歐式距離“euclidean”、絕對值距離和“manhattan”、“gower”的daisy()。Dd2-菊花(iris)Dd2-as.matrix(dd1)2.使用agens()群集Cluster軟件包提供了兩種由下而上的a bottom-up配置的分層群集方法。數(shù)據(jù)示例首先由每個數(shù)據(jù)示例組成,然后通過合并方法的群集過程成為包含所有示例的大類。Agnes()函數(shù)將此功能稱為合并層群集。Diana()會使用相反的a top-down,先將所有樣本視為一個類別,然后透過類別分割程序,最后將樣本分割為個別的范例類別。這稱為分割方法。Agens()函數(shù)的形式如下Agnes(x,diss=true | false,metric= euclidean ,stand=false | true,Method= average ,par.method,keep.diss=n 100,keep.data=!Diss)其中diss指定x對象是否為非歷史矩陣對象。與hclust()函數(shù)不同,Agnes()可以同時使用原始數(shù)據(jù)和距離數(shù)組。Stand需要標準化數(shù)據(jù),而類之間距離的計算方法包括“平均值”平均方法、UPGMA、single最短距離方法、complete最大距離方法、ward“偏差”方法、weighted平均距離方法和“weighted”指定是否在Keep.diss和keep.data結(jié)果中保留非歷史矩陣和數(shù)據(jù)。保留這些結(jié)果需要更多內(nèi)存。Ag-Agnes (iris,diss=f,metric= euclidean ,stand=f,method= single )Data.frame (ag $ merge,ag $ h

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論