《多元統(tǒng)計(jì)分析及R語(yǔ)言建模》-第7章 聚類分析及R使用_第1頁(yè)
《多元統(tǒng)計(jì)分析及R語(yǔ)言建?!?第7章 聚類分析及R使用_第2頁(yè)
《多元統(tǒng)計(jì)分析及R語(yǔ)言建?!?第7章 聚類分析及R使用_第3頁(yè)
《多元統(tǒng)計(jì)分析及R語(yǔ)言建?!?第7章 聚類分析及R使用_第4頁(yè)
《多元統(tǒng)計(jì)分析及R語(yǔ)言建?!?第7章 聚類分析及R使用_第5頁(yè)
已閱讀5頁(yè),還剩23頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

多元統(tǒng)計(jì)分析及R語(yǔ)言建模7聚類分析及R使用多元統(tǒng)計(jì)分析及R語(yǔ)言建模7聚類分析及R使用內(nèi)容與要求聚類分析的目的和意義聚類分析中所使用的幾種尺度的定義初步掌握選用聚類方法與對(duì)應(yīng)距離的原則六種系統(tǒng)聚類方法的定義及其基本性質(zhì)R語(yǔ)言程序中有關(guān)聚類分析的算法基礎(chǔ)掌握R語(yǔ)言中kmeans聚類的方法和用法多元統(tǒng)計(jì)分析及R語(yǔ)言建模7聚類分析及R使用基本要求理解聚類分析的目的意義及統(tǒng)計(jì)思想了解變量類型的幾種尺度定義熟悉Q型和R型聚類分析的統(tǒng)計(jì)量的定義了解六種系統(tǒng)聚類方法及它們的統(tǒng)一公式掌握R語(yǔ)言中六種方法的具體使用步驟了解R語(yǔ)言中kmeans聚類的基本思想和用法7聚類分析及R使用7.1聚類分析的概念和類型概念和方法基本概念聚類分析法(ClusterAnalysis)是研究“物以類聚”的一種現(xiàn)代統(tǒng)計(jì)分析方法,在眾多的領(lǐng)域中,都需要采用聚類分析作分類研究。差異方法7聚類分析及R使用7.1聚類分析的概念和類型

7聚類分析及R使用7.1聚類分析的概念和類型

【例7.1】?jī)蓚€(gè)變量、九個(gè)樣品數(shù)據(jù)及其散點(diǎn)圖7聚類分析及R使用7.2聚類統(tǒng)計(jì)量7聚類分析及R使用7.2聚類統(tǒng)計(jì)量相關(guān)系數(shù)矩陣:cor(X)7聚類分析及R使用7.2聚類統(tǒng)計(jì)量D=dist(X);DR=cor(X);R7聚類分析及R使用7.3系統(tǒng)聚類法首先將個(gè)樣品分成類,每個(gè)樣品自成一類,然后每次將具有最小距離的兩類合并,合并后重新計(jì)算類與類之間的距離,這個(gè)過(guò)程一直繼續(xù)到所有的樣品歸為一類為止,并把這個(gè)過(guò)程做成一張系統(tǒng)聚類圖。系統(tǒng)聚類法的基本思想7聚類分析及R使用7.3系統(tǒng)聚類法類間距離計(jì)算方法(1)最短距離法(single)(2)最長(zhǎng)距離法(complete)(3)中間距離法(median)(4)類平均法(average)(5)重心法(centroid)(6)離差平方和法(Ward)類間距離計(jì)算公式7聚類分析及R使用7.3系統(tǒng)聚類法7聚類分析及R使用7.3系統(tǒng)聚類法基本步驟:計(jì)算n個(gè)樣品兩兩間的距離構(gòu)造n個(gè)類,每類包含1個(gè)樣品合并距離最近的兩類為1個(gè)新類計(jì)算新類與當(dāng)前各類的距離,若類個(gè)數(shù)為1,轉(zhuǎn)到第5步,否則回到第3步繪制系統(tǒng)聚類圖確定類的個(gè)數(shù)和樣品名稱例7-1數(shù)據(jù)的系統(tǒng)聚類最短距離法(采用歐氏距離)例7-1數(shù)據(jù)的系統(tǒng)聚類最長(zhǎng)距離法(采用歐氏距離)例7-1數(shù)據(jù)的系統(tǒng)聚類7聚類分析及R使用7.3系統(tǒng)聚類法2.Ward法(采用歐氏距離)hc<-hclust(dist(X),"ward")#ward距離法cbind(hc$merge,hc$height)#分類過(guò)程plot(hc)#聚類圖7聚類分析及R使用7.3系統(tǒng)聚類法【例7.2】續(xù)例3.1,為了研究全國(guó)31個(gè)省、市、自治區(qū)2007年城鎮(zhèn)居民生活消費(fèi)的分布規(guī)律,根據(jù)調(diào)查資料做區(qū)域消費(fèi)類型劃分。指標(biāo)名及原始數(shù)據(jù)見(jiàn)表3.1

自編系統(tǒng)聚類函數(shù)H.clust()的用法H.clust<-function(X,d="euc",m="comp",proc=F,plot=T)X數(shù)值矩陣或數(shù)據(jù)框,d距離計(jì)算方法(見(jiàn)上),m系統(tǒng)聚類方法(見(jiàn)上)proc是否輸出聚類過(guò)程,plot是否輸出聚類圖#在mvstats.xls:d7.2中選取A1:I32區(qū)域,然后拷貝plot(d7.2)結(jié)果輸出:7聚類分析及R使用7.3系統(tǒng)聚類法library(mvstats)H.clust(d7.2,"euclidean","single",plot=T)#最短距離法H.clust(d7.2,"euclidean","complete",plot=T)#最長(zhǎng)距離法7聚類分析及R使用7.3系統(tǒng)聚類法H.clust(d7.2,"euclidean","median",plot=T)#中間距離法H.clust(d7.2,"euclidean","average",plot=T)#類平均法7聚類分析及R使用7.3系統(tǒng)聚類法H.clust(d7.2,"euclidean","centroid",plot=T)#重心法H.clust(d7.2,"euclidean","ward",plot=T)#ward法綜合考慮以上的分析結(jié)果,筆者認(rèn)為從全國(guó)各省、市、自治區(qū)的消費(fèi)情況來(lái)看,分為四類較為合適。7聚類分析及R使用7.4kmeans聚類法概念和原理概念

kmeans法是一種快速聚類法,采用該方法得到的結(jié)果比較簡(jiǎn)單易懂,對(duì)計(jì)算機(jī)的性能要求不高,因此應(yīng)用也比較廣泛。kmeans法(K均值法)是麥奎因(MacQueen1967)提出的,這種算法的基本思想是將每一個(gè)樣品分配給最近中心(均值)的類中。原理kmeans算法以k為參數(shù),把n個(gè)對(duì)象分為k個(gè)聚類,以使聚類內(nèi)具有較高的相似度,而且聚類間的相似度較低。相似度的計(jì)算是根據(jù)一個(gè)聚類中對(duì)象的均值來(lái)進(jìn)行。7聚類分析及R使用7.4kmeans聚類法快速聚類函數(shù)kmeans()的用法kmeans(x,centers,…)x數(shù)據(jù)矩陣或數(shù)據(jù)框,centers聚類數(shù)或聚類中心【例7.3】kmeans算法的R語(yǔ)言實(shí)現(xiàn)及模擬分析本例模擬正態(tài)隨機(jī)變量。x1=matrix(rnorm(1000,mean=0,sd=0.3),ncol=10)#均值1,標(biāo)準(zhǔn)差為0.3的100x10的正態(tài)隨機(jī)數(shù)矩陣x2=matrix(rnorm(1000,mean=1,sd=0.3),ncol=10)x=rbind(x1,x2)H.clust(x,"euclidean","complete")輸出結(jié)果:7聚類分析及R使用7.4

kmeans聚類法cl=kmeans(x,2)#kmeans聚類pch1=rep("1",100)pch2=rep("2",100)plot(x,col=cl$cluster,pch=c(pch1,pch2),cex=0.7)points(cl$centers,col=3,pch="*",cex=3)7聚類分析及R使用7.4

kmeans聚類法x1=matrix(rnorm(10000,mean=0,sd=0.3),ncol=10)#均值1,標(biāo)準(zhǔn)差為0.3的1000x10的正態(tài)隨機(jī)數(shù)矩陣x2=matrix(rnorm(10000,mean=1,sd=0.3),ncol=10)x=rbind(x1,x2)cl=kmeans(x,2)#kmeans聚類pch1=rep("1",1000)pch2=rep("2",1000)plot(x,col=cl$cluster,pch=c(pch1,pch2),cex=0.7)points(cl$centers,col=3,pch="*",cex=3)輸出結(jié)果:7聚類分析及R使用7.5聚類分析的一些問(wèn)題系統(tǒng)聚類分析的特點(diǎn)綜合性:聚類分析可以利用多個(gè)變量的信息對(duì)樣本進(jìn)行分類,克服單一指標(biāo)分類的弊端。形象性:聚類分析可以利用聚類圖直觀地表現(xiàn)其分類形態(tài)及類與類之間的內(nèi)在關(guān)系。客觀性:聚類分析結(jié)果克服主觀因素,比傳統(tǒng)分類方法更客觀、細(xì)致、全面和合理。

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論