聚類(lèi)分析原理及R語(yǔ)言實(shí)現(xiàn)過(guò)程_第1頁(yè)
聚類(lèi)分析原理及R語(yǔ)言實(shí)現(xiàn)過(guò)程_第2頁(yè)
聚類(lèi)分析原理及R語(yǔ)言實(shí)現(xiàn)過(guò)程_第3頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、聚類(lèi)分析原理及R語(yǔ)言實(shí)現(xiàn)過(guò)程聚類(lèi)分析定義與作用:是把分類(lèi)對(duì)象按照一定規(guī)則分成若干類(lèi),這些類(lèi)不是事先設(shè)定的,而是根據(jù)數(shù)據(jù)的特征確 定的。在同一類(lèi)中這些對(duì)象在某種意義上趨向于彼此相似,而在不同類(lèi)中對(duì)象趨向于彼此不相似。 在經(jīng)濟(jì)、管理、地質(zhì)勘探、天氣預(yù)報(bào)、生物分類(lèi)、考古學(xué)、醫(yī)學(xué)、心理學(xué)以及制定國(guó)家標(biāo)準(zhǔn)和區(qū) 域標(biāo)準(zhǔn)等許多方面應(yīng)用十分廣泛,是國(guó)內(nèi)外較為流行的多變量統(tǒng)計(jì)分析方法之一,在機(jī)器學(xué)習(xí)中 扮演重要角色。聚類(lèi)分析的類(lèi)型是實(shí)際問(wèn)題中,如根據(jù)各省主要的經(jīng)濟(jì)指標(biāo),將全國(guó)各省區(qū)分成為幾個(gè)區(qū)域等。這個(gè)主要 的經(jīng)濟(jì)指標(biāo)是我們用來(lái)分類(lèi)的依據(jù)。稱(chēng)為指標(biāo)(變量),用X1、X2Xp表示,p是變量的個(gè)數(shù)。 在聚類(lèi)分析中,

2、基本的思想是認(rèn)為所研究的樣品或者多個(gè)觀測(cè)指標(biāo)(變量)之間存在著程度不同的 相似性(親疏關(guān)系)。根據(jù)這些相識(shí)程度,把樣品劃分成一個(gè)由小到大的分類(lèi)系統(tǒng),最后畫(huà)出一張 聚類(lèi)圖表示樣品之間的親疏關(guān)系。根據(jù)分類(lèi)對(duì)象的不同,可將聚類(lèi)分析分為兩類(lèi),一是對(duì)分類(lèi)處 理,叫Q型;另一種是對(duì)變量處理,叫R型。聚類(lèi)統(tǒng)計(jì)量聚類(lèi)分析的基本原則是將有較大相似性的對(duì)象歸為同一類(lèi),可進(jìn)行聚類(lèi)的統(tǒng)計(jì)量有距離和 相似系數(shù)。聚類(lèi)分析的方法:系統(tǒng)聚類(lèi)法、快速聚類(lèi)法、模糊聚類(lèi)法。系統(tǒng)聚類(lèi)常用的有如下六種:1、最短距離法;2、最長(zhǎng)距離法;3、類(lèi)平均法;4、重心法;5、中間距離法;6、離差平方和法 快速聚類(lèi)常見(jiàn)的有K-means聚類(lèi)。R語(yǔ)言

3、實(shí)現(xiàn)系統(tǒng)聚類(lèi)和K-means聚類(lèi)過(guò)程詳解系統(tǒng)聚類(lèi)R語(yǔ)言教程第一步:計(jì)算距離在R語(yǔ)言進(jìn)行系統(tǒng)聚類(lèi)時(shí),先計(jì)算樣本之間的距離,計(jì)算之前先對(duì)樣品進(jìn)行標(biāo)準(zhǔn)變換。用scale() 函數(shù)。R語(yǔ)言各種距離的計(jì)算用dist()函數(shù)來(lái)實(shí)現(xiàn)。具體用法為:dist(x , method = euclidean , diag = FALSE, upper = FALSE, p = 2)x:為數(shù)據(jù)矩陣或者數(shù)據(jù)框。method:為計(jì)算方法,包括euclidean歐式距離,maximum切比雪夫距離,manhattan絕 對(duì)值距離,Canberra蘭氏距離,minkowski閔可夫斯基距離,binary定型變量的距離。 di

4、ag是邏輯變量,當(dāng)diag = TRUE時(shí),給出對(duì)角線上的距離。upper是邏輯變量,當(dāng)upper = TRUE時(shí),給出上三角矩陣的值(缺省值僅給出下三角矩陣的值)。p:為minkowski距離的冪次第二步:系統(tǒng)聚類(lèi)在R語(yǔ)言中用hclust()函數(shù)進(jìn)行系統(tǒng)聚類(lèi)。hclust具體用法為:hclust(dist , method)dist:為第一步計(jì)算出來(lái)的距離method:為系統(tǒng)聚類(lèi)方法,有single最短距離法,complete最長(zhǎng)距離法,median中間距離 法,mcquitty Mcquitty 相似法,average類(lèi)平均法,centroid重心法,ward離差平方和法第三步:畫(huà)出聚類(lèi)圖

5、R語(yǔ)言中用plot()函數(shù)畫(huà)出聚類(lèi)圖,具體用法為:plot(x, hang = 0.1, axes = TRUE , main = Cluster Dendrogram, sub = NULL, xlab = NULL,ylab = Height,.)x:第二步中hclust得出的對(duì)象hang:表明譜系圖中各類(lèi)所在的位置,當(dāng)hang取負(fù)值時(shí),譜系圖中的類(lèi)從底部畫(huà)起main:給聚類(lèi)圖添加標(biāo)題sub:給聚類(lèi)圖添加子標(biāo)題xlab:為x軸添加說(shuō)明ylab:為y軸添加說(shuō)明第四步:畫(huà)出分類(lèi)矩形框最后一步用rect.hclust(x, k = n)函數(shù)畫(huà)出分類(lèi)矩形框。其中x為第二步hclust得出的對(duì)象,K

6、 為要分的類(lèi)數(shù)。例1為研究我國(guó)31個(gè)省、市、自治區(qū)2007年的城鎮(zhèn)居民生活消費(fèi)的規(guī)律,根據(jù)調(diào)查資料作區(qū)域消 費(fèi)類(lèi)型劃分。原始數(shù)據(jù)如下:數(shù)據(jù)來(lái)源- HYPERLINK (中華人民共和國(guó)國(guó)家統(tǒng)計(jì)局)采用歐式距離,分別用最短距離法、最長(zhǎng)距離法、類(lèi)平均法、中間距離法、重心法和ward法得 出系統(tǒng)聚類(lèi)圖。可以看出不同距離方法的分類(lèi)結(jié)果有所差異,但大體的結(jié)果是一致的,北京、上海、浙江、天 津、廣東消費(fèi)水平和其他省市自治區(qū)有較明顯的區(qū)別,符合實(shí)際情況。Kmeans聚類(lèi)R語(yǔ)言教程 步驟:第一步:將所有樣品分成K個(gè)初始類(lèi)。第二步:通過(guò)歐式距離將某個(gè)樣品劃入離中心最近的類(lèi)中,并對(duì)獲得樣品和失去樣品的類(lèi)重新計(jì) 算中

7、心坐標(biāo)。第三步:重復(fù)步驟2,直到所有的樣品都不能再分類(lèi)為止。在R語(yǔ)言中用kmeans()函數(shù)進(jìn)行kmeans聚類(lèi)。具體用法為:kmeans(x, centers, iter.max =10, nstart =1, algorithm =c(Hartigan - Wong,Lloyd,Forgy,MacQueen)x:數(shù)據(jù)構(gòu)成的矩陣或數(shù)據(jù)框centers:聚類(lèi)的個(gè)數(shù)或者是初始類(lèi)的中心iter.max:最大迭代次數(shù)(缺省值為10)nstart:機(jī)集合的個(gè)數(shù)(當(dāng)centers為聚類(lèi)的個(gè)數(shù)時(shí))algorithm:動(dòng)態(tài)聚類(lèi)的算法(缺省值為Hartigan-Wong方法)例2針對(duì)例1的數(shù)據(jù)我們進(jìn)行kmeans聚類(lèi)。圖中的分類(lèi)結(jié)果顯示和系統(tǒng)聚類(lèi)的結(jié)果有一定的差距,組間的距離平方和占了整體距離平方和的71.7 %,說(shuō)明數(shù)據(jù)用kmengs分4類(lèi)不是很理想,發(fā)現(xiàn)k=4并不符合實(shí)際情況。這就引出了 kmeans 的一個(gè)注意事項(xiàng),kmeans的一個(gè)注意事項(xiàng)因?yàn)閗means每次都是隨機(jī)的把樣品分為K個(gè)分類(lèi),然后計(jì)算距離,然后重新分類(lèi),所以每次的 運(yùn)行結(jié)果不太一樣。對(duì)類(lèi)別及k的數(shù)值選擇不同,分類(lèi)結(jié)果的好壞也不盡相同。選擇一個(gè)正確的 聚類(lèi)數(shù)目對(duì)于劃分?jǐn)?shù)據(jù)是很重要的。R語(yǔ)言中使用Gap統(tǒng)計(jì)值來(lái)確定k的個(gè)數(shù),他是

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論