聚類(lèi)分析及MATLAB實(shí)現(xiàn)_第1頁(yè)
聚類(lèi)分析及MATLAB實(shí)現(xiàn)_第2頁(yè)
聚類(lèi)分析及MATLAB實(shí)現(xiàn)_第3頁(yè)
聚類(lèi)分析及MATLAB實(shí)現(xiàn)_第4頁(yè)
聚類(lèi)分析及MATLAB實(shí)現(xiàn)_第5頁(yè)
已閱讀5頁(yè),還剩61頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第4 章 聚類(lèi)分析( cluster analysis),4.1 樣品(變量)相近性度量 4.2 譜系聚類(lèi)法及MATLAB實(shí)現(xiàn) 4.3 快速聚類(lèi)法,統(tǒng)計(jì)方法(聚類(lèi)分析):,聚類(lèi)分析所研究的樣本或者變量之間存在程度不同的相似性,要求設(shè)法找出一些能夠度量它們之間相似程度的統(tǒng)計(jì)量作為分類(lèi)的依據(jù),再利用這些量將樣本或者變量進(jìn)行分類(lèi) 系統(tǒng)聚類(lèi)分析將n個(gè)樣本或者n個(gè)指標(biāo)看成n類(lèi),一類(lèi)包括一個(gè)樣本或者指標(biāo),然后將性質(zhì)最接近的兩類(lèi)合并成為一個(gè)新類(lèi),依此類(lèi)推。最終可以按照需要來(lái)決定分多少類(lèi),每類(lèi)有多少樣本(指標(biāo)),統(tǒng)計(jì)方法(系統(tǒng)聚類(lèi)分析步驟):,系統(tǒng)聚類(lèi)方法步驟: 計(jì)算n個(gè)樣本兩兩之間的距離 構(gòu)成n個(gè)類(lèi),每類(lèi)只

2、包含一個(gè)樣品 合并距離最近的兩類(lèi)為一個(gè)新類(lèi) 計(jì)算新類(lèi)與當(dāng)前各類(lèi)的距離(新類(lèi)與當(dāng)前類(lèi)的距離等于當(dāng)前類(lèi)與組合類(lèi)中包含的類(lèi)的距離最小值),若類(lèi)的個(gè)數(shù)等于1,轉(zhuǎn)5,否則轉(zhuǎn)3 畫(huà)聚類(lèi)圖 決定類(lèi)的個(gè)數(shù)和類(lèi)。,系統(tǒng)聚類(lèi)分析:,主要介紹系統(tǒng)聚類(lèi)分析方法。系統(tǒng)聚類(lèi)法是聚類(lèi)分析中應(yīng)用最為廣泛的一種方法,它的基本原理是:首先將一定數(shù)量的樣品或指標(biāo)各自看成一類(lèi),然后根據(jù)樣品(或指標(biāo))的親疏程度,將親疏程度最高的兩類(lèi)進(jìn)行合并。然后考慮合并后的類(lèi)與其他類(lèi)之間的親疏程度,再進(jìn)行合并。重復(fù)這一過(guò)程,直至將所有的樣品(或指標(biāo))合并為一類(lèi)。,系統(tǒng)聚類(lèi)分析用到的函數(shù):,聚類(lèi)分析,研究對(duì)樣品或指標(biāo)進(jìn)行分類(lèi)的一種多元統(tǒng)計(jì)方法,是依據(jù)研

3、究對(duì)象的個(gè)體的特征進(jìn)行分類(lèi)的方法。 聚類(lèi)分析把分類(lèi)對(duì)象按一定規(guī)則分成若干類(lèi),這些類(lèi)非事先給定的,而是根據(jù)數(shù)據(jù)特征確定的。在同一類(lèi)中這些對(duì)象在某種意義上趨向于彼此相似,而在不同類(lèi)中趨向于不相似。 職能是建立一種能按照樣品或變量的相似程度進(jìn)行分類(lèi)的方法。,聚類(lèi)分析有兩種:一種是對(duì)樣品的分類(lèi),稱為Q型,另一種是對(duì)變量(指標(biāo))的分類(lèi),稱為R型。,R型聚類(lèi)分析的主要作用: 不但可以了解個(gè)別變量之間的親疏程度,而且可以了解各個(gè)變量組合之間的親疏程度。 根據(jù)變量的分類(lèi)結(jié)果以及它們之間的關(guān)系,可以選擇主要變量進(jìn)行Q型聚類(lèi)分析或回歸分析。(R2為選擇標(biāo)準(zhǔn)) Q型聚類(lèi)分析的主要作用: 可以綜合利用多個(gè)變量的信息對(duì)

4、樣本進(jìn)行分析。 分類(lèi)結(jié)果直觀,聚類(lèi)譜系圖清楚地表現(xiàn)數(shù)值分類(lèi)結(jié)果。 聚類(lèi)分析所得到的結(jié)果比傳統(tǒng)分類(lèi)方法更細(xì)致、全面、合理。 在課堂上主要討論Q型聚類(lèi)分析, Q型聚類(lèi)常用的統(tǒng)計(jì)量是距離.,4.1 樣品(變量)間相近性度量 4.1.1 聚類(lèi)分析的基本思想,在生產(chǎn)實(shí)際中經(jīng)常遇到給產(chǎn)品等級(jí)進(jìn)行分類(lèi)的問(wèn)題,如一等品、二等品等,在生物學(xué)中,要根據(jù)生物的特征進(jìn)行分類(lèi);在考古時(shí)要對(duì)古生物化石進(jìn)行科學(xué)分類(lèi);在球類(lèi)比賽中經(jīng)常要對(duì)各球隊(duì)進(jìn)行分組如何確定種子隊(duì),這些問(wèn)題就是聚類(lèi)分析問(wèn)題。隨著科學(xué)技術(shù)的發(fā)展,我們利用已知數(shù)據(jù)首先提取數(shù)據(jù)特征,然后借助計(jì)算機(jī)依據(jù)這些特征進(jìn)行分類(lèi),聚類(lèi)的依據(jù)在于各類(lèi)別之間的接近程度如何計(jì)量,

5、通常采取距離與相似系數(shù)進(jìn)行衡量。,設(shè)有n個(gè)樣品的p元觀測(cè)數(shù)據(jù)組成一個(gè)數(shù)據(jù)矩陣,其中每一行表示一個(gè)樣品,每一列表示一個(gè)指標(biāo),xij表示第i個(gè)樣品關(guān)于第j項(xiàng)指標(biāo)的觀測(cè)值,聚類(lèi)分析的基本思想就是在樣品之間定義距離,在指標(biāo)之間定義相似系數(shù),樣品之間距離表明樣品之間的相似度,指標(biāo)之間的相似系數(shù)刻畫(huà)指標(biāo)之間的相似度。將樣品(或變量)按相似度的大小逐一歸類(lèi),關(guān)系密切的聚集到較小的一類(lèi),關(guān)系疏遠(yuǎn)的聚集到較大的一類(lèi),聚類(lèi)分析通常有:譜系聚類(lèi)、快速聚類(lèi),我們主要介紹譜系聚類(lèi)的方法與MATLAB實(shí)現(xiàn),4.1.2 樣品間的相似度量距離,一.常用距離的定義,設(shè)有n個(gè)樣品的p元觀測(cè)數(shù)據(jù):,這時(shí),每個(gè)樣品可看成p元空間的一

6、個(gè)點(diǎn),每?jī)蓚€(gè)點(diǎn)之間的距離記為 滿足條件:,7.蘭氏距離,8.杰氏距離(Jffreys x3:人均煙酒茶支出,x4:人均其他副食支出,x5:人均衣著商品支出,x6:人均日用品支出,x7:人均燃料支出,x8人均非商品支出,表1 1991年五省城鎮(zhèn)居民生活月均消費(fèi)(元/人),計(jì)算各省之間的歐氏、絕對(duì)、明氏距離,解:a=7.939.778.4912.9419.2711.052.0413.29 7.6850.3711.3513.319.2514.592.7514.87 9.4227.938.28.1416.179.421.559.76 9.1627.989.019.3215.999.11.8211.35

7、 10.0628.6410.5210.0516.188.391.9610.81;,d1=pdist(a);% 此時(shí)計(jì)算出各行之間的歐氏距離,,為了得到書(shū)中的距離矩陣,我們鍵入命令:,D= squareform(d1), % 注意此時(shí)d1必須是一個(gè)行向量,結(jié)果是實(shí)對(duì)稱矩陣,若想得到書(shū)中的三角陣,則有命令: S = tril(squareform(d1),S = 0 0 0 0 0 11.6726 0 0 0 0 13.8054 24.6353 0 0 0 13.1278 24.0591 2.2033 0 0 12.7983 23.5389 3.5037 2.2159 0,d3=pdist(a,m

8、inkowski,3); S3 = tril(squareform(d3),例2. 13個(gè)國(guó)家1990,1995,2000可持續(xù)發(fā)展能力如下:分成4類(lèi),采用不同的距離,得到結(jié)果如下,4.1.3 變量間的相似度量相似系數(shù),當(dāng)對(duì)p個(gè)指標(biāo)變量進(jìn)行聚類(lèi)時(shí),用相似系數(shù)來(lái)衡量變量之間的相似程度(關(guān)聯(lián)度),若用 表示變量之間的相似系數(shù),則應(yīng)滿足:,相似系數(shù)中最常用的是相關(guān)系數(shù)與夾角余弦。, 夾角余弦 兩變量的夾角余弦定義為:, 相關(guān)系數(shù) 兩變量的相關(guān)系數(shù)定義為:,例3.計(jì)算例1中各指標(biāo)之間的相關(guān)系數(shù)與夾角余弦,解:a=7.939.778.4912.9419.2711.052.04 13.29 7.6850.

9、3711.3513.319.2514.592.75 14.87 9.4227.938.28.1416.179.421.55 9.76 9.1627.989.019.3215.999.11.82 11.35 10.0628.6410.5210.0516.188.391.96 10.81;,R=corrcoef(a);% 指標(biāo)之間的相關(guān)系數(shù),a1=normc(a); % 將a的各列化為單位向量 J=a1*a1 % 計(jì)算a中各列之間的夾角余弦,J = 1.0000 0.9410 0.9847 0.9613 0.9824 0.9546 0.9620 0.9695 0.9410 1.0000 0.978

10、2 0.9939 0.9853 0.9977 0.9947 0.9935 0.9847 0.9782 1.0000 0.9859 0.9911 0.9840 0.9931 0.9909 0.9613 0.9939 0.9859 1.0000 0.9944 0.9919 0.9947 0.9981 0.9824 0.9853 0.9911 0.9944 1.0000 0.9901 0.9901 0.9968 0.9546 0.9977 0.9840 0.9919 0.9901 1.0000 0.9952 0.9953 0.9620 0.9947 0.9931 0.9947 0.9901 0.99

11、52 1.0000 0.9968 0.9695 0.9935 0.9909 0.9981 0.9968 0.9953 0.9968 1.0000,4.2 譜系聚類(lèi)法 譜系聚類(lèi)法是目前應(yīng)用較為廣泛的一種聚類(lèi)法。譜系聚類(lèi)是根據(jù)生物分類(lèi)學(xué)的思想對(duì)研究對(duì)象進(jìn)行分類(lèi)的方法。在生物分類(lèi)學(xué)中,分類(lèi)的單位是:門(mén)、綱、目、科、屬、種。其中種是分類(lèi)的基本單位,分類(lèi)單位越小,它所包含的生物就越少,生物之間的共同特征就越多。利用這種思想,譜系聚類(lèi)首先將各樣品自成一類(lèi),然后把最相似(距離最近或相似系數(shù)最大)的樣品聚為小類(lèi),再將已聚合的小類(lèi)按各類(lèi)之間的相似性(用類(lèi)間距離度量)進(jìn)行再聚合,隨著相似性的減弱,最后將一切子類(lèi)都

12、聚為一大類(lèi),從而得到一個(gè)按相似性大小聚結(jié)起來(lái)的一個(gè)譜系圖。,聚類(lèi)分析的基本思想是認(rèn)為我們所研究的樣本或指標(biāo)(變量)之間存在著程度不同的相似性(親疏關(guān)系)。于是根據(jù)一批樣本的多個(gè)觀測(cè)指標(biāo),具體找出一些彼此之間相似程度較大的樣本(或指標(biāo))聚合為一類(lèi),把另外一些彼此之間相似程度較大的樣本(或指標(biāo))又聚合為另一類(lèi),關(guān)系密切的聚合到一個(gè)小的分類(lèi)單位,關(guān)系疏遠(yuǎn)的聚合到一個(gè)大的分類(lèi)單位,直到把所有樣本(或指標(biāo))都聚合完畢,把不同的類(lèi)型一一劃分出來(lái),形成一個(gè)由小到大的分類(lèi)系統(tǒng)。最后把整個(gè)分類(lèi)系統(tǒng)畫(huà)成一張譜系圖,用它把所有樣本(或指標(biāo))間的親疏關(guān)系表示出來(lái)。這種方法是最常用的、最基本的一種,稱為系統(tǒng)聚類(lèi)分析。,

13、4.2.1 類(lèi)間距離,前面,我們介紹了兩個(gè)向量之間的距離,下面我們介紹兩個(gè)類(lèi)別之間的距離:,設(shè)dij表示兩個(gè)樣品xi,xj之間的距離,Gp,Gq分別表示兩 個(gè)類(lèi)別,各自含有np,nq個(gè)樣品.,即用兩類(lèi)中樣品之間的距離最短者作為兩類(lèi)間距離,(2)最長(zhǎng)距離,即用兩類(lèi)中樣品之間的距離最長(zhǎng)者作為兩類(lèi)間距離,最短距離(Nearest Neighbor),最長(zhǎng)距離(Furthest Neighbor ),重心距離,最長(zhǎng)距離,最短距離,A,B,C,D,E,F,中間距離,(3)類(lèi)平均距離,即用兩類(lèi)中所有兩兩樣品之間距離的平均作為兩類(lèi)間距離,(5)離差平方和距離(ward),顯然,離差平方和距離與重心距離的平方

14、成正比。,4.2.2 類(lèi)間距離的遞推公式,設(shè)有兩類(lèi)Gp,Gq合并成新的一類(lèi)Gr,包含了nr=np+nq個(gè)樣品,如何計(jì)算Gr與其他類(lèi)別Gk之間的距離,這就需要建立類(lèi)間距離的遞推公式。,(1)最短距離,(2)最長(zhǎng)距離,(3)類(lèi)平均距離,(4)重心距離,證明:,(1),將上式中加上再減去 與 ,合并同類(lèi)項(xiàng)得,上式第二行合并同類(lèi)項(xiàng),得,(5)離差平方和距離,1. 選擇樣本間距離的定義及類(lèi)間距離的定義; 2. 計(jì)算n個(gè)樣本兩兩之間的距離,得到距離矩陣 3. 構(gòu)造個(gè)類(lèi),每類(lèi)只含有一個(gè)樣本; 4. 合并符合類(lèi)間距離定義要求的兩類(lèi)為一個(gè)新類(lèi); 5. 計(jì)算新類(lèi)與當(dāng)前各類(lèi)的距離。若類(lèi)的個(gè)數(shù)為1,則轉(zhuǎn)到步驟6,否則

15、回到步驟4; 6.畫(huà)出聚類(lèi)圖; 7.決定類(lèi)的個(gè)數(shù)和類(lèi)。,4.2.3 譜系聚類(lèi)法的步驟譜系聚類(lèi)的步驟如下:,系統(tǒng)聚類(lèi)分析的方法,系統(tǒng)聚類(lèi)法的聚類(lèi)原則決定于樣品間的距離以及類(lèi)間距離的定義,類(lèi)間距離的不同定義就產(chǎn)生了不同的系統(tǒng)聚類(lèi)分析方法。 以下用dij表示樣品X(i)和X(j)之間的距離,當(dāng)樣品間的親疏關(guān)系采用相似系數(shù)Cij時(shí),令 ; 以下用D(p,q)表示類(lèi)Gp和Gq之間的距離。,(1)n個(gè)樣品開(kāi)始作為n個(gè)類(lèi),計(jì)算兩兩之間的距離或相似系數(shù),得到實(shí)對(duì)稱矩陣,(2)從D0的非主對(duì)角線上找最?。ň嚯x)或最大元素(相似系數(shù)),設(shè)該元素是Dpq,則將Gp,Gq合并成一個(gè)新類(lèi)Gr=(Gp,Gq),在D0中去

16、掉Gp,Gq所在的兩行、兩列,并加上新類(lèi)與其余各類(lèi)之間的距離(或相似系數(shù)),得到n-1階矩陣D1。,(3)從D1出發(fā)重復(fù)步驟(2)的做法得到D2,再由D2出發(fā)重復(fù)上述步驟,直到所有樣品聚為一個(gè)大類(lèi)為止。,(4)在合并過(guò)程中要記下合并樣品的編號(hào)及兩類(lèi)合并時(shí)的水平,并繪制聚類(lèi)譜系圖。,例4. 從例1算得的樣品間的歐氏距離矩陣出發(fā),用下列方法進(jìn)行譜系聚類(lèi)。 (1)最短距離,(2)最長(zhǎng)距離,解:我們用1,2,3,4,5分別表示遼寧、浙江、河南、甘肅和青海,將距離矩陣記為D0,(1)最短距離法:將各省看成一類(lèi),即Gi=i i=1,5,從D0可以看出各類(lèi)中距離最短的是d43=2.20,因此將G3,G4在2

17、.20水平上合成一個(gè)新類(lèi)G6=3,4,計(jì)算G6和G1,G2,G5之間的最短距離 ,得,將計(jì)算結(jié)果作為第一列,從D0中去掉第3、4行與3、4列,剩余元素作為其余各列得到D1,從D1可以看出G6與G5的距離最小,因此在2.21的水平上將G6與G5合成一類(lèi)G7,即G7=3,4,5計(jì)算G7與G1,G2之間的最短距離,得,將計(jì)算結(jié)果作為第一列,從D1中劃掉3,4與5所在的行與列,剩余元素作為其他列得,從D2可以看出G1,G2最接近,在11.67的水平上合并成一類(lèi)G8,至此只剩下G7,G8兩類(lèi),他們之間的距離為:12.8,故在此水平上將合成一類(lèi),包含了全部的五個(gè)省份。 最后,我們作出譜系聚類(lèi)圖:,圖1 最

18、短距離聚類(lèi)圖,最長(zhǎng)距離聚類(lèi)方法,同學(xué)練習(xí),例,為了研究遼寧等5省1991年城鎮(zhèn)居民生活消費(fèi)情況的分布規(guī)律,根據(jù)調(diào)查資料做類(lèi)型分類(lèi),用最短距離做類(lèi)間分類(lèi)。數(shù)據(jù)如下:,將每一個(gè)省區(qū)視為一個(gè)樣品,先計(jì)算5個(gè)省區(qū)之間的歐式距離,用D0表示距離矩陣(對(duì)稱陣,故給出下三角陣) 因此將3.4合并為一類(lèi),為類(lèi)6,替代了3、4兩類(lèi) 類(lèi)6與剩余的1、2、5之間的距離分別為: d(3,4)1=min(d31,d41)=min(13.80,13.12)=13.12 d(3,4)2=min(d32,d42)=min(24.63,24.06)=24.06 d(3,4)5=min(d35,d45)=min(3.51,2.2

19、1)=2.21,得到新矩陣 合并類(lèi)6和類(lèi)5,得到新類(lèi)7 類(lèi)7與剩余的1、2之間的距離分別為: d(5,6)1=min(d51,d61)=min(12.80,13.12)=12.80 d(5,6)2=min(d52,d62)=min(23.54,24.06)=23.54,得到新矩陣 合并類(lèi)1和類(lèi)2,得到新類(lèi)8 此時(shí),我們有兩個(gè)不同的類(lèi):類(lèi)7和類(lèi)8。 它們的最近距離 d(7,8) =min(d71,d72)=min(12.80,23.54)=12.80,得到矩陣 最后合并為一個(gè)大類(lèi)。這就是按最短距離定義類(lèi)間距離的系統(tǒng)聚類(lèi)方法。最長(zhǎng)距離法類(lèi)似!,4.2.4 譜系聚類(lèi)的MATLAB實(shí)現(xiàn):,(1)輸入數(shù)

20、據(jù)矩陣,注意行與列的實(shí)際意義;,(2)計(jì)算各樣品之間的距離(行?列?),歐氏距離:d=pdist(A) % 注意計(jì)算A中各行之間的距離; 絕對(duì)距離:d= pdist(A,cityblock); 明氏距離:d=pdist(A,minkowski,r); % r要填上具體的實(shí)數(shù); 方差加權(quán)距離:d= pdist(A,seuclid); 馬氏距離:d= pdist(A,mahal);,注意:以上命令輸出的結(jié)果是一個(gè)行向量,如果要得到距離矩陣,可以用命令: D= squareform(d), 若得到三角陣,可以用命令: D= tril(squareform(d1),(3) 選擇不同的類(lèi)間距離進(jìn)行聚類(lèi),

21、最短距離:z1= linkage(d) % 此處及以下的d都是(2)中算出的距離行向量 最長(zhǎng)距離:z2= linkage(d,complete) 中間距離:z3= linkage(d,centroid) 重心距離:z4= linkage(d,average) 離差平方和:z5= linkage(d,ward),注意:此時(shí)輸出的結(jié)果是一個(gè)n-1行3列的矩陣, 每一行表示在某水平上合并為一類(lèi)的序號(hào);,(4)作出譜系聚類(lèi)圖,H=dendrogram(z,d) % 注意若樣本少于30,可以省去d,否則必須填寫(xiě).,(5)根據(jù)分類(lèi)數(shù)目,輸出聚類(lèi)結(jié)果,T=cluster(z,k) % 注意k是分類(lèi)數(shù)目,z是

22、(3)中的結(jié)果,Find(T=k0) % 找出屬于第k0類(lèi)的樣品編號(hào),例5. 將例1 利用MATLAB軟件進(jìn)行聚類(lèi),解:b=7.939.778.4912.9419.2711.052.0413.29 7.6850.3711.3513.319.2514.592.7514.87 9.4227.938.28.1416.179.421.559.76 9.1627.989.019.3215.999.11.8211.35 10.0628.6410.5210.0516.188.391.9610.81;,歐氏距離:d1=pdist(b); %b中每行之間距離,% 五種類(lèi)間距離聚類(lèi) z1=linkage(d1);

23、 z2=linkage(d1,complete); z3=linkage(d1,average); z4=linkage(d1,centroid); z5=linkage(d1,ward);,其中z1輸出結(jié)果為: z1 = 3.0000 4.0000 2.2033 6.0000 5.0000 2.2159 1.0000 2.0000 11.6726 8.0000 7.0000 12.7983 % 在2.2033的水平,G3,G4合成一類(lèi)為G6 % 在2.2159的水平,G6,G5合成一類(lèi)為G7 % 在11.6726的水平,G1,G2合成一類(lèi)為G8 % 在12.7983的水平,G7,G8合成一類(lèi)

24、,作譜系聚類(lèi)圖:H= dendrogram(z1),% 輸出分類(lèi)結(jié)果,T=cluster(z1,3),T 1 2 3 3 3,圖2.最短距離聚類(lèi)圖,結(jié)果表明:若分為三類(lèi),則遼寧是一類(lèi),浙江是一類(lèi),河南、青海和甘肅是另一類(lèi)。,以上是樣品之間是歐氏距離,類(lèi)間距離是最短距離聚類(lèi)的結(jié)果,實(shí)際上,對(duì)樣品之間的每一種距離,可以由五種不同的類(lèi)間距離進(jìn)行聚類(lèi)。那么哪一種最好呢?為此我們可以計(jì)算復(fù)合相關(guān)系數(shù),若該系數(shù)越接近于1則該聚類(lèi)越理想。在MATLAB中計(jì)算復(fù)合相關(guān)系數(shù)的命令如下:,R=cophenet(z,d) 其中,z 是用某種類(lèi)間距離linkage后的結(jié)果, d是樣品之間的某種距離,,想了解利用歐氏距

25、離聚類(lèi),那種類(lèi)間距離最好,可以計(jì)算五個(gè)復(fù)合相關(guān)系數(shù):,R=cophenet(z1,d1),cophenet(z2,d1), cophenet(z3,d1),cophenet(z4,d1), cophenet(z5,d1),結(jié)果為:0.8413 0.8571 0.8623 0.8622 0.8532 由于0.8623 最大,故認(rèn)為若樣品之間采用歐氏距離,則類(lèi)間距離以中間距離最好,如果我們要找到最理想的分類(lèi)方法,可以對(duì)每一種樣品之間的距離,都計(jì)算上述的復(fù)合相關(guān)系數(shù),這樣就可以找到最理想的樣品距離與對(duì)應(yīng)的類(lèi)間距離。,a=28 ,18,11 , 21 ,26, 20 ,16, 14, 24 ,22 2

26、9, 23, 22, 23, 29, 23, 22, 23,29, 27 28 ,18, 16, 22, 26,22,22 ,24,24,24;,對(duì)a的各列進(jìn)行聚類(lèi),如何計(jì)算復(fù)合相關(guān)系數(shù),d=pdist(a);pdist(a,mahal);pdist(a,cityblock);pdist(a,seuclid);pdist(a,minkowski,0.4);,for i=1:5 d1=linkage(d(i,:); r1(i)=cophenet(d1,d(i,:); end,for i=1:5 d2=linkage(d(i,:),complete);r2(i)=cophenet(d2,d(i,:

27、); end,for i=1:5 d3=linkage(d(i,:),average) ;r3(i)=cophenet(d3,d(i,:); end,for i=1:5 d4=linkage(d(i,:),centroid);r4(i)=cophenet(d4,d(i,:); end for i=1:5 d5=linkage(d(i,:),ward);r5(i)=cophenet(d5,d(i,:); end,r=r1;r2;r3;r4;r5;,4.3 快速聚類(lèi)法,快速聚類(lèi)法又稱為動(dòng)態(tài)聚類(lèi)法,該方法首先將樣品進(jìn)行粗糙分類(lèi),然后依據(jù)樣品間的距離按一定規(guī)則進(jìn)行調(diào)整,直至不能調(diào)整為止.該方法適用于樣

28、品數(shù)量較大的數(shù)據(jù)集的聚類(lèi)分析,但是需要事先給定聚類(lèi)數(shù)目,此數(shù)目對(duì)最終聚類(lèi)結(jié)果有很大影響,實(shí)際應(yīng)用時(shí)要選擇多個(gè)數(shù)目進(jìn)行分類(lèi),然后找出合理的分類(lèi)結(jié)果.,4.3.1 快速聚類(lèi)的步驟,1. 選擇聚點(diǎn),聚點(diǎn)是一批有代表性的樣品,他的選擇決定了初始分類(lèi),并對(duì)最終分類(lèi)有很大影響,選擇聚點(diǎn)之前要先確定聚類(lèi)數(shù)k.,通常,有以下確定聚點(diǎn)的方法:, 經(jīng)驗(yàn)確定:對(duì)樣品非常熟悉,根據(jù)經(jīng)驗(yàn)確定k個(gè)樣品作為聚點(diǎn). (比如確定種子隊(duì)), 將n個(gè)樣品隨機(jī)地分為k類(lèi),然后以每一類(lèi)的均值向量作為聚點(diǎn)., 最小最大原則:若n個(gè)樣品分為k類(lèi),先選擇所有樣品中距離最大的兩個(gè)樣品xi1, xi2為兩個(gè)初始聚點(diǎn),即d(xi1,xi2)=ma

29、x(dij),然后選擇第3個(gè)聚點(diǎn)xi3,使得該點(diǎn)到上述兩點(diǎn)距離最小是所有其它點(diǎn)到上述兩點(diǎn)距離最小中最大者,即mind(xi3,xir),r=1,2=maxmind(xj,xr),r=1,2, 按照同樣的原則選取xi4,依次下去,直至選出k個(gè)聚點(diǎn)xi1,xi2,xik,前 例2中,分成4類(lèi)用不同方法確定聚點(diǎn), 人為確定:澳大利亞、中國(guó)、英國(guó)、美國(guó), 首先按照亞非洲、美洲、歐洲、大洋洲分為四類(lèi),以每一類(lèi)的均值向量作為聚點(diǎn)., 最小最大準(zhǔn)則(a為原始數(shù)據(jù)矩陣),m,n=size(a); for i=1:m for j=1:m d(i,j)=a(i,:)-a(j,:)*a(i,:)-a(j,:); %歐氏距離平方 end end d1=max(d); d2=sort(d1,descend); d2,i1=sort(d1,descend); % i1前兩位數(shù)字為初始聚點(diǎn)號(hào)碼 d3=max(min(setdiff(d(:,i1(1),0),min(setdiff(d(:,i1(2),0); t3=find(d(:,i1(1)=d3),find(d(:,i1(2)=d3);% c=i1(1),i1(2),t3; c1=setdiff(1:13,c); d4=max(min(d(c1,c); t4=find(d(:,i1(1)=d4),find(d(:,i1(2)=d4

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論