北京大學(xué)統(tǒng)計(jì)學(xué)經(jīng)典課件第八章-聚類分析_第1頁(yè)
北京大學(xué)統(tǒng)計(jì)學(xué)經(jīng)典課件第八章-聚類分析_第2頁(yè)
北京大學(xué)統(tǒng)計(jì)學(xué)經(jīng)典課件第八章-聚類分析_第3頁(yè)
北京大學(xué)統(tǒng)計(jì)學(xué)經(jīng)典課件第八章-聚類分析_第4頁(yè)
北京大學(xué)統(tǒng)計(jì)學(xué)經(jīng)典課件第八章-聚類分析_第5頁(yè)
已閱讀5頁(yè),還剩57頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

聚類分析聚類分析1分類俗語(yǔ)說(shuō),物以類聚、人以群分。但什么是分類的根據(jù)呢?比如,要想把中國(guó)的縣分成若干類,就有很多種分類法;可以按照自然條件來(lái)分,比如考慮降水、土地、日照、濕度等各方面;也可以考慮收入、教育水準(zhǔn)、醫(yī)療條件、基礎(chǔ)設(shè)施等指標(biāo);既可以用某一項(xiàng)來(lái)分類,也可以同時(shí)考慮多項(xiàng)指標(biāo)來(lái)分類。分類俗語(yǔ)說(shuō),物以類聚、人以群分。2聚類分析對(duì)于一個(gè)數(shù)據(jù),人們既可以對(duì)變量(指標(biāo))進(jìn)行分類(相當(dāng)于對(duì)數(shù)據(jù)中的列分類),也可以對(duì)觀測(cè)值(事件,樣品)來(lái)分類(相當(dāng)于對(duì)數(shù)據(jù)中的行分類)。比如學(xué)生成績(jī)數(shù)據(jù)就可以對(duì)學(xué)生按照理科或文科成績(jī)(或者綜合考慮各科成績(jī))分類,當(dāng)然,并不一定事先假定有多少類,完全可以按照數(shù)據(jù)本身的規(guī)律來(lái)分類。本章要介紹的分類的方法稱為聚類分析(clusteranalysis)。對(duì)變量的聚類稱為R型聚類,而對(duì)觀測(cè)值聚類稱為Q型聚類。這兩種聚類在數(shù)學(xué)上是對(duì)稱的,沒(méi)有什么不同。聚類分析對(duì)于一個(gè)數(shù)據(jù),人們既可以對(duì)變量(指標(biāo))進(jìn)行分類(相當(dāng)3飲料數(shù)據(jù)(drink.sav)16種飲料的熱量、咖啡因、鈉及價(jià)格四種變量飲料數(shù)據(jù)(drink.sav)16種飲料的熱量、咖啡因、鈉4如何度量遠(yuǎn)近?如果想要對(duì)100個(gè)學(xué)生進(jìn)行分類,如果僅僅知道他們的數(shù)學(xué)成績(jī),則只好按照數(shù)學(xué)成績(jī)來(lái)分類;這些成績(jī)?cè)谥本€上形成100個(gè)點(diǎn)。這樣就可以把接近的點(diǎn)放到一類。如果還知道他們的物理成績(jī),這樣數(shù)學(xué)和物理成績(jī)就形成二維平面上的100個(gè)點(diǎn),也可以按照距離遠(yuǎn)近來(lái)分類。三維或者更高維的情況也是類似;只不過(guò)三維以上的圖形無(wú)法直觀地畫出來(lái)而已。在飲料數(shù)據(jù)中,每種飲料都有四個(gè)變量值。這就是四維空間點(diǎn)的問(wèn)題了。如何度量遠(yuǎn)近?如果想要對(duì)100個(gè)學(xué)生進(jìn)行分類,如果僅僅知道他5兩個(gè)距離概念按照遠(yuǎn)近程度來(lái)聚類需要明確兩個(gè)概念:一個(gè)是點(diǎn)和點(diǎn)之間的距離,一個(gè)是類和類之間的距離。點(diǎn)間距離有很多定義方式。最簡(jiǎn)單的是歐氏距離,還有其他的距離。當(dāng)然還有一些和距離相反但起同樣作用的概念,比如相似性等,兩點(diǎn)越相似度越大,就相當(dāng)于距離越短。由一個(gè)點(diǎn)組成的類是最基本的類;如果每一類都由一個(gè)點(diǎn)組成,那么點(diǎn)間的距離就是類間距離。但是如果某一類包含不止一個(gè)點(diǎn),那么就要確定類間距離,類間距離是基于點(diǎn)間距離定義的:比如兩類之間最近點(diǎn)之間的距離可以作為這兩類之間的距離,也可以用兩類中最遠(yuǎn)點(diǎn)之間的距離作為這兩類之間的距離;當(dāng)然也可以用各類的中心之間的距離來(lái)作為類間距離。在計(jì)算時(shí),各種點(diǎn)間距離和類間距離的選擇是通過(guò)統(tǒng)計(jì)軟件的選項(xiàng)實(shí)現(xiàn)的。不同的選擇的結(jié)果會(huì)不同,但一般不會(huì)差太多。兩個(gè)距離概念按照遠(yuǎn)近程度來(lái)聚類需要明確兩個(gè)概念:一個(gè)是點(diǎn)和點(diǎn)6向量x=(x1,…,xp)與y=(y1,…,yp)之間的距離或相似系數(shù):歐氏距離:Euclidean平方歐氏距離:SquaredEuclidean夾角余弦(相似系數(shù)1):cosinePearsoncorrelation(相似系數(shù)2):Chebychev:Maxi|xi-yi|Block(絕對(duì)距離):Si|xi-yi|Minkowski:當(dāng)變量的測(cè)量值相差懸殊時(shí),要先進(jìn)行標(biāo)準(zhǔn)化.如R為極差,s為標(biāo)準(zhǔn)差,則標(biāo)準(zhǔn)化的數(shù)據(jù)為每個(gè)觀測(cè)值減去均值后再除以R或s.當(dāng)觀測(cè)值大于0時(shí),有人采用Lance和Williams的距離向量x=(x1,…,xp)與y=(y1,…,yp)之間的7類Gp與類Gq之間的距離Dpq

(d(xi,xj)表示點(diǎn)xi∈Gp和xj∈Gq之間的距離)最短距離法:最長(zhǎng)距離法:重心法:離差平方和:(Wald)類平均法:(中間距離,可變平均法,可變法等可參考各書).在用歐氏距離時(shí),有統(tǒng)一的遞推公式(假設(shè)Gr是從Gp和Gq合并而來(lái)):類Gp與類Gq之間的距離Dpq

(d(xi,xj)表示點(diǎn)xi8Lance和Williams給出(對(duì)歐氏距離)統(tǒng)一遞推公式:D2(k,r)=apD2(k,p)+aqD2(k,q)+bD2(p,q) +g|D2(k,p)-D2(k,q)|前面方法的遞推公式可選擇參數(shù)而得:方法 ai(i=p,q) b

g最短距離 ? 0 -1/2最長(zhǎng)距離 ? 0 1/2重心 ni/nr -apaq 0類平均 ni/nr 0

0

離差平方和(ni+nk)/(nr+nk)

-nk/(nr+nk)

0

中間距離 1/2

-1/4

0

可變法 (1-b)/2

b(<1)

0

可變平均 (1-b)ni/nr

b(<1)

0

Lance和Williams給出(對(duì)歐氏距離)統(tǒng)一遞推公式:9有了上面的點(diǎn)間距離和類間距離的概念,就可以介紹聚類的方法了。這里介紹兩個(gè)簡(jiǎn)單的方法。有了上面的點(diǎn)間距離和類間距離的概念,就可以介紹聚類的方法了。10事先要確定分多少類:k-均值聚類前面說(shuō)過(guò),聚類可以走著瞧,不一定事先確定有多少類;但是這里的k-均值聚類(k-meanscluster,也叫快速聚類,quickcluster)卻要求你先說(shuō)好要分多少類。看起來(lái)有些主觀,是吧!假定你說(shuō)分3類,這個(gè)方法還進(jìn)一步要求你事先確定3個(gè)點(diǎn)為“聚類種子”(SPSS軟件自動(dòng)為你選種子);也就是說(shuō),把這3個(gè)點(diǎn)作為三類中每一類的基石。然后,根據(jù)和這三個(gè)點(diǎn)的距離遠(yuǎn)近,把所有點(diǎn)分成三類。再把這三類的中心(均值)作為新的基石或種子(原來(lái)的“種子”就沒(méi)用了),重新按照距離分類。如此疊代下去,直到達(dá)到停止疊代的要求(比如,各類最后變化不大了,或者疊代次數(shù)太多了)。顯然,前面的聚類種子的選擇并不必太認(rèn)真,它們很可能最后還會(huì)分到同一類中呢。下面用飲料例的數(shù)據(jù)來(lái)做k-均值聚類。事先要確定分多少類:k-均值聚類前面說(shuō)過(guò),聚類可以走著瞧,11假定要把這16種飲料分成3類。利用SPSS,只疊代了三次就達(dá)到目標(biāo)了(計(jì)算機(jī)選的種子還可以)。這樣就可以得到最后的三類的中心以及每類有多少點(diǎn)

假定要把這16種飲料分成3類。利用SPSS,只疊代了三次就達(dá)12根據(jù)需要,可以輸出哪些點(diǎn)分在一起。結(jié)果是:第一類為飲料1、10;第二類為飲料2、4、8、11、12、13、14;第三類為剩下的飲料3、5、6、7、9、15、16。根據(jù)需要,可以輸出哪些點(diǎn)分在一起。結(jié)果是:第一類為飲料1、113SPSS實(shí)現(xiàn)(聚類分析)K-均值聚類以數(shù)據(jù)drink.sav為例,在SPSS中選擇Analyze-Classify-K-MenasCluster,然后把calorie(熱量)、caffeine(咖啡因)、sodium(鈉)、price(價(jià)格)選入Variables,在NumberofClusters處選擇3(想要分的類數(shù)),如果想要知道哪種飲料分到哪類,則選Save,再選ClusterMembership等。注意k-均值聚類只能做Q型聚類,如要做R型聚類,需要把數(shù)據(jù)陣進(jìn)行轉(zhuǎn)置。SPSS實(shí)現(xiàn)(聚類分析)K-均值聚類14事先不用確定分多少類:分層聚類另一種聚類稱為分層聚類或系統(tǒng)聚類(hierarchicalcluster)。開(kāi)始時(shí),有多少點(diǎn)就是多少類。它第一步先把最近的兩類(點(diǎn))合并成一類,然后再把剩下的最近的兩類合并成一類;這樣下去,每次都少一類,直到最后只有一大類為止。顯然,越是后來(lái)合并的類,距離就越遠(yuǎn)。再對(duì)飲料例子來(lái)實(shí)施分層聚類。事先不用確定分多少類:分層聚類另一種聚類稱為分層聚類或系統(tǒng)15對(duì)于我們的數(shù)據(jù),SPSS輸出為對(duì)于我們的數(shù)據(jù),SPSS輸出為16例:5個(gè)樣品距離陣

令Dk為系統(tǒng)聚類法種第k次合并時(shí)的距離,如{Dk}為單調(diào)的,則稱具有單調(diào)性.前面只有重心和中間距離法不具有單調(diào)性.步驟: 最短距離法

最長(zhǎng)距離法階段 bk(第k階段類的集合) Dk DkD(0) (1)(2)(3)(4)(5) 0 0D(1)

(1,3)(2)(4)(5) 1 1D(2) (1,3)(2,4)(5) 3 3D(3) (1,3)(2,4,5) 4 5D(4)

(1,3,2,4,5) 6 9注:最短和最長(zhǎng)距離法結(jié)果一樣(一般不一定一樣)例:5個(gè)樣品距離陣

令Dk為系統(tǒng)聚類法種第k次合并時(shí)的距離,17聚類要注意的問(wèn)題聚類結(jié)果主要受所選擇的變量影響。如果去掉一些變量,或者增加一些變量,結(jié)果會(huì)很不同。相比之下,聚類方法的選擇則不那么重要了。因此,聚類之前一定要目標(biāo)明確。

另外就分成多少類來(lái)說(shuō),也要有道理。只要你高興,從分層聚類的計(jì)算機(jī)結(jié)果可以得到任何可能數(shù)量的類。但是,聚類的目的是要使各類距離盡可能地遠(yuǎn),而類中點(diǎn)的距離盡可能的近,而且分類結(jié)果還要有令人信服的解釋。這一點(diǎn)就不是數(shù)學(xué)可以解決的了。聚類要注意的問(wèn)題聚類結(jié)果主要受所選擇的變量影響。如果去掉一18SPSS實(shí)現(xiàn)(聚類分析)分層聚類對(duì)drink.sav數(shù)據(jù)在SPSS中選擇Analyze-Classify-HierarchicalCluster,然后把calorie(熱量)、caffeine(咖啡因)、sodium(鈉)、price(價(jià)格)選入Variables,在Cluster選Cases(這是Q型聚類:對(duì)觀測(cè)值聚類),如果要對(duì)變量聚類(R型聚類)則選Variables,為了畫出樹(shù)狀圖,選Plots,再點(diǎn)Dendrogram等。SPSS實(shí)現(xiàn)(聚類分析)分層聚類19啤酒成分和價(jià)格數(shù)據(jù)(data14-02)啤酒名 熱量 鈉含量 酒精 價(jià)格Budweiser 144.00 19.00 4.70 .43Schlitz 181.00 19.00 4.90 .43Ionenbrau 157.00 15.00 4.90 .48Kronensourc 170.00 7.00 5.20 .73Heineken 152.00 11.00 5.00 .77Old-milnaukee 145.00 23.00 4.60 .26Aucsberger 175.00 24.00 5.50 .40Strchs-bohemi 149.00 27.00 4.70 .42Miller-lite 99.00 10.00 4.30 .43Sudeiser-lich 113.00 6.00 3.70 .44Coors 140.00 16.00 4.60 .44Coorslicht 102.00 15.00 4.10 .46Michelos-lich 135.00 11.00 4.20 .50Secrs 150.00 19.00 4.70 .76Kkirin 149.00 6.00 5.00 .79Pabst-extra-l 68.00 15.00 2.30 .36Hamms 136.00 19.00 4.40 .43Heilemans-old 144.00 24.00 4.90 .43Olympia-gold- 72.00 6.00 2.90 .46Schlite-light 97.00 7.00 4.20 .47啤酒成分和價(jià)格數(shù)據(jù)(data14-02)啤酒名 熱量 鈉含20Statistics→Classify→HierarchicalCluster:Variables:啤酒名和成分價(jià)格等Cluster(Case,R聚類)Display:(Statistics)(AgglomerationSchedule凝聚狀態(tài)表),(Proximitymatrix),Clustermembership(Singlesolution,[4])Method:

Cluster(FurthestNeighbor),Measure-Interval(SquaredEuclideandistance),TransformValue(Range0-1/Byvariable(值-最小值)/極差)Plots:(Dendrogram)

Icicle(Specifiedrangeofcluster,Start-1,Stop-4,by-1),Orientation(Vertical)Save:

ClusterMembership(Singlesolution[4])Statistics→Classify→Hierarchi21啤酒例子下表(Proximitymatrix)中行列交叉點(diǎn)為兩種啤酒之間各變量的歐氏距離平方和啤酒例子下表(Proximitymatrix)中行列交叉點(diǎn)22凝聚過(guò)程:Coefficients為不相似系數(shù),由于是歐氏距離,小的先合并.凝聚過(guò)程:Coefficients為不相似系數(shù),由于是歐氏距23分為四類的聚類結(jié)果分為四類的聚類結(jié)果24冰柱圖(icicle)冰柱圖(icicle)25聚類樹(shù)型圖聚類樹(shù)型圖26學(xué)生測(cè)驗(yàn)數(shù)據(jù)(data14-03)50個(gè)學(xué)生,X1-X10個(gè)測(cè)驗(yàn)項(xiàng)目要對(duì)變量聚類(Q型聚類)過(guò)程和R型聚類(對(duì)cases)一樣學(xué)生測(cè)驗(yàn)數(shù)據(jù)(data14-03)27Statistics→Classify→HierarchicalCluster:Variables:x1-x10Cluster(Variable,Q聚類)Display:(Statistics)(Proximitymatrix),Clustermembership(Singlesolution,[2])Method:

Cluster(FurthestNeighbor),Measure-Interval(Pearsoncorrelation),Plots:Icicle(AllCluster)Statistics→Classify→Hierarchi28學(xué)生測(cè)驗(yàn)例子下表(Proximitymatrix)中行列交叉點(diǎn)為兩個(gè)變量之間各變量的歐氏距離平方和學(xué)生測(cè)驗(yàn)例子下表(Proximitymatrix)中行列交29分為兩類的聚類結(jié)果分為兩類的聚類結(jié)果30冰柱圖(icicle)冰柱圖(icicle)31聚類分析聚類分析32分類俗語(yǔ)說(shuō),物以類聚、人以群分。但什么是分類的根據(jù)呢?比如,要想把中國(guó)的縣分成若干類,就有很多種分類法;可以按照自然條件來(lái)分,比如考慮降水、土地、日照、濕度等各方面;也可以考慮收入、教育水準(zhǔn)、醫(yī)療條件、基礎(chǔ)設(shè)施等指標(biāo);既可以用某一項(xiàng)來(lái)分類,也可以同時(shí)考慮多項(xiàng)指標(biāo)來(lái)分類。分類俗語(yǔ)說(shuō),物以類聚、人以群分。33聚類分析對(duì)于一個(gè)數(shù)據(jù),人們既可以對(duì)變量(指標(biāo))進(jìn)行分類(相當(dāng)于對(duì)數(shù)據(jù)中的列分類),也可以對(duì)觀測(cè)值(事件,樣品)來(lái)分類(相當(dāng)于對(duì)數(shù)據(jù)中的行分類)。比如學(xué)生成績(jī)數(shù)據(jù)就可以對(duì)學(xué)生按照理科或文科成績(jī)(或者綜合考慮各科成績(jī))分類,當(dāng)然,并不一定事先假定有多少類,完全可以按照數(shù)據(jù)本身的規(guī)律來(lái)分類。本章要介紹的分類的方法稱為聚類分析(clusteranalysis)。對(duì)變量的聚類稱為R型聚類,而對(duì)觀測(cè)值聚類稱為Q型聚類。這兩種聚類在數(shù)學(xué)上是對(duì)稱的,沒(méi)有什么不同。聚類分析對(duì)于一個(gè)數(shù)據(jù),人們既可以對(duì)變量(指標(biāo))進(jìn)行分類(相當(dāng)34飲料數(shù)據(jù)(drink.sav)16種飲料的熱量、咖啡因、鈉及價(jià)格四種變量飲料數(shù)據(jù)(drink.sav)16種飲料的熱量、咖啡因、鈉35如何度量遠(yuǎn)近?如果想要對(duì)100個(gè)學(xué)生進(jìn)行分類,如果僅僅知道他們的數(shù)學(xué)成績(jī),則只好按照數(shù)學(xué)成績(jī)來(lái)分類;這些成績(jī)?cè)谥本€上形成100個(gè)點(diǎn)。這樣就可以把接近的點(diǎn)放到一類。如果還知道他們的物理成績(jī),這樣數(shù)學(xué)和物理成績(jī)就形成二維平面上的100個(gè)點(diǎn),也可以按照距離遠(yuǎn)近來(lái)分類。三維或者更高維的情況也是類似;只不過(guò)三維以上的圖形無(wú)法直觀地畫出來(lái)而已。在飲料數(shù)據(jù)中,每種飲料都有四個(gè)變量值。這就是四維空間點(diǎn)的問(wèn)題了。如何度量遠(yuǎn)近?如果想要對(duì)100個(gè)學(xué)生進(jìn)行分類,如果僅僅知道他36兩個(gè)距離概念按照遠(yuǎn)近程度來(lái)聚類需要明確兩個(gè)概念:一個(gè)是點(diǎn)和點(diǎn)之間的距離,一個(gè)是類和類之間的距離。點(diǎn)間距離有很多定義方式。最簡(jiǎn)單的是歐氏距離,還有其他的距離。當(dāng)然還有一些和距離相反但起同樣作用的概念,比如相似性等,兩點(diǎn)越相似度越大,就相當(dāng)于距離越短。由一個(gè)點(diǎn)組成的類是最基本的類;如果每一類都由一個(gè)點(diǎn)組成,那么點(diǎn)間的距離就是類間距離。但是如果某一類包含不止一個(gè)點(diǎn),那么就要確定類間距離,類間距離是基于點(diǎn)間距離定義的:比如兩類之間最近點(diǎn)之間的距離可以作為這兩類之間的距離,也可以用兩類中最遠(yuǎn)點(diǎn)之間的距離作為這兩類之間的距離;當(dāng)然也可以用各類的中心之間的距離來(lái)作為類間距離。在計(jì)算時(shí),各種點(diǎn)間距離和類間距離的選擇是通過(guò)統(tǒng)計(jì)軟件的選項(xiàng)實(shí)現(xiàn)的。不同的選擇的結(jié)果會(huì)不同,但一般不會(huì)差太多。兩個(gè)距離概念按照遠(yuǎn)近程度來(lái)聚類需要明確兩個(gè)概念:一個(gè)是點(diǎn)和點(diǎn)37向量x=(x1,…,xp)與y=(y1,…,yp)之間的距離或相似系數(shù):歐氏距離:Euclidean平方歐氏距離:SquaredEuclidean夾角余弦(相似系數(shù)1):cosinePearsoncorrelation(相似系數(shù)2):Chebychev:Maxi|xi-yi|Block(絕對(duì)距離):Si|xi-yi|Minkowski:當(dāng)變量的測(cè)量值相差懸殊時(shí),要先進(jìn)行標(biāo)準(zhǔn)化.如R為極差,s為標(biāo)準(zhǔn)差,則標(biāo)準(zhǔn)化的數(shù)據(jù)為每個(gè)觀測(cè)值減去均值后再除以R或s.當(dāng)觀測(cè)值大于0時(shí),有人采用Lance和Williams的距離向量x=(x1,…,xp)與y=(y1,…,yp)之間的38類Gp與類Gq之間的距離Dpq

(d(xi,xj)表示點(diǎn)xi∈Gp和xj∈Gq之間的距離)最短距離法:最長(zhǎng)距離法:重心法:離差平方和:(Wald)類平均法:(中間距離,可變平均法,可變法等可參考各書).在用歐氏距離時(shí),有統(tǒng)一的遞推公式(假設(shè)Gr是從Gp和Gq合并而來(lái)):類Gp與類Gq之間的距離Dpq

(d(xi,xj)表示點(diǎn)xi39Lance和Williams給出(對(duì)歐氏距離)統(tǒng)一遞推公式:D2(k,r)=apD2(k,p)+aqD2(k,q)+bD2(p,q) +g|D2(k,p)-D2(k,q)|前面方法的遞推公式可選擇參數(shù)而得:方法 ai(i=p,q) b

g最短距離 ? 0 -1/2最長(zhǎng)距離 ? 0 1/2重心 ni/nr -apaq 0類平均 ni/nr 0

0

離差平方和(ni+nk)/(nr+nk)

-nk/(nr+nk)

0

中間距離 1/2

-1/4

0

可變法 (1-b)/2

b(<1)

0

可變平均 (1-b)ni/nr

b(<1)

0

Lance和Williams給出(對(duì)歐氏距離)統(tǒng)一遞推公式:40有了上面的點(diǎn)間距離和類間距離的概念,就可以介紹聚類的方法了。這里介紹兩個(gè)簡(jiǎn)單的方法。有了上面的點(diǎn)間距離和類間距離的概念,就可以介紹聚類的方法了。41事先要確定分多少類:k-均值聚類前面說(shuō)過(guò),聚類可以走著瞧,不一定事先確定有多少類;但是這里的k-均值聚類(k-meanscluster,也叫快速聚類,quickcluster)卻要求你先說(shuō)好要分多少類。看起來(lái)有些主觀,是吧!假定你說(shuō)分3類,這個(gè)方法還進(jìn)一步要求你事先確定3個(gè)點(diǎn)為“聚類種子”(SPSS軟件自動(dòng)為你選種子);也就是說(shuō),把這3個(gè)點(diǎn)作為三類中每一類的基石。然后,根據(jù)和這三個(gè)點(diǎn)的距離遠(yuǎn)近,把所有點(diǎn)分成三類。再把這三類的中心(均值)作為新的基石或種子(原來(lái)的“種子”就沒(méi)用了),重新按照距離分類。如此疊代下去,直到達(dá)到停止疊代的要求(比如,各類最后變化不大了,或者疊代次數(shù)太多了)。顯然,前面的聚類種子的選擇并不必太認(rèn)真,它們很可能最后還會(huì)分到同一類中呢。下面用飲料例的數(shù)據(jù)來(lái)做k-均值聚類。事先要確定分多少類:k-均值聚類前面說(shuō)過(guò),聚類可以走著瞧,42假定要把這16種飲料分成3類。利用SPSS,只疊代了三次就達(dá)到目標(biāo)了(計(jì)算機(jī)選的種子還可以)。這樣就可以得到最后的三類的中心以及每類有多少點(diǎn)

假定要把這16種飲料分成3類。利用SPSS,只疊代了三次就達(dá)43根據(jù)需要,可以輸出哪些點(diǎn)分在一起。結(jié)果是:第一類為飲料1、10;第二類為飲料2、4、8、11、12、13、14;第三類為剩下的飲料3、5、6、7、9、15、16。根據(jù)需要,可以輸出哪些點(diǎn)分在一起。結(jié)果是:第一類為飲料1、144SPSS實(shí)現(xiàn)(聚類分析)K-均值聚類以數(shù)據(jù)drink.sav為例,在SPSS中選擇Analyze-Classify-K-MenasCluster,然后把calorie(熱量)、caffeine(咖啡因)、sodium(鈉)、price(價(jià)格)選入Variables,在NumberofClusters處選擇3(想要分的類數(shù)),如果想要知道哪種飲料分到哪類,則選Save,再選ClusterMembership等。注意k-均值聚類只能做Q型聚類,如要做R型聚類,需要把數(shù)據(jù)陣進(jìn)行轉(zhuǎn)置。SPSS實(shí)現(xiàn)(聚類分析)K-均值聚類45事先不用確定分多少類:分層聚類另一種聚類稱為分層聚類或系統(tǒng)聚類(hierarchicalcluster)。開(kāi)始時(shí),有多少點(diǎn)就是多少類。它第一步先把最近的兩類(點(diǎn))合并成一類,然后再把剩下的最近的兩類合并成一類;這樣下去,每次都少一類,直到最后只有一大類為止。顯然,越是后來(lái)合并的類,距離就越遠(yuǎn)。再對(duì)飲料例子來(lái)實(shí)施分層聚類。事先不用確定分多少類:分層聚類另一種聚類稱為分層聚類或系統(tǒng)46對(duì)于我們的數(shù)據(jù),SPSS輸出為對(duì)于我們的數(shù)據(jù),SPSS輸出為47例:5個(gè)樣品距離陣

令Dk為系統(tǒng)聚類法種第k次合并時(shí)的距離,如{Dk}為單調(diào)的,則稱具有單調(diào)性.前面只有重心和中間距離法不具有單調(diào)性.步驟: 最短距離法

最長(zhǎng)距離法階段 bk(第k階段類的集合) Dk DkD(0) (1)(2)(3)(4)(5) 0 0D(1)

(1,3)(2)(4)(5) 1 1D(2) (1,3)(2,4)(5) 3 3D(3) (1,3)(2,4,5) 4 5D(4)

(1,3,2,4,5) 6 9注:最短和最長(zhǎng)距離法結(jié)果一樣(一般不一定一樣)例:5個(gè)樣品距離陣

令Dk為系統(tǒng)聚類法種第k次合并時(shí)的距離,48聚類要注意的問(wèn)題聚類結(jié)果主要受所選擇的變量影響。如果去掉一些變量,或者增加一些變量,結(jié)果會(huì)很不同。相比之下,聚類方法的選擇則不那么重要了。因此,聚類之前一定要目標(biāo)明確。

另外就分成多少類來(lái)說(shuō),也要有道理。只要你高興,從分層聚類的計(jì)算機(jī)結(jié)果可以得到任何可能數(shù)量的類。但是,聚類的目的是要使各類距離盡可能地遠(yuǎn),而類中點(diǎn)的距離盡可能的近,而且分類結(jié)果還要有令人信服的解釋。這一點(diǎn)就不是數(shù)學(xué)可以解決的了。聚類要注意的問(wèn)題聚類結(jié)果主要受所選擇的變量影響。如果去掉一49SPSS實(shí)現(xiàn)(聚類分析)分層聚類對(duì)drink.sav數(shù)據(jù)在SPSS中選擇Analyze-Classify-HierarchicalCluster,然后把calorie(熱量)、caffeine(咖啡因)、sodium(鈉)、price(價(jià)格)選入Variables,在Cluster選Cases(這是Q型聚類:對(duì)觀測(cè)值聚類),如果要對(duì)變量聚類(R型聚類)則選Variables,為了畫出樹(shù)狀圖,選Plots,再點(diǎn)Dendrogram等。SPSS實(shí)現(xiàn)(聚類分析)分層聚類50啤酒成分和價(jià)格數(shù)據(jù)(data14-02)啤酒名 熱量 鈉含量 酒精 價(jià)格Budweiser 144.00 19.00 4.70 .43Schlitz 181.00 19.00 4.90 .43Ionenbrau 157.00 15.00 4.90 .48Kronensourc 170.00 7.00 5.20 .73Heineken 152.00 11.00 5.00 .77Old-milnaukee 145.00 23.00 4.60 .26Aucsberger 175.00 24.00 5.50 .40Strchs-bohemi 149.00 27.00 4.70 .42Miller-lite 99.00 10.00 4.30 .43Sudeiser-lich 113.00 6.00 3.70 .44Coors 140.00 16.00 4.60 .44Coorslicht 102.00 15.00 4.10 .46Michelos-lich 135.00 11.00 4.20 .50Secrs 150.00 19.00 4.70 .76Kkirin 149.00 6.00 5.00 .79Pabst-extra-l 68.00 15.00 2.30 .36Hamms 136.00 19.00 4.40 .43Heilemans-old 144.00 24.00 4.90 .43Olympia-gold- 72.00 6.00 2.90 .46Schlite-light 97.00 7.00 4.20 .47啤酒成分和價(jià)格數(shù)據(jù)(data14-02)啤酒名 熱量 鈉含51Statistics→Classify→

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論