數(shù)據(jù)挖掘 聚類分析_第1頁
數(shù)據(jù)挖掘 聚類分析_第2頁
數(shù)據(jù)挖掘 聚類分析_第3頁
數(shù)據(jù)挖掘 聚類分析_第4頁
數(shù)據(jù)挖掘 聚類分析_第5頁
已閱讀5頁,還剩38頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第五章聚類分析

§5.1什么是聚類分析

聚類分析又稱群分析,它是研究(樣品或指標(biāo))分類問題的一種多元統(tǒng)計方法,所謂類,

通俗地說,就是指相似元素的集合。嚴(yán)格的數(shù)學(xué)定義是較麻煩的,在不同問題中類的定義是

不同的。詳見參考文獻(xiàn)[1]。

聚類分析起源于分類學(xué),在考古的分類學(xué)中,人們主要依靠經(jīng)驗(yàn)和專業(yè)知識來實(shí)現(xiàn)分類。

隨著生產(chǎn)技術(shù)和科學(xué)的發(fā),展,人類的認(rèn)識不斷加深,分類越來越細(xì),要求也越來越高,有時

光憑經(jīng)驗(yàn)和專業(yè)知識是不能進(jìn)行確切分類的,往往需要定性和定量分析結(jié)合起來去分類,于

是數(shù)學(xué)工具逐漸被引進(jìn)分類學(xué)中,形成了數(shù)值分類學(xué)。后來隨著多元分析的引進(jìn),聚類分析

又逐漸從數(shù)值分類學(xué)中分離出來而形成一個相對獨(dú)立的分支。

在社會經(jīng)濟(jì)領(lǐng)域中存在著大量分類問題,比如對我國30個省市自治區(qū)獨(dú)立核算工業(yè)企

業(yè)經(jīng)濟(jì)效益進(jìn)行分析,一段不是逐個省市自治區(qū)去分析,而較好地做法是選取能反映企業(yè)經(jīng)

濟(jì)效益的代表性指標(biāo),如百元固定資產(chǎn)實(shí)現(xiàn)利稅、資金利稅率、產(chǎn)值利稅率、百元銷售收入

實(shí)現(xiàn)利潤、全員勞動生產(chǎn)率等等,根據(jù)這些指標(biāo)對30個省市自治區(qū)進(jìn)行分類,然后根據(jù)分

類結(jié)果對企業(yè)經(jīng)濟(jì)效益進(jìn)行綜合評價,就易于得出科學(xué)的分析。又比如若對某些大城市的物

價指數(shù)進(jìn)行考察,而物價指數(shù)很多,有農(nóng)用生產(chǎn)物價指數(shù)、服務(wù)項(xiàng)目價指數(shù)、食品消費(fèi)物價

指數(shù)、建材零售價格指數(shù)等等。由于要考察的物價指數(shù)很多,通常先對這些物價指數(shù)進(jìn)行分

類??傊?,需要分類的問題很多,因此聚類分析這個有用的數(shù)學(xué)工具越來越受到人們的重視,

它在許多領(lǐng)域中都得到了廣泛的應(yīng)用。

值得提出的是將聚類分析和其它方法聯(lián)合起來使用,如判別分析、主成分分析、回歸分

析等往往效果更好。

聚類分析內(nèi)容非常豐富,有系統(tǒng)聚類法、有序樣品聚類法、動態(tài)聚類法、模糊聚類法、

圖論聚類法、聚類預(yù)報法等。本章主要介紹常用的系統(tǒng)聚類法。

§5.2距離和相似系數(shù)

為了將樣品(或指標(biāo))進(jìn)行分類,就需要研究樣品之間關(guān)系。目前用得最多的方法有兩

個:一種方法是用相似系數(shù),性質(zhì)越接近的樣品,它們的相似系數(shù)的絕對值越接近1,而彼

此無關(guān)的樣品,它們的相似系數(shù)的絕對值越接近于零。比較相似的樣品歸為一類,不怎么相

似的樣品歸為不同的類。另一種方法是將一個樣品看作P維空間的一個點(diǎn),并在空間定義距

離,距離越近的點(diǎn)歸為一類,距離較遠(yuǎn)的點(diǎn)歸為不同的類。但相似系數(shù)和距離有各種各樣的

定義,而這些定義與變量的類型關(guān)系極大,因此先介紹變量的類型。

由于實(shí)際問題中,遇到的指標(biāo)有的是定量的(如長度、重量等),有的是定性的(如性

別、職業(yè)等),因此將變量(指標(biāo))的類型按以下三種尺度劃分:

間隔尺度:變量是用連續(xù)的量來表示的,如長度、重量、壓力、速度等等。在間隔尺度

中,如果存在絕對零點(diǎn),又稱比例尺度,本書并不嚴(yán)格區(qū)分比例尺度和間隔尺度。

有序尺度:變量度量時沒有明確的數(shù)量表示,而是劃分一些等級,等級之間有次序關(guān)系,

如某產(chǎn)品分上、中、下三等,此三等有次序關(guān)系,但沒有數(shù)量表示。

名義尺度:變量度量時、既沒有數(shù)量表示,也沒有次序關(guān)系,如某物體有紅、黃、白三

種顏色,又如醫(yī)學(xué)化驗(yàn)中的陰性與陽性,市場供求中的"產(chǎn)"和"銷"等。

不同類型的變量,在定義距離和相似系數(shù)時,其方法有很大差異,使用時必須注意。研

究比較多的是間隔尺度,因此本章主要給出間隔尺度的距離和相似系數(shù)的定義。

設(shè)有"個樣品,每個樣品測得夕項(xiàng)指標(biāo)(變量),原始資料陣為

xlXj???Xp

\|為2…“

xX21X22???工2P

X=.2

*?*

X”/2???x呼

其中勺(i=l,…,〃;/=1,…,P)為第,個樣品的第/個指標(biāo)的觀測數(shù)據(jù)。第/個樣品”為矩陣

X的第一行所描述,所以任何兩個樣品像與X之間的相似性,可以通過矩陣X中的第《行

與第2行的相似程度來刻劃;任何兩個變量以與”之間的相似性,可以通過第K列與第L

列的相似程度來刻劃。

1對樣品分類(稱為Q■型聚類分析)常用的距離和相似系數(shù)定義

(1)距離

如果把〃個樣品(X中的〃個行)看成〃維空間中〃個點(diǎn),則兩個樣品間相似程度可

用〃維空間中兩點(diǎn)的距離來度量。令號表示樣品A[與用的距離。常用的距離有:

i)明氏(Minkowski)距離

<P、7q

%(q)=>除

Ia=l7

當(dāng)9=1時

4?)=£|見一即絕對距離

a=\

當(dāng)。=2時

(P/

4(2)=Z(q7向)2即歐氏距離

、a=1)

當(dāng)4=8時

%(oo)=inaxjx/a-xj(l\即切比雪夫距離

當(dāng)各變量的測量值相差懸殊時,要用明氏距離并不合理,常需要先對數(shù)據(jù)標(biāo)準(zhǔn)化,然后

用標(biāo)準(zhǔn)化后的數(shù)據(jù)計算距離。

明氏距離特別是其中的歐氏距離是人們較為熟悉的也是使用最多的距離。但明氏距離存

在不足之處,主要表面在兩個方面:第一,它與各指標(biāo)的量綱有關(guān);第二,它沒有考慮指標(biāo)

之間的相關(guān)性,歐氏距離也不例外。除此之外,從統(tǒng)計的角度上看,使用歐氏距離要求一個

向量的〃個分量是不相關(guān)的且具有相同的方差,或者說各坐標(biāo)對歐氏距離的貢獻(xiàn)是同等的

且變差大小也是相同的,這時使用歐氏距離才合適,效果也較好,否則就有可能不能如實(shí)反

映情況,甚至導(dǎo)致錯誤結(jié)論。因此一個合理的做法,就是對坐標(biāo)加權(quán),這就產(chǎn)生了“統(tǒng)計距

離”。比如設(shè)尸=(為,々,…,勺)',。=(%,%,…,")',且Q的坐標(biāo)是固定的,點(diǎn)夕的坐標(biāo)

相互獨(dú)立地變化。用sn,si2,…,Spp表示o個變量巧,巧,…,與的〃次觀測的樣本方差,則

可以義夕到Q的統(tǒng)計距離為:

d(P,Q)=

所加的權(quán)是占=」-,A

,即用樣本方差除相應(yīng)坐標(biāo)。當(dāng)取

s”

=0.2=…=$pp

y}=y2=...=yp時,就是點(diǎn)夕到原點(diǎn)。的距離。若$“=時,就是歐氏距

離。

ii)馬氏(Mahalanobis)距離

馬氏距離是由印度統(tǒng)計學(xué)家馬哈拉諾比斯于1936年期入的,故稱為馬氏距離.這一距

離在多元統(tǒng)計分析中起著十分重要的作用,下面給出定義。

設(shè)E表示指標(biāo)的協(xié)差陣即:

Z=(bij)pxp

其中為=一-切)i,j=l,…,P

"a〃皿

如果E」存在,則兩個樣品之間的馬氏距離為

d久M)=(X「Xjz7(X「Xj)

這里X,為樣品Xj的p個指標(biāo)組成的向量,即原始資料陣的第/行向量。樣品XJ類似.

順便給出樣品X到總體G的馬氏距離定義為

d2(x,G)=(X-M》T(X-M

其中〃為總體的均值向量,2為協(xié)方差陣。

馬氏距離既排除了各指標(biāo)之間相關(guān)性的干擾,而且還不受各指標(biāo)量綱的影響。除此之外,

它還有一些優(yōu)點(diǎn),如可以證明,將原數(shù)據(jù)作一線性交換后,馬氏距離仍不變等等。

iii)蘭氏(Canberra)距離

它是由Lance和Williams最早提出的,故稱蘭氏距離。

I,I、1V除-Xja\??1

Jrf(L)=—X------------i,j=I,---,n

PXia+,〃

此距離僅適用于一切勺>0的情況,這個距離有助于克服各指標(biāo)之間量綱的影響,但沒

有考慮指標(biāo)之間的相關(guān)性。

計算任何兩個樣品X與Xj之間的距離%,其值越小表示兩個樣品接近程度越大凡

值越大表示兩個樣品接近程度越小。如果把任何兩個樣品的距離都算出來后,可排成距離陣

。:

41九…d]1t

c/d…d

D=,2l222n

m_

其中=42=0。。是一個實(shí)對稱陣,所以只須計算上三角形部分或下三角

形部分即可。根據(jù)??蓪Α▊€點(diǎn)進(jìn)行分類,距離近的點(diǎn)歸為一類,距離遠(yuǎn)的點(diǎn)歸為不同的

類。

以上三種距離的定義是適用于間隔尺度變量的,如果變量是有序尺度或名義尺度時,也

有一些定義距離的方法,讀者可參看文獻(xiàn),口]。

(2)相似系數(shù)

研究樣品之間的關(guān)系,除了用距離表示外,還有相似系數(shù),顧名思義,相似系數(shù)是描寫

樣品之間相似程度的一個量,常用的相似系數(shù)有:

i)夾角余弦

這是受相似形的啟發(fā)而來的,下圖曲線和。盡管長度不一"旦形狀相似。

BD

當(dāng)長度不是主要矛盾時,要定義一種相似系數(shù),使和C。呈現(xiàn)出比較密切的關(guān)系,則夾

角余弦就適合這個要求。它的定義是:

將任何兩個樣品Xj與Xj看成p維空間的兩個向量,這兩個向量的夾角余弦用cos為表

示。則

P

COS%="T1<cos^:<1

JIpp-

Ia=la=l

當(dāng)8S%=1,說明兩個樣品Xj與Xj完全相似;cos%接近1,說明Xj與Xj相似密切;

COS%=0,說明X,與X,完全不一樣;期為接近0,說明先與*,差別大。把所有兩兩樣

品的相似系數(shù)都算出,可排成相似系數(shù)矩陣:

COS?!盋OS%8S%

cos%cos0^???cosG^n

o=..

_COS3n\COS?!??…COS。*

其中COS%=8S%2="COS%”=1。b是一個實(shí)對稱陣,所以只須計算上三角形部

分或下三角形部分,根據(jù)B可對"個樣品進(jìn)行分類,把比較相似的樣品歸為一類,不怎么相

似的樣品歸為不同的類。

ii)相關(guān)系數(shù)

通常所說相關(guān)系數(shù),一般指變量間的相關(guān)系數(shù),作為刻劃樣品間的相似關(guān)系也可類似給

出定義,即第/個樣品與第,個樣品之間的相關(guān)系數(shù)定義為:

£%")(與7力

%=I4__-/yi

歸(X山-京)2方(5-焉『

Ia=la=l

其中

實(shí)際上,々就是兩個向量Xj-禮與X,-禮的夾角余弦,其中禮=Gdy,

,

xj=(x;,---,x;)0若將原始數(shù)據(jù)標(biāo)準(zhǔn)化,則Xi=Xj=0,這時G=cos%。

rn八2…

其中小=々=…=%=1,可根據(jù)月對"個樣品進(jìn)行分類。

名義尺度也有一些相似系數(shù)的定義,讀者可參考文獻(xiàn)[1]。

2對指標(biāo)分類(稱為R-型聚類分析)常用的距離和相似系數(shù)定義

0個指標(biāo)(變量)之間相似性的定義與樣品相似性定義類似,但此時是在"維空間中來

研究的,變量之間的相似性是通過原始資料矩陣X中夕列間相似關(guān)系來研究的。

(1)距離

令4表示變量Xi=(4,…,再J與變量Xj之中距離。

i)明氏距離

/;1q、vq

&(<?)=£卜%-Xaj|

\。=1J

ii)馬氏距離

設(shè)E表示樣品的協(xié)差陣即

如果存在,則馬氏距離為

r-1

J?(M)=(X,-Xj)E(xf-Xj)

iii)蘭氏距離

方/+”

此處僅適用于一切勺20的情況。

(2)相似系數(shù)

i)夾角余弦

COS0-.=|"T-1<cos0::<1

7/nn3

Ia=l"=l

把兩兩列間相彳以系數(shù)算出后,排成矩陣

cos0x]cos???cos%

COS02\COS22…gs。2P

u=.

8S%|8S%2…COS6嘰

其中COS%=8S%2=…=COS0pp=I,根據(jù)b對夕個變量進(jìn)行分類。

ii)相關(guān)系數(shù)

Z(乙,一%)(%一打)

。=II?19I

In_n_J

(必")22(”-山1

把兩兩變量的相關(guān)系數(shù)都算出后,排成矩陣為

?42…

r21122…%,

R=(5)=

pp

其中小=々=…=%=1,可根據(jù)R對P個變量進(jìn)行分類。

在實(shí)際問題中,對樣品分類常用距離,對指標(biāo)分類常用相似系數(shù)。

由于樣品分類和指標(biāo)分類從方法上看基本上是一樣的,所以兩者就不嚴(yán)格分開說明了。

§5.3八種系統(tǒng)聚類方法

正如樣品之間的距離可以有不同的定義方法一樣,類與類之間的距離也有各種定義。例

如可以定義類與類之間的距離為兩類之間最近樣品的距離,或者定義為兩類之間最遠(yuǎn)樣品的

距離,也可以定義為兩類重心之間的距離等等。類與類之間用不同的方法定義距離,就產(chǎn)生

了不同的系統(tǒng)聚類方法。本節(jié)介紹常用的八種系統(tǒng)聚類方法,即最短距離法、最長距離法、

中間距離法、重心法、類平均法、可變類平均法、可變法、離差平方和法。系統(tǒng)聚類分析盡

管方法很多,但歸類的步驟基本上是一樣的,所不同的僅是類與類之間的距離有不同的定義

方法,從而得到不同的計算距離的公式。這些公式在形式上不大一樣,但最后可將它們統(tǒng)一

為一個公式,對上機(jī)計算帶來很大的方便,詳見后。

以下用4表示樣品X與X,之間距離,用均表示類。與G,之間的距離。

1最短距離法

定義類G與6之間的距離為兩類最近樣品的距離,即

D*=min"萬

}GiG廠G/”

設(shè)類Gp與G,合并成一個新類記為G,,則任一類與G,的距離是:

Dlr=mind::

XgG-XjwGjJ

=minmind::,mindn>

XiwGjXjwGp,JXfGk,X)wGqy

三min{%,2}

最短距離法聚類的步驟如下:

(1)定義樣品之間距離,計算樣品兩兩距離,得一距離陣記為。⑼,開始每個樣品自

成一類,顯然這時Djj=4)。

(2)找出的非對角線最小元素,設(shè)為D四,則將Gp和Gg合并成一個新類,記為

G一即G.={Gp,G“}。

(3)給出計算新類與其它類的距離公式:

。人"min{Dkp,Dkq\

將。(o)中第2、q行及p、q列用上面公式并成一個新行新列,新行新列對應(yīng)6,所得

到的矩陣記為Dd)o

(4)對Z)⑴重復(fù)上述對。⑺的(2\(3)兩步得。⑺;如此下去,直到所有的元素并

成一類為止。

如果某一步。中非對角線最小的元素不止一個,則對應(yīng)這些最小元素的類可以同時

合并。

為了便于理解最短S巨離法的計算步驟,現(xiàn)在舉一個最簡單的數(shù)字例子。

例1設(shè)抽取五個樣品,每個樣品只測一個指標(biāo),它們是1,2,35,7,9,試用最短

距離法對五個樣品進(jìn)行分類。

(1)定義樣品間距離采用絕對距離,計算樣品兩兩距離,得距離陣。?如下:

表1

G={x}

-={&}G2={X2}G3={X3}"""G4={X4}~~55

GfJ0

^2=^2)10

G3={x3}2.51.50

G4={x4}653.50

G5={XJ875.520

(2俄出。⑼中非對角線最小元素是1,即小=(=?廁將G|與G?并成f新類,

記為G6={X1,X2}。

(3)計算新類Gf,與其它類的距離,按公式:

Gi6=min(。“,Dj2)i=3,4,5

即將表。⑼的前兩例取較小的一列得表D(11如下:

表2

(hGA6s

66=因多}0

G3={X3}1.50

G4={XJ53.50

G4={XJ75.520

(4)找出Z)⑴中非對角線最小元素是1.5,則將相應(yīng)的兩類質(zhì)和無合并為

G[={XrX2,X3},然后再按公式計算各類與G的距離,即將應(yīng)相應(yīng)的兩行兩列歸并

一彳亍一歹」,I新的行列由原來的兩行(列)中較小的一個組成,計算結(jié)果得表。⑵如下:

676465

G7-{X.,X2,XJ0

3.50

G4={X4}

5.520

G4={X4}

⑸找出功2)中非對角線最小元素是2,貝I」將&與a合并成G、={X-Xs},最后再按

公式計算G與③的距離,即將而,⑥相應(yīng)的兩行兩列歸并成一行一列,新的行列由原來

的兩行(歹I」)中較小的f組成,得表。⑶如下:

表4

67

G7={X?X2,X3}0

^={^4^5)3.50

最后將弓和⑸合并成0上述井類過程可用下圖表達(dá)。橫坐標(biāo)的刻度是井類的距離。

由上圖看到分布兩類{xpx2,x3}s{x4,x5}比較合適在實(shí)際問題中有時給出一個閾

值T,要求類與類之間的距離小于T,因此有些樣品可能歸不了類。

最短距離法也可用于指標(biāo)(變量)分類,分類時可以用距離,也可以用相似系數(shù)。但用

相似系數(shù)時應(yīng)找最大的元素并類,也就是把公式Dik=min(Dip,/%)中的min換成max.

2最長距離法

定義類G,與類G,.之間距離為兩類最遠(yuǎn)樣品的距離,即

。=max%

最長距離法與最短距離法的并類步驟完全一樣,也是將各樣品先自成一類,然后將非龍角線

上最小元素對應(yīng)的兩類合并。設(shè)某一步將類Gp與Gq合并為G,,則任一類G人與G,的距離

用最長距離公式為

=maxmaxd”,maxd-?

X,wG).X,wGpJXfGk.X產(chǎn)Gq'

=max{/%,/%}

再找非對角線最小元素的兩類并類,直至所有的樣品全歸為一類為止。

易見最長距離法與最短距離法只有兩點(diǎn)不同:一是類與類之間的距離定義不同;另一是

計算新類與其它類的距離所用的公式不同。下面將要介紹的其它系統(tǒng)聚類法之間的不同點(diǎn)也

表現(xiàn)在這兩個方面,而并類步驟完全一樣,所以下面介紹其它系統(tǒng)聚類方法時,主要指出這

兩個方面:定義和公式。

舉例1應(yīng)用最長距離法按聚類步驟(1)一(3)可得下表:

表5

G

G2G3G&G5

G={xJ0

G?={X?}10

G3W}2.51.50

G4={x4}653.50

875.520

G5={X5}

。⑴為

表6

5

G6G3G5

^={^1^2}0

2.50

G3={X3}

63.50

G4={X/

05={X5}85.520

。⑵為

表7

GG

G675

G6={X},X2}0

G7={X4,X5}80

G3={X3}2.55.50

。⑶為

表8

G7={XAiX5}0

G8={X1,X2,X3}80

最后將G°和R合并成G,其聚類圖如下,與最短距離法分類情況一致,只是并類的距

6

3中間距離法

定義類與類之間的距離既不采用兩類之間最近的距離,也不采用有兩類之間最遠(yuǎn)的距離,

而是采用介于兩者之間的距離,故稱為中間距離法。

如果在某一步將類G,與類優(yōu)合并為G,,任一類G&和G,的距離公式為:

a產(chǎn);%+3%+儻\!左。

當(dāng)夕二時,由初等幾何知Dkr就是上面三角形的中線。

如果用最短距離法,則2,=。3;如果用最長距離法,則2r=;如果取夾在這兩

邊的中線作為,則5片昏落的二^,由于距離公式中的量都是距離的平

方,為了上機(jī)計算的方便,可將表。[0)、。⑴、D(2).....中的元素,都用相應(yīng)元素的平方

代替而得表名)、Qi)、%....

將例1用中間距離法分類,取/=-工。

4

(1)將每個樣品看作自成一類,因此4=%,得表。(0),然后將短⑦中元素平方得

表。電為

表9

G?G3

GG5

GI={X)0

G2={X2}10

^3={^3)62.52.250

GL{XJ362512.250

G5=伏}644930.2540

找出中非對角線最小元素是則將G]、G合并成一個新類。

(2)1,2G6

(3)按中間距離公式計算新類G6與其它類的平方距離得/);)表為

表10

qG5

G6={X?2}0

G3={X3}40

G4={x4}30.2512.250

Q={XJ56.2530.2540

如:

-"I

=-X6.254--X2.25--

224

(4)找出%中非對角線最小元素是。36=%=4,則將G,和G6合并成G7,將G,

和G-5合并成G-

(5)最后計算G7和Gg的平方距離,得D%表為:

表11

Gg

G7={XltX2tX3}0

G8={X4,X5}30.250

不難看出此聚類圖的形狀和前面兩種聚類圖一致,只是并類距離不同。而且可以發(fā)現(xiàn)中間距

離法的并類距離大致處于它們的中間。

4重心法

定義類與類之間距離時,為了體現(xiàn)出每類包含的樣品個數(shù)給出重心法。

重心法定義兩類之間的距離就是兩類重心之間的距離。設(shè)G〃和仇的重心(即該類樣品

的均值)分別是Xp和X.(注意一般它們是夕維向量),則Gp和Gq之間的距離是

D四二dxpXq。

設(shè)聚類到某一步,G,和5分別有樣品〃個,將Gp和5合并為G,.,則G,內(nèi)樣品

-I―__

個數(shù)為nr=np+%,它的重心是Xr=—(%Xlf+nqX(/),某一類Gk的重心是X人,它與

新類G,的距離(如果最初樣品之間的距離采用歐氏距襄)為

吭=4,=(禮一五J(又&-X/)

f

=Xk----(nXp+nX(/)Xk------(wpXp+nX)

L〃丁JL*」

=XkXk-2」XkXp-2」XkXq

〃r%

+-Y(〃;XkXk+2〃p〃qXpXq+XqXq)

_,___I/___t___t

利用'kXk=—npxkXk+nqxkXk代入上二c得

I

77一,一一'____"___\幾_,__,__'一

*=上XkXk-2XpXq+XpX“+,XkXk-2XkXq+XqXq

%I)

警■(又PXP-2Xp元+XgX.)

nr

顯然,當(dāng)〃“二時時即為中間距離法的公式。

如果樣品之間的距離不是歐氏距離,可根據(jù)不同情況給出不同的距離公式。

重心法的歸類步驟與以上三種方法基本上一樣,所不同的是每合并一次類,就要重新計

算新類的重心及各類與新類的距離。

將例1用重心法分類。

重心法的初始距離陣/不)與中間距離法相同(即表9),。言表為:

GG?G3QG5

GfJ0

02={xJ10

G.L'}6.252.250

G4={XJ362512.250

G5W644930.2540

首先將5與62并成新類66,其重心為56=1.5,計算G(,與其它各類重心之間的平方

距離得力東陣如下:

G6G3

5c5

G6={x^x2}0

G3W}40

G4={xA}30.2512.250

G5={x5}56.2530.2540

其中《曦喘之無端*15

如。:=lx36+-x25--xl=30.25

224

非對角線最小元素為4,可將G?與G,、并成G7,G,與G、并成Q,計算新類與其它重

心間的平方距離得。鼻如下:

G「

G7={XPX2^

G8={x4,/。

*

最后將G?-01

5類平均法

重心法雖有很好的代表性,但并未充分利用各樣品的信息,因此給出類平均法,它定義

兩類之間的距離平方為這兩類元素兩兩之間距離平方的平均,即

*六總斗

設(shè)聚類到某一步將G,和Gg合并為則任一類G與G,.的距離為

EZG+ZZ4

XgGkX產(chǎn)GpXteGkX/G、

n..,

類平均法的聚類步驟與上述方法完全類似,就不詳述了。

將例1用類平均法分類,同前表如下:

G?G3

0

G2={X2}10

03={X3}62.52.250

G4={XJ362512.250

GS={XS}644930.2540

力意中非對角線最小元素是1,將G1與G?合并為G6,按類平均法的距離公式計算G6

與其它類的距離得。之表如下:

G6G3G4Gs

G6={X19X2}0

G34.250

530.512.250

G556.530.2540

其中"=3,4,5

如=1x6.25+gx2.25=4.25

。;)中非對角線最小元素是4,將G,與G.合并為G,,計算G,與其它各類的距離得

。乙)表如下:

Gs5G7

G6={xl9x2)0

G.={x.}4.250

G.={X4.X5}43.512.50

最后將Gg合開成G..苴窕當(dāng)圖力n下

6可變類平均法

由于類平均法公式中沒有反映G〃與G”之間距離。”的影響,所以給出可變類平均法,

此法定義兩類之間的距離同上,只是將任一類G?與新類G,的距離改為如下形式:

席=-1-0%也(1-0)Dh+0%

nrnr

其中£是可變的且

仍取例1的數(shù)據(jù)用可變類平均法分類。

。一表如下:

GG?G3G4G5

Gi={Xi}0

G?=仇}10

G3=的}6.252.250

G4={XJ362512.250

G5=伏}644930.2540

中非對角線最小元素是1,將G與G2合并成G6,并按照上述公式計算G6與其它

各類的距離,取夕=-:,求得")表如下:

G6G3G4G5

G6={X^X2}0

G3={-^3}5.060

G&=憶}37.8812.250

G5={x5}70.3830.2540

可)中非對角線最小元素是4,將5與G$合并為G:,II算G?與其它各類的距離得

。鼻表如下:

G

6G3G1

G6={XpX2}0

G3={XJ5.060

^7={X4,X5}66.6625.560

將5與Gs合并成Q,計算5與G,的距離得。之表如下:

G8={X.,X2,X3}0

G.={X4,X5}64.490

最后將G,與G'合并成Gg,其聚類圖如下:

506

64.SM

7可變法

此法定義兩類之間的距離仍同上,而新類G,與任一類的G&的距離公式為:

吭=上1

其中6是可變的,且4>1。

顯然在可變類平均法中取上=上二:,即為上式。

勺勺2

可變類平均法與可變法的分類效果與夕的選擇關(guān)系極大,p如果接近1分類效果

不好,在實(shí)際應(yīng)用中夕常取負(fù)值。下面用例1數(shù)據(jù)用可變法分類,取4二-;,。器表如下:

GG2G3G,G5

G產(chǎn)區(qū)}0

G?={X?}i0

G,={X.}6.252.250

G4={x4}362512.250

Gs=僅)644930.2540

將G與Gz合并成G6,按上述公式計算G6與任一類的距離得。表如下:

再將GJ與G.s合并成G?,計算G?與其它類距離得2%表如下:

G6G35G5

0

^3={^}5.060

G4={x4}37.8812.250

GL'}703830.2540

G6G3G「

G6={X1,X2}0

G3MX3}5.060

G4={X4,X5}66.6625.560

再將Gj與G6合并成Gg,計算Gs與G?的距離得表如下:

G「Gg

G7={X3,X4}0

GLWLXJ56370

最后將G]與Gg合并成Gg,其聚類圖如下:

03556.37

8離差平方和法

這個方法是Ward提出來的,故又稱為Ward法。

設(shè)將"個樣品分成〃類:Gi,G2,…,0,用X?表示G,中的第/個樣品(注意X7是

夕維向量),nt表示G中的樣品個數(shù),又⑺是G的重心,則G中樣品的離差平方和為:

5,=£(X7-X(/)),(X^-X(0)

i=l

々個類的類內(nèi)離差平方和為

/=1,=1/=1

Ward法的基本思想是來自于方差分析,如果分類正確,同類樣品的離差平方和應(yīng)當(dāng)較

小,類與類的離差平方和應(yīng)當(dāng)較大。具體做法是先將"個樣品各自成一類,然后每次縮小一

類,每縮小一類離差平方和就要增大,選擇使S增加最小的兩類合并(因?yàn)槿绻诸愓_,

同類樣品的離差平方和應(yīng)當(dāng)較小)直到所有的樣品歸為一類為止。

粗看Ward法與前七種方法有較大的差異,但是如果將Gp與G4的距離定義為

Oj=S’_S”_Sq

其中G,=Gp\jGq,就可使Ward法和前七種系球類方法統(tǒng)一起來,且可以證明Ward

法合并類的距離公式為:

%

%+nk

將例1用Ward法分類:

(1)將五個樣品各自分成一類,顯然這時類內(nèi)離差平方和S=0o

(2)將一切可能的任意兩列合并,計算所增加的離差平方和,取其中較小的S所對應(yīng)

的類合并,例如將G尸{Xj、G2={X2}合并成一類,它的離差平方和

S=(l-I.5)2+(2-i.5)2=0.5,如果將G1={XJ、G3={X3}合并,它的離差平方和

S=(l-2.25)2+(3.5-2.25)2=3.125,將一切可能的兩類合并的離差平方和都算出,列表如

下:

表13

GG?G,G&G,

GfJ0

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論