第六章 聚類分析_第1頁
第六章 聚類分析_第2頁
第六章 聚類分析_第3頁
第六章 聚類分析_第4頁
第六章 聚類分析_第5頁
已閱讀5頁,還剩74頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

聚類分析1系統(tǒng)聚類分析直觀,易懂。快速聚類(動態(tài)聚類)快速,動態(tài)。2

例對10位應(yīng)聘者做智能檢驗(yàn)。3項(xiàng)指標(biāo)X,Y和Z分別表示數(shù)學(xué)推理能力,空間想象能力和語言理解能力。其得分如下,選擇合適的統(tǒng)計(jì)方法對應(yīng)聘者進(jìn)行分類。應(yīng)聘者12345678910X28181121262016142422Y29232223292322232927Z28181622262222242424§1什么是聚類分析345我們直觀地來看,這個(gè)分類是否合理?計(jì)算4號和6號得分的離差平方和:

(21-20)2+(23-23)2+(22-22)2=1

計(jì)算1號和2號得分的離差平方和:

(28-18)2+(29-23)2+(28-18)2=236

計(jì)算1號和3號得分的離差平方和為482,由此可見一般,分類可能是合理的,歐氏距離很大的應(yīng)聘者沒有被聚在一起。由此,我們的問題是如何來選擇樣品間相似的測度指標(biāo),如何將有相似性的類連接起來?6

聚類分析:根據(jù)一批樣品的許多觀測指標(biāo),按照一定的數(shù)學(xué)公式具體地計(jì)算一些樣品或一些參數(shù)(指標(biāo))的相似程度,把相似的樣品或指標(biāo)歸為一類,把不相似的歸為一類。將相似的對象歸并成類的一種統(tǒng)計(jì)方法,與回歸分析,判別分析一起,被稱為三大分析方法。

7分類

Q型聚類(樣品聚類):即從實(shí)際問題中觀測得到n個(gè)樣品,要根據(jù)某種相似性的原則,將這n個(gè)樣品進(jìn)行分類.

R型聚類(變量聚類):即對所考察的p個(gè)指標(biāo),根據(jù)n個(gè)觀測值,要根據(jù)某種相似性的原則將這個(gè)p指標(biāo)進(jìn)行分類.8

例如對上市公司的經(jīng)營業(yè)績進(jìn)行分類;據(jù)經(jīng)濟(jì)信息和市場行情,客觀地對不同商品、不同用戶及時(shí)地進(jìn)行分類。

例如當(dāng)我們對企業(yè)的經(jīng)濟(jì)效益進(jìn)行評價(jià)時(shí),建立了一個(gè)由多個(gè)指標(biāo)組成的指標(biāo)體系,由于信息的重疊,一些指標(biāo)之間存在很強(qiáng)的相關(guān)性,所以需要將相似的指標(biāo)聚為一類,從而達(dá)到簡化指標(biāo)體系的目的。

9

思考:樣本點(diǎn)之間按什么刻畫相似程度

思考:樣本點(diǎn)和小類之間按什么刻畫相似程度思考:小類與小類之間按什么來刻畫相似程度10一、變量測量尺度的類型為了將樣本進(jìn)行分類,就需要研究樣品之間的關(guān)系;而為了將變量進(jìn)行分類,就需要研究變量之間的關(guān)系。但無論是樣品之間的關(guān)系,還是變量之間的關(guān)系,都是用變量來描述的,變量的類型不同,描述方法也就不同。通常,變量按照測量它們的尺度不同,可以分為三類。

(1)間隔尺度。指標(biāo)度量時(shí)用數(shù)量來表示,其數(shù)值由測量或計(jì)數(shù)、統(tǒng)計(jì)得到,如長度、重量、收入、支出等。一般來說,計(jì)數(shù)得到的數(shù)量是離散數(shù)量,測量得到的數(shù)量是連續(xù)數(shù)量。§2相似系數(shù)和距離11

(2)順序尺度。指標(biāo)度量時(shí)沒有明確的數(shù)量表示,只有次序關(guān)系,或雖用數(shù)量表示,但相鄰兩數(shù)值之間的差距并不相等,它只表示一個(gè)有序狀態(tài)序列。如評價(jià)酒的味道,分成好、中、次三等,三等有次序關(guān)系,但沒有數(shù)量表示。

(3)名義尺度。指標(biāo)度量時(shí)既沒有數(shù)量表示也沒有次序關(guān)系,只有一些特性狀態(tài),如眼睛的顏色,化學(xué)中催化劑的種類等。在名義尺度中只取兩種特性狀態(tài)的變量是很重要的,如電路的開和關(guān),天氣的有雨和無雨,人口性別的男和女,醫(yī)療診斷中的“十”和“一”,市場交易中的買和賣等都是此類變量。12

二、數(shù)據(jù)的變換處理所謂數(shù)據(jù)變換,就是將原始數(shù)據(jù)矩陣中的每個(gè)元素,按照某種特定的運(yùn)算把它變成為一個(gè)新值,而且數(shù)值的變化不依賴于原始數(shù)據(jù)集合中其它數(shù)據(jù)的新值。

1、中心化變換中心化變換是一種坐標(biāo)軸平移處理方法,它是先求出每個(gè)變量的樣本平均值,再從原始數(shù)據(jù)中減去該變量的均值,就得到中心化變換后的數(shù)據(jù)。設(shè)原始觀測數(shù)據(jù)矩陣為:13中心化變換的結(jié)果是使每列數(shù)據(jù)之和均為0,即每個(gè)變量的均值為0,而且每列數(shù)據(jù)的平方和是該列變量樣本方差的(n—1)倍,任何不同兩列數(shù)據(jù)之交叉乘積是這兩列變量樣本協(xié)方差的(n—1)倍,所以這是一種很方便地計(jì)算方差與協(xié)方差的變換。142、標(biāo)準(zhǔn)化變換標(biāo)準(zhǔn)化變換也是對變量的數(shù)值和量綱進(jìn)行類似于規(guī)格化變換的一種數(shù)據(jù)處理方法。首先對每個(gè)變量進(jìn)行中心化變換,然后用該變量的標(biāo)準(zhǔn)差進(jìn)行標(biāo)準(zhǔn)化。即有:15經(jīng)過標(biāo)準(zhǔn)化變換處理后,每個(gè)變量即數(shù)據(jù)矩陣中每列數(shù)據(jù)的平均值為0,方差為1,且也不再具有量綱,同樣也便于不同變量之間的比較。變換后,數(shù)據(jù)矩陣中任何兩列數(shù)據(jù)乘積之和是兩個(gè)變量相關(guān)系數(shù)的(n-1)倍,所以這是一種很方便地計(jì)算相關(guān)矩陣的變換。

3.對數(shù)變換對數(shù)變換是將各個(gè)原始數(shù)據(jù)取對數(shù),將原始數(shù)據(jù)的對數(shù)值作為變換后的新值。即:

16三、樣品間親疏程度的測度

研究樣品或變量的親疏程度的數(shù)量指標(biāo)有兩種,一種叫相似系數(shù),性質(zhì)越接近的變量或樣品,它們的相似系數(shù)越接近于1或一l,而彼此無關(guān)的變量或樣品它們的相似系數(shù)則越接近于0,相似的為一類,不相似的為不同類;另一種叫距離,它是將每一個(gè)樣品看作p維空間的一個(gè)點(diǎn),并用某種度量測量點(diǎn)與點(diǎn)之間的距離,距離較近的歸為一類,距離較遠(yuǎn)的點(diǎn)應(yīng)屬于不同的類。17變量之間的聚類即R型聚類分析,常用相似系數(shù)來測度變量之間的親疏程度。而樣品之間的聚類即Q型聚類分析,則常用距離來測度樣品之間的親疏程度。

18

1、定義距離的準(zhǔn)則

定義距離要求滿足第i個(gè)和第j個(gè)樣品之間的距離如下四個(gè)條件(距離可以自己定義,只要滿足距離的條件)192、常用距離的算法設(shè)和是第i和j個(gè)樣品的觀測值,則二者之間的距離為:明氏距離特別,歐氏距離(1)明氏距離測度20

明考夫斯基距離主要有以下兩個(gè)缺點(diǎn):

①明氏距離的值與各指標(biāo)的量綱有關(guān),而各指標(biāo)計(jì)量單位的選擇有一定的人為性和隨意性,各變量計(jì)量單位的不同不僅使此距離的實(shí)際意義難以說清,而且,任何一個(gè)變量計(jì)量單位的改變都會使此距離的數(shù)值改變從而使該距離的數(shù)值依賴于各變量計(jì)量單位的選擇。

②明氏距離的定義沒有考慮各個(gè)變量之間的相關(guān)性和重要性。實(shí)際上,明考夫斯基距離是把各個(gè)變量都同等看待,將兩個(gè)樣品在各個(gè)變量上的離差簡單地進(jìn)行了綜合。21(2)杰氏距離這是杰斐瑞和馬突斯塔(Jffreys&Matusita)所定義的一種距離,其計(jì)算公式為:22(3)蘭氏距離這是蘭思和維廉姆斯(Lance&Williams)所給定的一種距離,其計(jì)算公式為:

這是一個(gè)自身標(biāo)準(zhǔn)化的量,由于它對大的奇異值不敏感,這樣使得它特別適合于高度偏倚的數(shù)據(jù)。雖然這個(gè)距離有助于克服明氏距離的第一個(gè)缺點(diǎn),但它也沒有考慮指標(biāo)之間的相關(guān)性。23

(4)馬氏距離這是印度著名統(tǒng)計(jì)學(xué)家馬哈拉諾比斯(P.C.Mahalanobis)所定義的一種距離,其計(jì)算公式為:分別表示第i個(gè)樣品和第j樣品的p指標(biāo)觀測值所組成的列向量,即樣本數(shù)據(jù)矩陣中第i個(gè)和第j個(gè)行向量的轉(zhuǎn)置,

表示觀測變量之間的協(xié)方差短陣。在實(shí)踐應(yīng)用中,若總體協(xié)方差矩陣

未知,則可用樣本協(xié)方差矩陣作為估計(jì)代替計(jì)算。24馬氏距離又稱為廣義歐氏距離。顯然,馬氏距離與上述各種距離的主要不同就是馬氏距離考慮了觀測變量之間的相關(guān)性。如果假定各變量之間相互獨(dú)立,即觀測變量的協(xié)方差矩陣是對角矩陣,則馬氏距離就退化為用各個(gè)觀測指標(biāo)的標(biāo)準(zhǔn)差的倒數(shù)作為權(quán)數(shù)進(jìn)行加權(quán)的歐氏距離。因此,馬氏距離不僅考慮了觀測變量之間的相關(guān)性,而且也考慮到了各個(gè)觀測指標(biāo)取值的差異程度,為了對馬氏距離和歐氏距離進(jìn)行一下比較,以便更清楚地看清二者的區(qū)別和聯(lián)系.25

(5)斜交空間距離

由于各變量之間往往存在著不同的相關(guān)關(guān)系,用正交空間的距離來計(jì)算樣本間的距離易變形,所以可以采用斜交空間距離。

當(dāng)各變量之間不相關(guān)時(shí),斜交空間退化為歐氏距離。26

2、相似系數(shù)的算法(1)相似系數(shù)(相關(guān)系數(shù))27(2)夾角余弦夾角余弦是從向量集合的角度所定義的一種測度變量之間親疏程度的相似系數(shù)。設(shè)在n維空間的向量

28五、距離和相似系數(shù)選擇的原則一般說來,同一批數(shù)據(jù)采用不同的親疏測度指標(biāo),會得到不同的分類結(jié)果。產(chǎn)生不同結(jié)果的原因,主要是由于不同的親疏測度指標(biāo)所衡量的親疏程度的實(shí)際意義不同,也就是說,不同的親疏測度指標(biāo)代表了不同意義上的親疏程度。因此我們在進(jìn)行聚類分析時(shí),應(yīng)注意親疏測度指標(biāo)的選擇。通常,選擇親疏測度指標(biāo)時(shí),應(yīng)注意遵循的基本原則主要有:

29

(1)所選擇的親疏測度指標(biāo)在實(shí)際應(yīng)用中應(yīng)有明確的意義。如在經(jīng)濟(jì)變量分析中,常用相關(guān)系數(shù)表示經(jīng)濟(jì)變量之間的親疏程度。30

(2)親疏測度指標(biāo)的選擇要綜合考慮已對樣本觀測數(shù)據(jù)實(shí)施了的變換方法和將要采用的聚類分析方法。如在標(biāo)準(zhǔn)化變換之下,夾角余弦實(shí)際上就是相關(guān)系數(shù);又如若在進(jìn)行聚類分析之前已經(jīng)對變量的相關(guān)性作了處理,則通常就可采用歐氏距離,而不必選用斜交空間距離。此外,所選擇的親疏測度指標(biāo),還須和所選用的聚類分析方法一致。如聚類方法若選用離差平方和法,則距離只能選用歐氏距離。31

(3)適當(dāng)?shù)乜紤]計(jì)算工作量的大小。如對大樣本的聚類問題,不適宜選擇斜交空間距離,因采用該距離處理時(shí),計(jì)算工作量太大。樣品間或變量間親疏測度指標(biāo)的選擇是一個(gè)比較復(fù)雜且?guī)е饕?guī)性的問題,我們應(yīng)根據(jù)研究對象的特點(diǎn)作具體分折,以選擇出合適的親疏測度指標(biāo)。實(shí)踐中,在開始進(jìn)行聚類分析時(shí),不妨試探性地多選擇幾個(gè)親疏測度指標(biāo),分別進(jìn)行聚類,然后對聚類分析的結(jié)果進(jìn)行對比分析,以確定出合適的親疏測度指標(biāo)。

32…0…0┇┇┇┇…0

至此,我們已經(jīng)可以根據(jù)所選擇的距離構(gòu)成樣本點(diǎn)間的距離表,樣本點(diǎn)之間被連接起來。33四、樣本數(shù)據(jù)與小類、小類與小類之間的度量1、最短距離(NearestNeighbor)x21?x12?x22?x11?34??????2.組間平均連接(Between-groupLinkage)353.重心法(Centroidclustering):均值點(diǎn)的距離??36§3系統(tǒng)聚類方法

1、根據(jù)樣品的特征,規(guī)定樣品之間的距離,共有個(gè)。將所有列表,記為D(0)表,該表是一張對稱表。所有的樣本點(diǎn)各自為一類。

2、選擇D(0)表中最小的非零數(shù),不妨假設(shè),于是將和合并為一類,記為。(一)方法開始各樣本自成一類。37

3、利用遞推公式計(jì)算新類與其它類之間的距離。分別刪除D(0)表的第p,q行和第p,q列,并新增一行和一列添上的結(jié)果,產(chǎn)生D(1)表。38

4、在D(1)表再選擇最小的非零數(shù),其對應(yīng)的兩類有構(gòu)成新類,再利用遞推公式計(jì)算新類與其它類之間的距離。分別刪除D(1)表的相應(yīng)的行和列,并新增一行和一列添上的新類和舊類之間的距離。結(jié)果,產(chǎn)生D(2)表。類推直至所有的樣本點(diǎn)歸為一類為止。39(二)常用的種類

1、最短距離法設(shè)抽取五個(gè)樣品,每個(gè)樣品只有一個(gè)變量,它們是1,2,3.5,7,9。用最短距離法對5個(gè)樣品進(jìn)行分類。首先采用絕對距離計(jì)算距離矩陣:

0

10

2.51.50

653.50

875.52040然后和被聚為新類,得:

0

1.50

53.50

75.5204142

最短距離法的遞推公式

假設(shè)第p類和第q類合并成第r類,第r類與其它各舊類的距離按最短距離法為:4303.505.5204403.5045各步聚類的結(jié)果:(1,2)(3)(4)(5)(1,2,3)(4)(5)(1,2,3)(4,5)(1,2,3,4,5)46

2、最長距離法用最長距離法對5個(gè)樣品進(jìn)行分類。首先采用絕對距離計(jì)算距離矩陣:

0

10

2.51.50

653.50

875.52047然后和被聚為新類,得:

0

2.50

63.50

85.52048

最長距離法的遞推公式

假設(shè)第p類和第q類合并成第類,第r類與其它各舊類的距離按最長距離法為:493、中間距離法最長距離最短距離中間距離50

0

10

6.252.250

362512.250

644930.2540用中間距離法對5個(gè)樣品進(jìn)行分類。首先采用絕對距離計(jì)算距離平方矩陣:

51中間距離法的遞推公式52

0

40

30.2512.250

56.2530.254053類平均法定義類間的距離是兩類間樣品的距離的平均數(shù)。對應(yīng)我們前面討論的組間

0

10

6.252.250

362512.250

644930.2540

4、類平均法54然后和被聚為新類,得:

0

4.250

30.2512.250

56.2530.254055類平均法的遞推公式假設(shè)第p類和第q類合并成第r類,第r類與其它各舊類的距離按最短距離法為:56p類和q類與L類的距離的加權(quán)平均數(shù)575、重心法用重心法對5個(gè)樣品進(jìn)行分類。首先采用絕對距離計(jì)算距離平方矩陣:

0

10

6.252.250

362512.250

644930.254058分別為Gp和Gq的重心,類與類之間的距離定義為兩個(gè)類重心(類內(nèi)樣品平均值)間的平方距離。重心法,也稱為樣品的均值法。設(shè)Gp和Gq

為兩個(gè)類59設(shè)某一步Gp和Gq的重心分別為和,類內(nèi)的樣品數(shù)分別為np和nq,如果要把Gp和Gq合并為Gr類,則Gr類的樣品數(shù)nr=np+nq,Gr類的重心為和的加權(quán)算術(shù)平均數(shù):60重心法遞推公式假設(shè)第p類和第q類合并成第r類,第r類與其它各舊類的距離按重心法為:6162G4和G6的距離為63

六、主要的步驟1、選擇變量(1)和聚類分析的目的密切相關(guān)(2)反映要分類變量的特征(3)在不同研究對象上的值有明顯的差異(4)變量之間不能高度相關(guān)2、計(jì)算相似性相似性是聚類分析中的基本概念,他反映了研究對象之間的親疏程度,聚類分析就是根據(jù)對象之間的相似性來分類的。有很多刻畫相似性的測度64

3、聚類選定了聚類的變量,計(jì)算出樣品或指標(biāo)之間的相似程度后,構(gòu)成了一個(gè)相似程度的矩陣。這時(shí)主要涉及兩個(gè)問題:(1)選擇聚類的方法(2)確定形成的類數(shù)65例某公司下屬30個(gè)企業(yè),公司為了考核下屬企業(yè)的經(jīng)濟(jì)效益,設(shè)計(jì)了8個(gè)指標(biāo)。為了避免重復(fù),需要對這8個(gè)指標(biāo)進(jìn)行篩選,建立一個(gè)恰當(dāng)?shù)慕?jīng)濟(jì)效益指標(biāo)體系。通過計(jì)算30個(gè)企業(yè)8個(gè)指標(biāo)的相關(guān)系數(shù)距離,數(shù)據(jù)是1-r2。得如下表:

x1x2

x3

x4x5

x6

x7

x8

x10

0.600

0.430.460

0.470.450.120

0.570.450.230.220

0.380.400.210.290.220

0.310.790.650.700.800.660

0.450.450.270.230.140.190.770試用將它們聚類。x2

x3x4x5

x6

x7

x86667根據(jù)美國等20個(gè)國家和地區(qū)的信息基礎(chǔ)設(shè)施的發(fā)展?fàn)顩r進(jìn)行分類。Call—每千人擁有的電話線數(shù);movel—每千人戶居民擁有的蜂窩移動電話數(shù);fee—高峰時(shí)期每三分鐘國際電話的成本;comp—每千人擁有的計(jì)算機(jī)數(shù);mips—每千人計(jì)算機(jī)功率(每秒百萬指令);

net—每千人互聯(lián)網(wǎng)絡(luò)戶主數(shù)。

68

國家callmovel

fee

comp

mips

netmeiguo631.6161.90.364032607335.34riben498.4143.23.57176102236.26deguo557.670.60284ruidian684.1281.81.42461666029.39ruishi64493.51.982341362122.68xinjiapo498.4147.52.52841357813.49taiwan469.456.13.6811969111.72hanguo434.5733.369957951.66baxi81.916.33.02198760.52zhili138.68.201.43114111.28moxige92.29.82.613117510.35eluosi174.955.122411010.48bolan1696.53.684017961.45xiongyali262.249.42.666830673.09malaixiya195.588.44.195327341.25taiguo78.627.84.952216620.11yindu13.60.306.2821010.01faguo559.142.91.27201117024.76yingguo521.10122.50.982481446111.916970§2動態(tài)聚類一、思想 系統(tǒng)聚類法是一種比較成功的聚類方法。然而當(dāng)樣本點(diǎn)數(shù)量十分龐大時(shí),則是一件非常繁重的工作,且聚類的計(jì)算速度也比較慢。比如在市場抽樣調(diào)查中,有4萬人就其對衣著的偏好作了回答,希望能迅速將他們分為幾類。這時(shí),采用系統(tǒng)聚類法就很困難,而動態(tài)聚類法就會顯得方便,適用。動態(tài)聚類解決的問題是:假如有個(gè)樣本點(diǎn),要把它們分為類,使得每一類內(nèi)的元素都是聚合的,并且類與類之間還能很好地區(qū)別開。動態(tài)聚類使用于大型數(shù)據(jù)。71選擇凝聚點(diǎn)分類修改分類分類是否合理分類結(jié)束YesNo72用一個(gè)簡單的例子來說明動態(tài)聚類法的工作過程。例如我們要把圖中的點(diǎn)分成兩類??焖倬垲惖牟襟E:

1、隨機(jī)選取兩個(gè)點(diǎn)和作為聚核。

2、對于任何點(diǎn),分別計(jì)算

3、若,則將劃為第一類,否則劃給第二類。于是得圖(b)的兩個(gè)類。

4、分別計(jì)算兩個(gè)類的重心

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論