版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
經(jīng)濟(jì)管理類研究生專業(yè)學(xué)位課MultivariateStatisticsAnalysis
多元統(tǒng)計(jì)分析經(jīng)濟(jì)管理類研究生專業(yè)學(xué)位課MultivariateSta第2講聚類分析§2.1聚類分析的基本思想§2.2相似性的度量§2.3類和類的特征§2.4系統(tǒng)聚類法§2.5非系統(tǒng)聚類法簡(jiǎn)介第2講聚類分析§2.1聚類分析的基本思想§2.2相似性
§2.1聚類分析的基本思想
1.什么是聚類分析?所謂“類”就是相似元素的集合。聚類就是根據(jù)研究對(duì)象某一方面的相似性將其歸類,使得同一類中的對(duì)象之間的相似性比與其他類的對(duì)象的相似性更強(qiáng)。或者使類內(nèi)對(duì)象的同質(zhì)性最大化和類間對(duì)象的異質(zhì)性最大化。2.基本思想根據(jù)研究對(duì)象的多個(gè)觀測(cè)指標(biāo),具體地找出一些能夠度量各對(duì)象之間相似程度的統(tǒng)計(jì)量,然后利用統(tǒng)計(jì)量將樣品或指標(biāo)進(jìn)行歸類。把相似的樣品或指標(biāo)歸為一類,把不相似的歸為其他類。直到把所有的樣品(或指標(biāo))聚合完畢.
§2.1聚類分析的基本思想1.什么是聚類分析?§2.1聚類分析的基本思想3、聚類分析的類型:對(duì)樣品分類,稱為Q型聚類分析對(duì)變量分類,稱為R型聚類分析
Q型聚類是使具有相似性特征的樣品聚集在一起,使差異性大的樣品分離開來。
R型聚類是使具有相似性的變量聚集在一起,差異性大的變量分離開來。
R型聚類可在相似變量中選擇少數(shù)具有代表性的變量參與其他分析,實(shí)現(xiàn)減少變量個(gè)數(shù),達(dá)到變量降維的目的?!?.1聚類分析的基本思想3、聚類分析的類型:§2.2相似性的度量一、樣本或變量的相似性程度的數(shù)量指標(biāo):1、相似系數(shù)
性質(zhì)越接近的變量或樣品,它們的相似系數(shù)越接近于1或一l,而彼此無關(guān)的變量或樣品,它們的相似系數(shù)則越接近于0,相似的為一類,不相似的為不同類;2、距離
它是將每一個(gè)樣品看作p維空間的一個(gè)點(diǎn),并用某種度量方法測(cè)量點(diǎn)與點(diǎn)之間的距離,距離較近的歸為一類,距離較遠(yuǎn)的點(diǎn)應(yīng)屬于不同的類。樣品分類(Q型聚類)常以距離刻畫相似性變量分類(R型聚類)常以相似系數(shù)刻畫相似性§2.2相似性的度量一、樣本或變量的相似性程度的數(shù)量指標(biāo):距離和相似系數(shù)有著各種不同的定義,而這些定義與變量類型有著非常密切的關(guān)系。變量可分為定性變量和定量變量。若按測(cè)量尺度的不同可以分為:
(1)間隔尺度變量:變量用連續(xù)的量來表示,包括定距和定比尺度,如長(zhǎng)度、重量、速度、溫度等。(2)有序尺度變量:變量度量時(shí)不用明確的數(shù)量表示,而是用等級(jí)來表示,如產(chǎn)品分為一等品、二等品、三等品等有次序關(guān)系。(3)名義尺度變量:變量用既沒有數(shù)量關(guān)系也沒有次序關(guān)系,只有一些特性狀態(tài),如性別、職業(yè)、產(chǎn)品的型號(hào)等。對(duì)于間隔尺度變量,聚類時(shí)數(shù)據(jù)單位往往不同,為為使不同量綱、不同數(shù)量級(jí)的數(shù)據(jù)能在一起比較,通常需要先進(jìn)數(shù)據(jù)變換處理距離和相似系數(shù)有著各種不同的定義,而這些定義與變量類型有著非3.常用的數(shù)據(jù)變換方法
(1)中心化變換
變換后數(shù)據(jù)的均值為0,而協(xié)差陣不變.(2)標(biāo)準(zhǔn)化變換變換后的數(shù)據(jù),每個(gè)變量的樣本均值為0,標(biāo)準(zhǔn)差為1,且標(biāo)準(zhǔn)化變換后的數(shù)據(jù){x*ij}與變量的量綱無關(guān).(3)極差標(biāo)準(zhǔn)化變換變換后的數(shù)據(jù),每個(gè)變量的樣本均值為0,極差為1,變換后的數(shù)據(jù)也是無量綱的量.3.常用的數(shù)據(jù)變換方法(1)中心化變換
(4)極差正規(guī)化變換(規(guī)格化變換)變換后的數(shù)據(jù)0≤x*ij≤1;極差為1,也是無量綱的量.(5)對(duì)數(shù)變換可將具有指數(shù)特征的數(shù)據(jù)結(jié)構(gòu)化為線性數(shù)據(jù)結(jié)構(gòu).(4)極差正規(guī)化變換(規(guī)格化變換)二、樣品間相似性的度量:距離設(shè)有n個(gè)樣品,每個(gè)樣品測(cè)有p個(gè)指標(biāo)(變量),原始資料陣為:每個(gè)樣品都可以看成p維空間中的一點(diǎn),n個(gè)樣品就是p維空間中的n個(gè)點(diǎn)第i個(gè)樣品與第j個(gè)樣品之間的距離記為二、樣品間相似性的度量:距離設(shè)有n個(gè)樣品,每個(gè)樣品測(cè)有1、距離公理:第i個(gè)和第j個(gè)樣品之間的距離滿足如下四個(gè)性質(zhì):1、距離公理:第i個(gè)和第j個(gè)樣品之間的距離滿足如下四個(gè)性2、常用距離:(1)明考夫斯基距離(Minkowskidistance)明氏距離有三種特殊形式:(1a)絕對(duì)距離(Block距離):當(dāng)q=1時(shí)
(1b)歐氏距離(Euclideandistance):當(dāng)q=2時(shí)(1c)切比雪夫距離:當(dāng)時(shí)2、常用距離:(1)明考夫斯基距離(Minkowskidi
缺點(diǎn):(1)與各變量的量綱有關(guān);(2)沒有考慮指標(biāo)間的相關(guān)性;(3)沒有考慮各變量方差的不同.如歐氏距離,變差大的變量在距離中的作用(貢獻(xiàn))就會(huì)大,這是不合適的.
合理的方法就是對(duì)各變量加權(quán),如用1/s2
作為權(quán)數(shù)可得出“統(tǒng)計(jì)距離”:缺點(diǎn):(1)與各變量的量綱有關(guān);當(dāng)各變量的單位不同或測(cè)量值范圍相差很大時(shí),不應(yīng)直接采用明氏距離,而應(yīng)先對(duì)各變量的數(shù)據(jù)作標(biāo)準(zhǔn)化處理,然后用標(biāo)準(zhǔn)化后的數(shù)據(jù)計(jì)算距離。常用的標(biāo)準(zhǔn)化處理:其中為第j個(gè)變量的樣本均值;
為第j個(gè)變量的樣本方差。當(dāng)各變量的單位不同或測(cè)量值范圍相差很大時(shí),不應(yīng)直接采用明氏距(2)蘭氏距離當(dāng)時(shí):克服量綱的影響未考慮指標(biāo)間相關(guān)性的影響適用于變量之間互不相關(guān)的情形(2)蘭氏距離克服量綱的影響未考慮指標(biāo)間相關(guān)性的影響適用于(3)斜交空間距離
在m維空間中,為使具有相關(guān)性變量的譜系結(jié)構(gòu)不發(fā)生變形,采用斜交空間距離,即在數(shù)據(jù)標(biāo)準(zhǔn)化處理下,rkl為變量Xk和Xl之間的相關(guān)系數(shù)
(3)斜交空間距離在數(shù)據(jù)標(biāo)準(zhǔn)化處理下,rkl(4)馬氏距離克服量綱的影響克服指標(biāo)間相關(guān)性的影響缺點(diǎn):協(xié)方差矩陣難以確定(4)馬氏距離克服量綱的影響克服指標(biāo)間相關(guān)性的影響缺點(diǎn):協(xié)三、變量間相似性的度量:相似系數(shù)
相似系數(shù)(或其絕對(duì)值)越大,變量之間的相似性程度越高;反之,越低。聚類時(shí),相似的變量歸為一類,不太相似的變量歸為不同的類。變量與的相似系數(shù)用表示,滿足以下三個(gè)條件:
三、變量間相似性的度量:相似系數(shù)相似系數(shù)(或其絕對(duì)值)1、夾角余弦
從向量集合的角度所定義的一種測(cè)度變量之間親疏程度的相似系數(shù)。設(shè)在n維空間的向量1、夾角余弦2、相關(guān)系數(shù)設(shè)和是第和個(gè)變量的觀測(cè)值,則二者之間的相似測(cè)度為:相關(guān)系數(shù)就是對(duì)數(shù)據(jù)作中心化或標(biāo)準(zhǔn)化處理后的夾角余弦.2、相關(guān)系數(shù)設(shè)和相至此,我們可以根據(jù)所選擇的距離構(gòu)成樣本點(diǎn)間的距離表:…0…0┇┇┇┇…0至此,我們可以根據(jù)所選擇的距離構(gòu)成樣本點(diǎn)間的距離表:…
§2.3類和類的特征一、類的定義:
用G表示類,設(shè)G中有n個(gè)元素,dij表示元素i與j之間的距離類的定義:
T為一個(gè)給定的閾值,若對(duì)于任意的i,j∈G,有dij≤T,則稱G為一個(gè)類。
§2.3類和類的特征一、類的定義:二、類的特征:
設(shè)類G中有樣品。n為G內(nèi)的樣品數(shù)。
(1)類均值(或稱為重心)
(2)離差、協(xié)方差矩陣
(3)類G的直徑
二、類的特征:(3)類G的直徑
(4)類的離差平方和
對(duì)于聚類前的n個(gè)樣品,可以證明:n個(gè)樣品總離差平方和=聚成k類后各類內(nèi)離差平方之和+類間離差平方和令T為總離差平方和,Pk為分為K類的類內(nèi)離差平方之和。其中(4)類的離差平方和其中§2.4系統(tǒng)聚類法一、系統(tǒng)聚類法的基本思想和步驟1.是一種其聚類過程可以用所謂的譜系結(jié)構(gòu)或樹形結(jié)構(gòu)來描繪的方法?!孪炔挥么_定分多少類2.基本思想:
先所有的研究對(duì)象各自算作一類,將最“靠近”的兩個(gè)類首先聚類,再將這個(gè)新類和其余類中最“靠近”的類合并,每次縮小一類,直至所有的對(duì)象都合并為一類為止。
§2.4系統(tǒng)聚類法一、系統(tǒng)聚類法的基本思想和步驟
系統(tǒng)聚類法的聚類原則決定于樣品間的距離(或相似系數(shù))及類間距離的定義,類間距離的不同定義就產(chǎn)生了不同的系統(tǒng)聚類分析方法.幾個(gè)記號(hào):
用dij表示樣品X(i)和X(j)之間的距離,
當(dāng)樣品間的親疏關(guān)系采用相似系數(shù)Cij時(shí),
令dij=1-|Cij|(或d2ij=1-C2ij);
用Dij表示類Gi和Gj間的距離.系統(tǒng)聚類法的聚類原則決定于樣品間的距離(或相似系數(shù))及類3.系統(tǒng)聚類法的基本步驟(以Q型聚類為例)3.系統(tǒng)聚類法的基本步驟(以Q型聚類為例)二、最短距離(NearestNeighbor)
1.含義:類間距離定義為兩類中距離最近樣品之間的距離。x21?x12?x22?x11?類Gp與類Gq之間的距離Dpq(d(xi,xj)表示點(diǎn)xi∈Gp和xj∈Gq之間的距離)二、最短距離(NearestNeighbor)1.含義2.應(yīng)用對(duì)5個(gè)樣品測(cè)量了兩個(gè)指標(biāo),數(shù)據(jù)如下表:定義樣品間距離為絕對(duì)距離,用最短距離法聚類樣品1148樣品2159樣品3104樣品481樣品5622.應(yīng)用對(duì)5個(gè)樣品測(cè)量了兩個(gè)指標(biāo),數(shù)據(jù)如下表:樣品1148樣根據(jù)并類過程繪制的譜系聚類圖
根據(jù)并類過程繪制的譜系聚類圖三、最長(zhǎng)距離(FurthestNeighbor)1.含義:
定義類間距離為兩類中距離最遠(yuǎn)的樣品的距離???x11?x21????例題:數(shù)據(jù)如前三、最長(zhǎng)距離(FurthestNeighbor)1.含義:四、中間距離法最長(zhǎng)距離最短距離中間距離四、中間距離法最長(zhǎng)距離最短距離中間距離中間距離法的遞推公式若在某步聚類中將類p與q合并為類r,則任一類k與新類r的距離:當(dāng)β=-0.25時(shí),為三角形中線:中間距離法的遞推公式若在某步聚類中將類p與q合并為類r,則任五、重心法(Centroidclustering):含義:兩類間的距離定義為兩類重心(均值點(diǎn))之間的的距離??例題:數(shù)據(jù)如前五、重心法(Centroidclustering):含義:樣品間距離為歐氏距離時(shí)的遞推公式GrGt樣品間距離為歐氏距離時(shí)的遞推公式GrGt重心法雖有較好的代表性,但并未充分利用各個(gè)樣品的信息.比如下面兩組類按重心法類間距離相等,這是不合理的.重心法雖有較好的代表性,但并未充分利用各個(gè)樣品的信息.比如下六、類平均法(Between-groupLinkage)含義:類間距離為所有樣品對(duì)間的平均距離。??????利用了所有樣品對(duì)距離的信息六、類平均法(Between-groupLinkage)含類與類之間的距離平方為兩類樣品兩兩之間的距離平方的平均,即類平均法的類間距離:合并新類的距離遞推公式:設(shè)某一步將Gp和Gq合并成Gr,它們所包含的樣品個(gè)數(shù)分別為np,nq和nr(nr=np+nq).Gr與其他類Gk的類間距離的遞推公式為類與類之間的距離平方為兩類樣品兩兩之間的距離平方的平均七.離差平方和法(Ward’smethod
)類似于方差分析的想法,如果類分得恰當(dāng),同類內(nèi)的樣品之間的離差平方和應(yīng)較小,而類間的離差平方和應(yīng)當(dāng)較大。
其中是由Gp和Gq合并成的Gr類的類內(nèi)離差平方和??梢宰C明離差平方和法的類間遞推公式為例題:數(shù)據(jù)如前七.離差平方和法(Ward’smethod)類似于方差八、系統(tǒng)聚類法的軟件實(shí)現(xiàn)——SPSS以教材88頁例題1為例,SPSS處理:1、Analyze-Classify-HierarchicalCluster2、把dxbz、czbz、wmbz選入Variables
3、若對(duì)樣品聚類(Q型聚類):在Cluster選Cases;若對(duì)變量聚類(R型聚類)則在Cluster選Variables4、選Plots,再點(diǎn)Dendrogram,則畫出樹狀圖;若點(diǎn)Icicle,則畫出冰掛圖,其中Orientation中(Vertical為縱向冰掛圖;Horizontal為橫向冰掛圖)。
……..八、系統(tǒng)聚類法的軟件實(shí)現(xiàn)——SPSS以教材88頁例題1為例,九、系統(tǒng)聚類法的基本性質(zhì)
(一)單調(diào)性在聚類分析過程中,并類距離分別為lk(k=1,2,3,…)若滿足,則稱該聚類方法具有單調(diào)性??梢宰C明除了重心法和中間距離法之外,其他的系統(tǒng)聚類法均滿足單調(diào)性的條件。(二)空間的濃縮和擴(kuò)張
1、定義矩陣的大小設(shè)同階矩陣D(A)和D(B),如果D(A)的每一個(gè)元素小于D(B)的每一個(gè)元素,則記為。九、系統(tǒng)聚類法的基本性質(zhì)(一)單調(diào)性(二)空間的濃縮
2、空間的濃縮和擴(kuò)張?jiān)O(shè)有兩種系統(tǒng)聚類法A和B,他們?cè)诘趇步的距離矩陣分別為Ai和Bi(I=1,2,3…),若Ai>Bi
,則稱第一種方法A比第二種方法B使空間擴(kuò)張,或第二種方法比第一種方法濃縮。
3、方法的比較
D(短)D(平),D(重)D(平);
D(長(zhǎng))D(平);當(dāng),D(變平)D(平);當(dāng),D(變平)D(平)。2、空間的濃縮和擴(kuò)張3、方法的比較D(
1.由適當(dāng)?shù)拈撝荡_定介紹系統(tǒng)聚類法的基本步驟時(shí),由譜系聚類圖及臨界值,即可給出分類結(jié)果.
2.根據(jù)數(shù)據(jù)點(diǎn)的散布圖直觀地確定類的個(gè)數(shù)
3.根據(jù)譜系圖確定分類個(gè)數(shù)的準(zhǔn)則
4.根據(jù)統(tǒng)計(jì)量確定分類個(gè)數(shù)十、確定類個(gè)數(shù)的幾種常見方法:1.由適當(dāng)?shù)拈撝荡_定十、確定類個(gè)數(shù)的幾種常見方法:黛米爾曼(Demirmen,1972)提出依據(jù)樹狀結(jié)構(gòu)圖分類的準(zhǔn)則:黛米爾曼(Demirmen,1972)提出依據(jù)樹狀結(jié)構(gòu)圖分類
由Rk2的定義可知,Rk2值越大,也就是Pk/T越小,表示k個(gè)類內(nèi)離差平方和之和Pk在總離差平方和T中占的比例越小,這說明k個(gè)類區(qū)分得越開.Rk2的值總是在0和1之間,而且Rk2的值總是隨著分類個(gè)數(shù)k的減少而變小十一、聚類效果評(píng)價(jià)統(tǒng)計(jì)量所以我們只能取合適的K,使得R2足夠大,而K本身較小,且隨著K的增加,R2的增幅不大。1、Rk2統(tǒng)計(jì)量由Rk2的定義可知,Rk2值越大,也就是Pk用于評(píng)價(jià)聚為K個(gè)類的效果。如果聚類的效果好,類間的離差平方和相對(duì)于類內(nèi)的離差平方和應(yīng)比較大,所以應(yīng)該取偽F統(tǒng)計(jì)量較大而類數(shù)較小的聚類水平。2.偽F統(tǒng)計(jì)量用于評(píng)價(jià)聚為K個(gè)類的效果。如果聚類的效果好,類間的
其中WK和WL分別是類K、L的類內(nèi)離差平方和,BKL是將K和L合并為第M類所增加離差平方和
BKL
=WM-WK-WL為合并導(dǎo)致的類內(nèi)離差平方和的增量。用它評(píng)價(jià)合并第K和L類的效果,偽統(tǒng)計(jì)量大說明不應(yīng)該合并這兩類,應(yīng)該取合并前的水平。3.偽統(tǒng)計(jì)量3.偽統(tǒng)計(jì)量§2.5非系統(tǒng)聚類法簡(jiǎn)介動(dòng)態(tài)聚類法:也叫做逐步聚類法、k-均值聚類法、或快速聚類法?!孪纫_定分多少類§2.5非系統(tǒng)聚類法簡(jiǎn)介動(dòng)態(tài)聚類法:也叫做逐步聚類法、k-選擇凝聚點(diǎn)分類修改分類分類是否合理分類結(jié)束YesNo選擇凝聚點(diǎn)分類修改分類分類是否合理分類結(jié)束用一個(gè)簡(jiǎn)單的例子來說明動(dòng)態(tài)聚類法的工作過程。例如我們要把圖中的點(diǎn)分成兩類??焖倬垲惖牟襟E:
1、隨機(jī)選取兩個(gè)點(diǎn)和作為聚核。
2、對(duì)于任何點(diǎn),分別計(jì)算
3、若,則將劃為第一類,否則劃給第二類。于是得圖(c)的兩個(gè)類。
4、分別計(jì)算兩個(gè)類的重心,則得和,以其為新的聚核,對(duì)空間中的點(diǎn)進(jìn)行重新分類,得到新分類。用一個(gè)簡(jiǎn)單的例子來說明動(dòng)態(tài)聚類法的工作過程。例如我(a)空間的群點(diǎn)(b)任取兩個(gè)聚核
(c)第一次分類(d)求各類中心(a)空間的群點(diǎn)
(e)第二次分類(e)第二次分類如此疊代下去,直到達(dá)到停止疊代的要求(比如,各類最后變化不大了,或者疊代次數(shù)太多了)。下面用一個(gè)例子來做k-均值聚類。Cluster-Analysis(聚類分析)解讀課件【例】假定我們對(duì)A、B、C、D四個(gè)樣品分別測(cè)量?jī)蓚€(gè)變量和得到結(jié)果見下表 試將以上的樣品聚成兩類?!纠考俣ㄎ覀儗?duì)A、B、C、D四個(gè)樣品分別測(cè)量?jī)蓚€(gè)變量和得到
第一步:按要求取K=2,為了實(shí)施K均值法聚類,我們將這些樣品隨意分成兩類,比如(A、B)和(C、D),然后計(jì)算這兩個(gè)聚類的中心坐標(biāo),見下表所示。表中的中心坐標(biāo)是通過原始數(shù)據(jù)計(jì)算得來的,比如(A、B)類的,等等。 第一步:按要求取K=2,為了實(shí)施K均值法聚類,我們將這些樣
第二步:計(jì)算某個(gè)樣品到各類中心的歐氏平方距離,然后將該樣品分配給最近的一類。對(duì)于樣品有變動(dòng)的類,重新計(jì)算它們的中心坐標(biāo),為下一步聚類做準(zhǔn)備。先計(jì)算A到兩個(gè)類的平方距離: 由于A到(A、B)的距離小于到(C、D)的距離,因此A不用重新分配。計(jì)算B到兩類的平方距離: 第二步:計(jì)算某個(gè)樣品到各類中心的歐氏平方距離,然后將該樣品由于B到(A、B)的距離大于到(C、D)的距離,因此B要分配給(C、D)類,得到新的聚類是(A)和(B、C、D)。更新中心坐標(biāo)如下表所示。由于B到(A、B)的距離大于到(C、D)的距離,因此B要分配
第三步:再次檢查每個(gè)樣品,以決定是否需要重新分類。計(jì)算各樣品到各中心的距離平方,得結(jié)果見下表。到現(xiàn)在為止,每個(gè)樣品都已經(jīng)分配給距離中心最近的類,因此聚類過程到此結(jié)束。最終得到K=2的聚類結(jié)果是A獨(dú)自成一類,B、C、D聚成一類。表
樣品聚類結(jié)果第三步:再次檢查每個(gè)樣品,以決定是否需要重新分類。K-均值聚類SPSS處理:
1、Analyze-Classify-K-MenasCluster
2、Variables:
3、NumberofClusters處選擇3(想要分的類數(shù))
4、如果想要知道每個(gè)樣品分到哪類,則選Save,再選ClusterMembership等注意:k-均值聚類只能做Q型聚類,如要做R型聚類,需要把數(shù)據(jù)陣進(jìn)行轉(zhuǎn)置。K-均值聚類SPSS處理:聚類分析步驟:確定待研究的問題
選擇聚類用的距離或相似系數(shù)
選擇聚類方法
確定類別的個(gè)數(shù)
評(píng)估聚類分析的效果
解釋聚類分析的結(jié)果1.先確定待研究的問題和待分類的對(duì)象
1.所選的方法與所選的距離是有關(guān)的
2.小樣本與大樣本3.兩者的串聯(lián)使用1.樣品聚類時(shí)多采用距離統(tǒng)計(jì)量
2.變量聚類時(shí)多采用相似系數(shù)統(tǒng)計(jì)量
3.不同度量單位的影響
透過比較各類別的中心,來識(shí)別各個(gè)類別的意義,從而給各個(gè)類別命名
1.相關(guān)的理論或?qū)嵺`上的需要
2.系統(tǒng)聚類法
3.非系統(tǒng)聚類法
聚類分析步驟:確定待研究的問題選擇聚類用的距離或相似系數(shù)經(jīng)濟(jì)管理類研究生專業(yè)學(xué)位課MultivariateStatisticsAnalysis
多元統(tǒng)計(jì)分析經(jīng)濟(jì)管理類研究生專業(yè)學(xué)位課MultivariateSta第2講聚類分析§2.1聚類分析的基本思想§2.2相似性的度量§2.3類和類的特征§2.4系統(tǒng)聚類法§2.5非系統(tǒng)聚類法簡(jiǎn)介第2講聚類分析§2.1聚類分析的基本思想§2.2相似性
§2.1聚類分析的基本思想
1.什么是聚類分析?所謂“類”就是相似元素的集合。聚類就是根據(jù)研究對(duì)象某一方面的相似性將其歸類,使得同一類中的對(duì)象之間的相似性比與其他類的對(duì)象的相似性更強(qiáng)。或者使類內(nèi)對(duì)象的同質(zhì)性最大化和類間對(duì)象的異質(zhì)性最大化。2.基本思想根據(jù)研究對(duì)象的多個(gè)觀測(cè)指標(biāo),具體地找出一些能夠度量各對(duì)象之間相似程度的統(tǒng)計(jì)量,然后利用統(tǒng)計(jì)量將樣品或指標(biāo)進(jìn)行歸類。把相似的樣品或指標(biāo)歸為一類,把不相似的歸為其他類。直到把所有的樣品(或指標(biāo))聚合完畢.
§2.1聚類分析的基本思想1.什么是聚類分析?§2.1聚類分析的基本思想3、聚類分析的類型:對(duì)樣品分類,稱為Q型聚類分析對(duì)變量分類,稱為R型聚類分析
Q型聚類是使具有相似性特征的樣品聚集在一起,使差異性大的樣品分離開來。
R型聚類是使具有相似性的變量聚集在一起,差異性大的變量分離開來。
R型聚類可在相似變量中選擇少數(shù)具有代表性的變量參與其他分析,實(shí)現(xiàn)減少變量個(gè)數(shù),達(dá)到變量降維的目的?!?.1聚類分析的基本思想3、聚類分析的類型:§2.2相似性的度量一、樣本或變量的相似性程度的數(shù)量指標(biāo):1、相似系數(shù)
性質(zhì)越接近的變量或樣品,它們的相似系數(shù)越接近于1或一l,而彼此無關(guān)的變量或樣品,它們的相似系數(shù)則越接近于0,相似的為一類,不相似的為不同類;2、距離
它是將每一個(gè)樣品看作p維空間的一個(gè)點(diǎn),并用某種度量方法測(cè)量點(diǎn)與點(diǎn)之間的距離,距離較近的歸為一類,距離較遠(yuǎn)的點(diǎn)應(yīng)屬于不同的類。樣品分類(Q型聚類)常以距離刻畫相似性變量分類(R型聚類)常以相似系數(shù)刻畫相似性§2.2相似性的度量一、樣本或變量的相似性程度的數(shù)量指標(biāo):距離和相似系數(shù)有著各種不同的定義,而這些定義與變量類型有著非常密切的關(guān)系。變量可分為定性變量和定量變量。若按測(cè)量尺度的不同可以分為:
(1)間隔尺度變量:變量用連續(xù)的量來表示,包括定距和定比尺度,如長(zhǎng)度、重量、速度、溫度等。(2)有序尺度變量:變量度量時(shí)不用明確的數(shù)量表示,而是用等級(jí)來表示,如產(chǎn)品分為一等品、二等品、三等品等有次序關(guān)系。(3)名義尺度變量:變量用既沒有數(shù)量關(guān)系也沒有次序關(guān)系,只有一些特性狀態(tài),如性別、職業(yè)、產(chǎn)品的型號(hào)等。對(duì)于間隔尺度變量,聚類時(shí)數(shù)據(jù)單位往往不同,為為使不同量綱、不同數(shù)量級(jí)的數(shù)據(jù)能在一起比較,通常需要先進(jìn)數(shù)據(jù)變換處理距離和相似系數(shù)有著各種不同的定義,而這些定義與變量類型有著非3.常用的數(shù)據(jù)變換方法
(1)中心化變換
變換后數(shù)據(jù)的均值為0,而協(xié)差陣不變.(2)標(biāo)準(zhǔn)化變換變換后的數(shù)據(jù),每個(gè)變量的樣本均值為0,標(biāo)準(zhǔn)差為1,且標(biāo)準(zhǔn)化變換后的數(shù)據(jù){x*ij}與變量的量綱無關(guān).(3)極差標(biāo)準(zhǔn)化變換變換后的數(shù)據(jù),每個(gè)變量的樣本均值為0,極差為1,變換后的數(shù)據(jù)也是無量綱的量.3.常用的數(shù)據(jù)變換方法(1)中心化變換
(4)極差正規(guī)化變換(規(guī)格化變換)變換后的數(shù)據(jù)0≤x*ij≤1;極差為1,也是無量綱的量.(5)對(duì)數(shù)變換可將具有指數(shù)特征的數(shù)據(jù)結(jié)構(gòu)化為線性數(shù)據(jù)結(jié)構(gòu).(4)極差正規(guī)化變換(規(guī)格化變換)二、樣品間相似性的度量:距離設(shè)有n個(gè)樣品,每個(gè)樣品測(cè)有p個(gè)指標(biāo)(變量),原始資料陣為:每個(gè)樣品都可以看成p維空間中的一點(diǎn),n個(gè)樣品就是p維空間中的n個(gè)點(diǎn)第i個(gè)樣品與第j個(gè)樣品之間的距離記為二、樣品間相似性的度量:距離設(shè)有n個(gè)樣品,每個(gè)樣品測(cè)有1、距離公理:第i個(gè)和第j個(gè)樣品之間的距離滿足如下四個(gè)性質(zhì):1、距離公理:第i個(gè)和第j個(gè)樣品之間的距離滿足如下四個(gè)性2、常用距離:(1)明考夫斯基距離(Minkowskidistance)明氏距離有三種特殊形式:(1a)絕對(duì)距離(Block距離):當(dāng)q=1時(shí)
(1b)歐氏距離(Euclideandistance):當(dāng)q=2時(shí)(1c)切比雪夫距離:當(dāng)時(shí)2、常用距離:(1)明考夫斯基距離(Minkowskidi
缺點(diǎn):(1)與各變量的量綱有關(guān);(2)沒有考慮指標(biāo)間的相關(guān)性;(3)沒有考慮各變量方差的不同.如歐氏距離,變差大的變量在距離中的作用(貢獻(xiàn))就會(huì)大,這是不合適的.
合理的方法就是對(duì)各變量加權(quán),如用1/s2
作為權(quán)數(shù)可得出“統(tǒng)計(jì)距離”:缺點(diǎn):(1)與各變量的量綱有關(guān);當(dāng)各變量的單位不同或測(cè)量值范圍相差很大時(shí),不應(yīng)直接采用明氏距離,而應(yīng)先對(duì)各變量的數(shù)據(jù)作標(biāo)準(zhǔn)化處理,然后用標(biāo)準(zhǔn)化后的數(shù)據(jù)計(jì)算距離。常用的標(biāo)準(zhǔn)化處理:其中為第j個(gè)變量的樣本均值;
為第j個(gè)變量的樣本方差。當(dāng)各變量的單位不同或測(cè)量值范圍相差很大時(shí),不應(yīng)直接采用明氏距(2)蘭氏距離當(dāng)時(shí):克服量綱的影響未考慮指標(biāo)間相關(guān)性的影響適用于變量之間互不相關(guān)的情形(2)蘭氏距離克服量綱的影響未考慮指標(biāo)間相關(guān)性的影響適用于(3)斜交空間距離
在m維空間中,為使具有相關(guān)性變量的譜系結(jié)構(gòu)不發(fā)生變形,采用斜交空間距離,即在數(shù)據(jù)標(biāo)準(zhǔn)化處理下,rkl為變量Xk和Xl之間的相關(guān)系數(shù)
(3)斜交空間距離在數(shù)據(jù)標(biāo)準(zhǔn)化處理下,rkl(4)馬氏距離克服量綱的影響克服指標(biāo)間相關(guān)性的影響缺點(diǎn):協(xié)方差矩陣難以確定(4)馬氏距離克服量綱的影響克服指標(biāo)間相關(guān)性的影響缺點(diǎn):協(xié)三、變量間相似性的度量:相似系數(shù)
相似系數(shù)(或其絕對(duì)值)越大,變量之間的相似性程度越高;反之,越低。聚類時(shí),相似的變量歸為一類,不太相似的變量歸為不同的類。變量與的相似系數(shù)用表示,滿足以下三個(gè)條件:
三、變量間相似性的度量:相似系數(shù)相似系數(shù)(或其絕對(duì)值)1、夾角余弦
從向量集合的角度所定義的一種測(cè)度變量之間親疏程度的相似系數(shù)。設(shè)在n維空間的向量1、夾角余弦2、相關(guān)系數(shù)設(shè)和是第和個(gè)變量的觀測(cè)值,則二者之間的相似測(cè)度為:相關(guān)系數(shù)就是對(duì)數(shù)據(jù)作中心化或標(biāo)準(zhǔn)化處理后的夾角余弦.2、相關(guān)系數(shù)設(shè)和相至此,我們可以根據(jù)所選擇的距離構(gòu)成樣本點(diǎn)間的距離表:…0…0┇┇┇┇…0至此,我們可以根據(jù)所選擇的距離構(gòu)成樣本點(diǎn)間的距離表:…
§2.3類和類的特征一、類的定義:
用G表示類,設(shè)G中有n個(gè)元素,dij表示元素i與j之間的距離類的定義:
T為一個(gè)給定的閾值,若對(duì)于任意的i,j∈G,有dij≤T,則稱G為一個(gè)類。
§2.3類和類的特征一、類的定義:二、類的特征:
設(shè)類G中有樣品。n為G內(nèi)的樣品數(shù)。
(1)類均值(或稱為重心)
(2)離差、協(xié)方差矩陣
(3)類G的直徑
二、類的特征:(3)類G的直徑
(4)類的離差平方和
對(duì)于聚類前的n個(gè)樣品,可以證明:n個(gè)樣品總離差平方和=聚成k類后各類內(nèi)離差平方之和+類間離差平方和令T為總離差平方和,Pk為分為K類的類內(nèi)離差平方之和。其中(4)類的離差平方和其中§2.4系統(tǒng)聚類法一、系統(tǒng)聚類法的基本思想和步驟1.是一種其聚類過程可以用所謂的譜系結(jié)構(gòu)或樹形結(jié)構(gòu)來描繪的方法?!孪炔挥么_定分多少類2.基本思想:
先所有的研究對(duì)象各自算作一類,將最“靠近”的兩個(gè)類首先聚類,再將這個(gè)新類和其余類中最“靠近”的類合并,每次縮小一類,直至所有的對(duì)象都合并為一類為止。
§2.4系統(tǒng)聚類法一、系統(tǒng)聚類法的基本思想和步驟
系統(tǒng)聚類法的聚類原則決定于樣品間的距離(或相似系數(shù))及類間距離的定義,類間距離的不同定義就產(chǎn)生了不同的系統(tǒng)聚類分析方法.幾個(gè)記號(hào):
用dij表示樣品X(i)和X(j)之間的距離,
當(dāng)樣品間的親疏關(guān)系采用相似系數(shù)Cij時(shí),
令dij=1-|Cij|(或d2ij=1-C2ij);
用Dij表示類Gi和Gj間的距離.系統(tǒng)聚類法的聚類原則決定于樣品間的距離(或相似系數(shù))及類3.系統(tǒng)聚類法的基本步驟(以Q型聚類為例)3.系統(tǒng)聚類法的基本步驟(以Q型聚類為例)二、最短距離(NearestNeighbor)
1.含義:類間距離定義為兩類中距離最近樣品之間的距離。x21?x12?x22?x11?類Gp與類Gq之間的距離Dpq(d(xi,xj)表示點(diǎn)xi∈Gp和xj∈Gq之間的距離)二、最短距離(NearestNeighbor)1.含義2.應(yīng)用對(duì)5個(gè)樣品測(cè)量了兩個(gè)指標(biāo),數(shù)據(jù)如下表:定義樣品間距離為絕對(duì)距離,用最短距離法聚類樣品1148樣品2159樣品3104樣品481樣品5622.應(yīng)用對(duì)5個(gè)樣品測(cè)量了兩個(gè)指標(biāo),數(shù)據(jù)如下表:樣品1148樣根據(jù)并類過程繪制的譜系聚類圖
根據(jù)并類過程繪制的譜系聚類圖三、最長(zhǎng)距離(FurthestNeighbor)1.含義:
定義類間距離為兩類中距離最遠(yuǎn)的樣品的距離???x11?x21????例題:數(shù)據(jù)如前三、最長(zhǎng)距離(FurthestNeighbor)1.含義:四、中間距離法最長(zhǎng)距離最短距離中間距離四、中間距離法最長(zhǎng)距離最短距離中間距離中間距離法的遞推公式若在某步聚類中將類p與q合并為類r,則任一類k與新類r的距離:當(dāng)β=-0.25時(shí),為三角形中線:中間距離法的遞推公式若在某步聚類中將類p與q合并為類r,則任五、重心法(Centroidclustering):含義:兩類間的距離定義為兩類重心(均值點(diǎn))之間的的距離??例題:數(shù)據(jù)如前五、重心法(Centroidclustering):含義:樣品間距離為歐氏距離時(shí)的遞推公式GrGt樣品間距離為歐氏距離時(shí)的遞推公式GrGt重心法雖有較好的代表性,但并未充分利用各個(gè)樣品的信息.比如下面兩組類按重心法類間距離相等,這是不合理的.重心法雖有較好的代表性,但并未充分利用各個(gè)樣品的信息.比如下六、類平均法(Between-groupLinkage)含義:類間距離為所有樣品對(duì)間的平均距離。??????利用了所有樣品對(duì)距離的信息六、類平均法(Between-groupLinkage)含類與類之間的距離平方為兩類樣品兩兩之間的距離平方的平均,即類平均法的類間距離:合并新類的距離遞推公式:設(shè)某一步將Gp和Gq合并成Gr,它們所包含的樣品個(gè)數(shù)分別為np,nq和nr(nr=np+nq).Gr與其他類Gk的類間距離的遞推公式為類與類之間的距離平方為兩類樣品兩兩之間的距離平方的平均七.離差平方和法(Ward’smethod
)類似于方差分析的想法,如果類分得恰當(dāng),同類內(nèi)的樣品之間的離差平方和應(yīng)較小,而類間的離差平方和應(yīng)當(dāng)較大。
其中是由Gp和Gq合并成的Gr類的類內(nèi)離差平方和??梢宰C明離差平方和法的類間遞推公式為例題:數(shù)據(jù)如前七.離差平方和法(Ward’smethod)類似于方差八、系統(tǒng)聚類法的軟件實(shí)現(xiàn)——SPSS以教材88頁例題1為例,SPSS處理:1、Analyze-Classify-HierarchicalCluster2、把dxbz、czbz、wmbz選入Variables
3、若對(duì)樣品聚類(Q型聚類):在Cluster選Cases;若對(duì)變量聚類(R型聚類)則在Cluster選Variables4、選Plots,再點(diǎn)Dendrogram,則畫出樹狀圖;若點(diǎn)Icicle,則畫出冰掛圖,其中Orientation中(Vertical為縱向冰掛圖;Horizontal為橫向冰掛圖)。
……..八、系統(tǒng)聚類法的軟件實(shí)現(xiàn)——SPSS以教材88頁例題1為例,九、系統(tǒng)聚類法的基本性質(zhì)
(一)單調(diào)性在聚類分析過程中,并類距離分別為lk(k=1,2,3,…)若滿足,則稱該聚類方法具有單調(diào)性。可以證明除了重心法和中間距離法之外,其他的系統(tǒng)聚類法均滿足單調(diào)性的條件。(二)空間的濃縮和擴(kuò)張
1、定義矩陣的大小設(shè)同階矩陣D(A)和D(B),如果D(A)的每一個(gè)元素小于D(B)的每一個(gè)元素,則記為。九、系統(tǒng)聚類法的基本性質(zhì)(一)單調(diào)性(二)空間的濃縮
2、空間的濃縮和擴(kuò)張?jiān)O(shè)有兩種系統(tǒng)聚類法A和B,他們?cè)诘趇步的距離矩陣分別為Ai和Bi(I=1,2,3…),若Ai>Bi
,則稱第一種方法A比第二種方法B使空間擴(kuò)張,或第二種方法比第一種方法濃縮。
3、方法的比較
D(短)D(平),D(重)D(平);
D(長(zhǎng))D(平);當(dāng),D(變平)D(平);當(dāng),D(變平)D(平)。2、空間的濃縮和擴(kuò)張3、方法的比較D(
1.由適當(dāng)?shù)拈撝荡_定介紹系統(tǒng)聚類法的基本步驟時(shí),由譜系聚類圖及臨界值,即可給出分類結(jié)果.
2.根據(jù)數(shù)據(jù)點(diǎn)的散布圖直觀地確定類的個(gè)數(shù)
3.根據(jù)譜系圖確定分類個(gè)數(shù)的準(zhǔn)則
4.根據(jù)統(tǒng)計(jì)量確定分類個(gè)數(shù)十、確定類個(gè)數(shù)的幾種常見方法:1.由適當(dāng)?shù)拈撝荡_定十、確定類個(gè)數(shù)的幾種常見方法:黛米爾曼(Demirmen,1972)提出依據(jù)樹狀結(jié)構(gòu)圖分類的準(zhǔn)則:黛米爾曼(Demirmen,1972)提出依據(jù)樹狀結(jié)構(gòu)圖分類
由Rk2的定義可知,Rk2值越大,也就是Pk/T越小,表示k個(gè)類內(nèi)離差平方和之和Pk在總離差平方和T中占的比例越小,這說明k個(gè)類區(qū)分得越開.Rk2的值總是在0和1之間,而且Rk2的值總是隨著分類個(gè)數(shù)k的減少而變小十一、聚類效果評(píng)價(jià)統(tǒng)計(jì)量所以我們只能取合適的K,使得R2足夠大,而K本身較小,且隨著K的增加,R2的增幅不大。1、Rk2統(tǒng)計(jì)量由Rk2的定義可知,Rk2值越大,也就是Pk用于評(píng)價(jià)聚為K個(gè)類的效果。如果聚類的效果好,類間的離差平方和相對(duì)于類內(nèi)的離差平方和應(yīng)比較大,所以應(yīng)該取偽F統(tǒng)計(jì)量較大而類數(shù)較小的聚類水平。2.偽F統(tǒng)計(jì)量用于評(píng)價(jià)聚為K個(gè)類的效果。如果聚類的效果好,類間的
其中WK和WL分別是類K、L的類內(nèi)離差平方和,BKL是將K和L合并為第M類所增加離差平方和
BKL
=WM-WK-WL為合并導(dǎo)致的類內(nèi)離差平方和的增量。用它評(píng)價(jià)合并第K和L類的效果,偽統(tǒng)計(jì)量大說明不應(yīng)該合并這兩類,應(yīng)該取合并前的水平。3.偽統(tǒng)計(jì)量3.偽統(tǒng)計(jì)量§2.5非系統(tǒng)聚類法簡(jiǎn)介動(dòng)態(tài)聚類法:也叫做逐步聚類法、k-均值聚類法、或快速聚類法。——事先要確定分多少類§2.5非系統(tǒng)聚類法簡(jiǎn)介動(dòng)態(tài)聚類法:也叫做逐步聚類
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 職業(yè)健康促進(jìn)的成本效益預(yù)測(cè)
- 金華浙江金華武義縣第二人民醫(yī)院招聘編外人員6人筆試歷年參考題庫附帶答案詳解
- 通遼2025年內(nèi)蒙古通遼市第三人民醫(yī)院招聘15人筆試歷年參考題庫附帶答案詳解
- 職業(yè)健康與心理健康的協(xié)同服務(wù)體系
- 石家莊2025年河北石家莊辛集市事業(yè)單位選聘20人筆試歷年參考題庫附帶答案詳解
- 湖北2025年湖北第二師范學(xué)院招聘26人筆試歷年參考題庫附帶答案詳解
- 池州2025年下半年安徽池州職業(yè)技術(shù)學(xué)院招聘工作人員34人筆試歷年參考題庫附帶答案詳解
- 昆明2025年云南昆明經(jīng)濟(jì)技術(shù)開發(fā)區(qū)招聘同工同酬聘用制教師134人筆試歷年參考題庫附帶答案詳解
- 成都2025年四川成都市公安局金牛區(qū)分局警務(wù)輔助人員招聘150人筆試歷年參考題庫附帶答案詳解
- 廣州廣東廣州市潭崗強(qiáng)制隔離戒毒所招聘編外人員筆試歷年參考題庫附帶答案詳解
- 醫(yī)保智能審核與醫(yī)院HIS系統(tǒng)融合方案
- 2023-2025年浙江中考數(shù)學(xué)試題分類匯編:圖形的性質(zhì)(解析版)
- 健康險(xiǎn)精算模型的風(fēng)險(xiǎn)調(diào)整-洞察與解讀
- 十年(2016-2025年)高考數(shù)學(xué)真題分類匯編:專題26 導(dǎo)數(shù)及其應(yīng)用解答題(原卷版)
- 2025年江蘇省常熟市中考物理試卷及答案詳解(名校卷)
- 旅游景區(qū)商戶管理辦法
- 2025年甘肅省中考物理、化學(xué)綜合試卷真題(含標(biāo)準(zhǔn)答案)
- DLT5210.1-2021電力建設(shè)施工質(zhì)量驗(yàn)收規(guī)程第1部分-土建工程
- 機(jī)械設(shè)備租賃服務(wù)方案
- 電影放映年度自查報(bào)告
- 心內(nèi)介入治療護(hù)理
評(píng)論
0/150
提交評(píng)論