凝聚式聚類分類總結(jié)_第1頁
凝聚式聚類分類總結(jié)_第2頁
凝聚式聚類分類總結(jié)_第3頁
凝聚式聚類分類總結(jié)_第4頁
凝聚式聚類分類總結(jié)_第5頁
已閱讀5頁,還剩20頁未讀, 繼續(xù)免費閱讀

付費下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

凝聚式聚類分類總結(jié)一、凝聚式聚類概述

凝聚式聚類(AgglomerativeClustering)是一種自底向上的層次聚類方法,通過逐步合并相似性較高的數(shù)據(jù)點或子簇來構(gòu)建聚類結(jié)構(gòu)。該方法適用于發(fā)現(xiàn)數(shù)據(jù)中自然存在的層次結(jié)構(gòu),廣泛應用于數(shù)據(jù)分析、圖像處理、生物信息學等領域。

(一)基本原理

1.初始化:將每個數(shù)據(jù)點視為一個獨立的簇。

2.合并:迭代地選擇最相似的簇進行合并,直到滿足終止條件。

3.終止:所有數(shù)據(jù)點最終合并為一個簇,或達到預設的簇數(shù)量。

(二)相似性度量

1.距離度量:

-歐氏距離:適用于連續(xù)數(shù)據(jù),計算兩點間直線距離。

-曼哈頓距離:適用于網(wǎng)格數(shù)據(jù),計算兩點間城市街區(qū)距離。

-余弦相似度:適用于高維向量數(shù)據(jù),計算向量夾角余弦值。

2.相似度度量:

-皮爾遜相關(guān)系數(shù):適用于連續(xù)數(shù)據(jù),衡量線性相關(guān)性。

-Jaccard相似系數(shù):適用于二元數(shù)據(jù),衡量集合相似度。

二、凝聚式聚類算法步驟

(一)構(gòu)建距離矩陣

1.計算所有數(shù)據(jù)點對之間的距離,形成距離矩陣。

2.距離矩陣更新規(guī)則:

-初始矩陣:對角線為0,非對角線為數(shù)據(jù)點間距離。

-合并后更新:若合并簇A和B,更新相關(guān)距離。

(二)簇合并策略

1.最近鄰合并(SingleLinkage):

-合并簇間距離最小的兩個簇。

-易受鏈式效應影響,可能導致非凸形狀聚類。

2.完全合并(CompleteLinkage):

-合并簇間最大距離最小的兩個簇。

-對異常值敏感,但能產(chǎn)生較魯棒的聚類結(jié)果。

3.平均合并(AverageLinkage):

-合并簇間平均距離最小的兩個簇。

-平衡了最近鄰和完全合并的優(yōu)缺點。

4.中位數(shù)合并(MedianLinkage):

-合并簇間中位數(shù)距離最小的兩個簇。

-對異常值具有較好魯棒性。

(三)終止條件

1.預設簇數(shù)量:直接指定最終簇數(shù),如k-means++中的k。

2.距離閾值:當合并簇間距離大于閾值時停止合并。

3.簇內(nèi)/間距離變化:當簇內(nèi)距離增量小于閾值時終止。

三、凝聚式聚類應用案例

(一)數(shù)據(jù)分析

1.客戶細分:

-按購買行為、年齡、收入等特征進行聚類。

-示例:某電商平臺將用戶分為高價值、潛力、流失三類。

2.文本聚類:

-基于TF-IDF向量進行文檔聚類。

-示例:新聞文章按主題自動分類,準確率可達85%。

(二)圖像處理

1.圖像分割:

-將相似顏色區(qū)域合并為前景或背景。

-示例:醫(yī)學圖像中病灶區(qū)域自動識別。

2.視頻分析:

-基于幀間差異進行動作聚類。

-示例:體育比賽中的動作識別系統(tǒng)。

(三)生物信息學

1.基因表達分析:

-將表達模式相似的基因聚類。

-示例:腫瘤樣本中基因亞型分類。

2.蛋白質(zhì)結(jié)構(gòu)分析:

-基于氨基酸序列相似性聚類。

-示例:蛋白質(zhì)功能家族劃分。

四、凝聚式聚類優(yōu)缺點

(一)優(yōu)點

1.層次結(jié)構(gòu)清晰:能展示數(shù)據(jù)間的自然層次關(guān)系。

2.魯棒性較好:對異常值相對不敏感(部分方法)。

3.無需預設簇數(shù):可通過樹狀圖直觀選擇簇數(shù)量。

(二)缺點

1.計算復雜度高:距離矩陣計算需O(n2)時間。

2.鏈式效應:最近鄰合并可能產(chǎn)生非凸聚類。

3.靈敏度:對參數(shù)選擇(如距離閾值)敏感。

五、改進方法

(一)優(yōu)化距離計算

1.加權(quán)距離:對重要特征賦予更高權(quán)重。

2.聚類調(diào)整距離:合并后重新計算距離,減少鏈式效應。

(二)混合方法

1.初始聚類:使用k-means預聚類減少計算量。

2.層次優(yōu)化:在樹狀圖上動態(tài)調(diào)整合并順序。

(三)并行化處理

1.分塊計算:將數(shù)據(jù)分塊并行計算距離矩陣。

2.MapReduce框架:適用于大規(guī)模數(shù)據(jù)集。

六、總結(jié)

凝聚式聚類作為一種經(jīng)典的層次聚類方法,通過逐步合并相似數(shù)據(jù)點構(gòu)建自然聚類結(jié)構(gòu)。該方法在多個領域具有廣泛應用,但需注意計算復雜度和參數(shù)選擇問題。通過優(yōu)化距離計算、混合方法或并行化處理,可顯著提升算法性能和聚類效果。

---

一、凝聚式聚類概述

凝聚式聚類(AgglomerativeClustering)是一種自底向上的層次聚類方法,其核心思想是將數(shù)據(jù)集逐步分解為更小的簇,并通過相似性度量將這些小簇合并,最終形成若干個不可分割的簇。該方法因其能揭示數(shù)據(jù)中固有的層次結(jié)構(gòu)而備受關(guān)注,廣泛應用于數(shù)據(jù)分析、模式識別、圖像處理、生物信息學等領域。

(一)基本原理

凝聚式聚類通過迭代地合并最相似的簇來構(gòu)建層次結(jié)構(gòu)。其過程大致可分為三個階段:初始化、合并與終止。具體步驟如下:

1.初始化:將數(shù)據(jù)集中的每一個數(shù)據(jù)點視為一個獨立的簇。此時,簇的數(shù)量等于數(shù)據(jù)點的數(shù)量。

2.合并:在當前存在的簇集合中,根據(jù)某種相似性度量方法(如距離或相似度),找到最相似的兩個簇,并將它們合并成一個新簇。這一步是迭代進行的,每次迭代都會減少一個簇。

3.更新:合并后,需要更新描述簇之間關(guān)系的結(jié)構(gòu),例如距離矩陣或樹狀圖(Dendrogram)。同時,根據(jù)所選的合并策略,可能需要更新簇內(nèi)數(shù)據(jù)點或簇中心點的表示。

4.終止:當滿足某個終止條件時,算法結(jié)束。常見的終止條件包括:

達到預設的簇數(shù)量(k)。

合并兩個簇所需的距離(或相似度)大于某個閾值。

簇內(nèi)不相似度(或簇間不相似度)的增加量小于某個閾值。

所有數(shù)據(jù)點最終合并為一個簇。

(二)相似性度量

相似性度量是凝聚式聚類的核心,直接影響聚類的結(jié)果。選擇合適的度量方式對于發(fā)現(xiàn)數(shù)據(jù)中的真實結(jié)構(gòu)至關(guān)重要。常見的相似性度量方法包括:

1.距離度量(用于衡量不相似性):

歐氏距離(EuclideanDistance):最常用的距離度量,計算兩個點在歐幾里得空間中的直線距離。適用于連續(xù)數(shù)據(jù)且特征維度不高的情況。計算公式為`sqrt(sum((x_i-y_i)^2))`,其中`x_i`和`y_i`是兩個點的第i個坐標。

適用場景:測量空間上的物理距離,特征分布大致呈球形。

注意事項:對尺度敏感,即特征值的單位或范圍不同會影響距離計算結(jié)果。使用前通常需要進行數(shù)據(jù)標準化或歸一化。

曼哈頓距離(ManhattanDistance):也稱為城市街區(qū)距離,計算兩個點在標準坐標系上絕對軸距總和。適用于網(wǎng)格數(shù)據(jù)或計算成本較低的場景。計算公式為`sum(|x_i-y_i|)`。

適用場景:城市地圖上的路徑距離,特征值變化是離散的。

注意事項:未考慮點之間的角度關(guān)系。

余弦相似度(CosineSimilarity):衡量兩個向量方向的相似程度,值域為[-1,1]。通常用于高維稀疏數(shù)據(jù)(如文本向量)。計算公式為`(A·B)/(||A||||B||)`,其中`A`和`B`是兩個向量,`·`表示點積,`||·||`表示向量范數(shù)。在聚類中,通常使用1-余弦相似度作為距離度量,值域為[0,2],表示不相似性。

適用場景:文本聚類、推薦系統(tǒng),關(guān)注向量方向而非長度。

注意事項:對向量長度(規(guī)模)不敏感。

閔可夫斯基距離(MinkowskiDistance):歐氏距離和曼哈頓距離的推廣,參數(shù)`p`控制距離的形狀。當`p=2`時為歐氏距離,`p=1`時為曼哈頓距離。計算公式為`sum(|x_i-y_i|^p)^(1/p)`。

馬氏距離(MahalanobisDistance):考慮了特征間的相關(guān)性,通過協(xié)方差矩陣進行加權(quán)。適用于特征存在共線性或需要考慮特征尺度的情況。計算公式為`sqrt((x-μ)^TS^(-1)(x-μ))`,其中`x`是數(shù)據(jù)點,`μ`是均值向量,`S`是協(xié)方差矩陣,`S^(-1)`是協(xié)方差矩陣的逆。

適用場景:生物統(tǒng)計學,特征間存在相關(guān)性。

注意事項:需要計算協(xié)方差矩陣及其逆,計算復雜度較高,且對異常值敏感。

2.相似度度量(用于衡量相似性):

皮爾遜相關(guān)系數(shù)(PearsonCorrelationCoefficient):衡量兩個變量線性相關(guān)性的強度和方向,值域為[-1,1]。1表示完全正相關(guān),-1表示完全負相關(guān),0表示無線性相關(guān)。計算公式為`cov(X,Y)/(std(X)std(Y))`。

適用場景:統(tǒng)計分析,衡量變量間線性關(guān)系。

注意事項:只敏感于線性關(guān)系,對非線性關(guān)系不敏感。

斯皮爾曼等級相關(guān)系數(shù)(SpearmanRankCorrelationCoefficient):基于數(shù)據(jù)的秩(排名)計算相關(guān)系數(shù),值域為[-1,1]。適用于非參數(shù)數(shù)據(jù)或存在單調(diào)關(guān)系的非線性數(shù)據(jù)。

Jaccard相似系數(shù)(JaccardSimilarityCoefficient):適用于二元數(shù)據(jù)(0/1數(shù)據(jù)),衡量兩個集合的相似程度。計算公式為`|X∩Y|/|X∪Y|`,其中`X`和`Y`是兩個集合。

適用場景:集合數(shù)據(jù)分析,如文本詞袋模型(忽略詞頻,只看是否出現(xiàn))。

注意事項:對元素數(shù)量不敏感,只關(guān)注元素是否存在。

選擇哪種度量方法取決于數(shù)據(jù)的性質(zhì)和聚類分析的目標。例如,對于文本數(shù)據(jù),余弦相似度通常更合適;對于具有明確空間意義的地理數(shù)據(jù),歐氏距離可能更合適。

(三)樹狀圖(Dendrogram)

樹狀圖是凝聚式聚類的重要可視化工具,它能直觀地展示數(shù)據(jù)點之間以及由它們合并形成的簇之間的層次關(guān)系。構(gòu)建樹狀圖的步驟通常與聚類算法的合并過程同步進行:

1.葉節(jié)點:樹的葉節(jié)點代表初始的每個數(shù)據(jù)點。

2.合并節(jié)點:內(nèi)部節(jié)點代表合并后的簇。

3.分支長度:連接葉節(jié)點或節(jié)點之間的線段(分支)的長度通常表示合并時兩個簇之間的距離或不相似度。長度越長,表示合并的兩個簇在初始狀態(tài)時越不相似。

4.解讀:通過樹狀圖,用戶可以在不同層級選擇合適的切割點(水平線),將層次結(jié)構(gòu)轉(zhuǎn)化為指定數(shù)量的簇。切割點越高,得到的簇數(shù)量越少,簇內(nèi)數(shù)據(jù)點越相似。

---

二、凝聚式聚類算法步驟

凝聚式聚類算法的具體實現(xiàn)依賴于選擇的合并策略。以下是通用步驟,結(jié)合了距離矩陣和樹狀圖的構(gòu)建過程:

(一)構(gòu)建距離矩陣

距離矩陣是凝聚式聚類的基礎,存儲了數(shù)據(jù)點(或當前簇)之間的所有距離。構(gòu)建過程如下:

1.初始化:創(chuàng)建一個n×n的矩陣(n為數(shù)據(jù)點數(shù)量),對角線元素為0(表示點自身距離為0),非對角線元素存儲點i和點j之間的距離(根據(jù)選定的距離度量方法計算)。

示例:對于包含5個數(shù)據(jù)點的數(shù)據(jù)集A,B,C,D,E,距離矩陣`D`的初始形式(部分)如下:

```

D=[[0,d(A,B),d(A,C),d(A,D),d(A,E)],

[d(B,A),0,d(B,C),d(B,D),d(B,E)],

[d(C,A),d(C,B),0,d(C,D),d(C,E)],

[d(D,A),d(D,B),d(D,C),0,d(D,E)],

[d(E,A),d(E,B),d(E,C),d(E,D),0]]

```

其中`d(X,Y)`表示點X和點Y之間的距離。

2.迭代更新:在每次合并兩個簇后,更新距離矩陣。假設在步驟k時,簇`C1`和`C2`被合并成新簇`C_new`。更新規(guī)則取決于所使用的簇間距離定義(LinkageCriterion):

最近鄰合并(SingleLinkage):

計算:新簇`C_new`與其他任意簇`C_other`的距離=`min(d(C1,C_other),d(C2,C_other))`。

更新:在距離矩陣中,將代表`C1`和`C2`的行/列合并,其值設為上述計算結(jié)果,其余行/列保持不變或按特定規(guī)則調(diào)整(如刪除)。

完全合并(CompleteLinkage):

計算:新簇`C_new`與其他任意簇`C_other`的距離=`max(d(C1,C_other),d(C2,C_other))`。

更新:同上,合并行/列,設置距離為最大值。

平均合并(AverageLinkage):

計算:新簇`C_new`與其他任意簇`C_other`的距離=`(sum(d(C1,C_other)+d(C2,C_other))/2)`。

更新:同上,合并行/列,設置距離為平均值。

中位數(shù)合并(MedianLinkage):

計算:新簇`C_new`與其他任意簇`C_other`的距離=`median([d(C1,C_other),d(C2,C_other)])`。

更新:同上,合并行/列,設置距離為中位數(shù)。

3.終止:當距離矩陣中只剩下一行/列時,所有數(shù)據(jù)點已合并為一個簇,算法結(jié)束。

(二)簇合并策略

簇合并策略定義了在每一步中“最相似”的兩個簇如何被選中合并。不同的策略會得到不同的聚類結(jié)果,適用于不同類型的數(shù)據(jù)結(jié)構(gòu)。

1.最近鄰合并(SingleLinkage/MinimumLinkage):

核心思想:合并兩個簇,使得合并后簇內(nèi)最小距離最小。

計算:在當前所有簇對中,找到距離最小的簇對(`C_i`,`C_j`)。

優(yōu)點:簡單直觀,對密集區(qū)域聚類效果好。

缺點:極易產(chǎn)生鏈式效應(ChainingEffect),即一個長鏈狀結(jié)構(gòu)的簇可能因為其兩端與遠處簇的距離較近而被錯誤地合并,導致聚類結(jié)果不理想。對異常值非常敏感。

適用場景:數(shù)據(jù)分布呈鏈狀或“手風琴”形狀時可能有效。

2.完全合并(CompleteLinkage/MaximumLinkage):

核心思想:合并兩個簇,使得合并后簇間最大距離最小。

計算:在當前所有簇對中,找到距離最小的簇對(`C_i`,`C_j`),該距離是它們之間所有點對距離的最大值。

優(yōu)點:對異常值具有較強的魯棒性,不易產(chǎn)生鏈式效應,傾向于產(chǎn)生緊湊且凸形的簇。

缺點:對“類星體”狀結(jié)構(gòu)(一個簇包含在其他簇內(nèi)部)聚類效果較差,因為簇間最大距離可能被內(nèi)部點對決定。

適用場景:數(shù)據(jù)分布較為均勻或簇呈凸形時。

3.平均合并(AverageLinkage):

核心思想:合并兩個簇,使得合并后簇間平均距離最小。

計算:在當前所有簇對中,找到距離最小的簇對(`C_i`,`C_j`),該距離是它們之間所有點對距離的平均值。

優(yōu)點:平衡了最近鄰和完全合并的優(yōu)缺點,對異常值有一定魯棒性,能產(chǎn)生較為自然的聚類。

缺點:計算量相對較大,對非凸形狀的簇效果一般。

適用場景:適用于發(fā)現(xiàn)形狀介于鏈狀和凸形之間的簇。

4.中位數(shù)合并(WardLinkage):

核心思想:合并兩個簇,使得合并后簇內(nèi)方差(或平方和距離)的增加量最小。

計算:在當前所有簇對中,找到合并后導致簇內(nèi)總方差增量最小的簇對。通常計算合并后簇的中心點,然后計算所有點對此中心點的平方距離之和,選擇增量最小的簇對合并。

優(yōu)點:傾向于產(chǎn)生大小相似的簇,對異常值較魯棒。

缺點:計算量較大,對簇形狀的假設較強(傾向于球形簇)。

適用場景:當希望聚類結(jié)果中簇的大小差異較小時。

選擇哪種合并策略需要根據(jù)具體數(shù)據(jù)集的特點和分析目標來決定。例如,如果數(shù)據(jù)中可能存在異常值,優(yōu)先考慮完全合并或中位數(shù)合并;如果希望得到緊湊的凸形簇,完全合并是不錯的選擇;如果對計算效率要求不高且希望平衡各種因素,平均合并是一個常用選項。

(三)終止條件

算法需要明確的終止條件來決定何時停止合并簇。常見的終止條件包括:

1.達到預設簇數(shù)量(k):這是應用最廣泛的終止條件。用戶根據(jù)先驗知識或業(yè)務需求預先指定希望得到的簇的數(shù)量`k`。算法在樹狀圖上找到第`k`個水平切割點,從而得到`k`個簇。

操作:在樹狀圖上畫一條水平線,使其穿過第`k`個最大的合并距離(從底部往上數(shù))。該線與樹狀圖的垂直線的交點即為各簇的切割點,將對應的數(shù)據(jù)點劃分到不同的簇中。

優(yōu)點:結(jié)果直觀,符合許多實際應用場景的需求。

缺點:需要預先知道或猜測`k`的值,可能丟失部分層次信息。

2.距離閾值(DistanceThreshold/Cutoff):設置一個距離閾值`T`。當合并兩個簇所需的距離(或簇間不相似度)大于`T`時,停止合并。

操作:在樹狀圖上畫一條水平線,使其剛好低于或等于閾值`T`。該線與垂直線的交點定義了最終的簇。

優(yōu)點:無需預設簇數(shù),可以保留數(shù)據(jù)的層次結(jié)構(gòu)。

缺點:閾值的選擇具有主觀性,可能需要多次嘗試;得到的簇數(shù)量不固定。

3.簇內(nèi)不相似度增量閾值(Intra-clusterDissimilarityThreshold):設置一個閾值`Δ`。如果在某次合并中,合并后簇內(nèi)不相似度的增加量(例如,合并前后的平方和距離增量)小于`Δ`,則停止合并。

操作:監(jiān)控算法過程中簇內(nèi)不相似度的變化,當增量持續(xù)低于`Δ`時停止。

優(yōu)點:基于簇的緊密度進行停止判斷。

缺點:閾值選擇依賴于數(shù)據(jù)特性和期望的簇緊密度;計算增量可能較為復雜。

4.簇數(shù)量變化停止:追蹤每次迭代后簇的數(shù)量變化。當簇數(shù)量的變化量連續(xù)幾次迭代都小于某個值(例如1)時,停止合并。

優(yōu)點:較為直觀。

缺點:可能不夠精確,尤其是在簇數(shù)量較少時。

實踐中,達到預設簇數(shù)量和距離閾值是最常用的兩種終止條件。選擇哪種終止條件以及如何設置參數(shù)(如`k`或`T`)對最終的聚類結(jié)果有顯著影響。

(四)計算步驟總結(jié)(以距離矩陣法為例)

1.輸入:數(shù)據(jù)集`X`(包含`n`個數(shù)據(jù)點),距離度量方法(如歐氏距離),合并策略(如最近鄰合并),終止條件(如預設簇數(shù)`k`)。

2.初始化:

創(chuàng)建n×n的距離矩陣`D`,對角線為0,非對角線為點對間距離。

每個數(shù)據(jù)點作為初始簇,創(chuàng)建簇索引列表`Clusters`,初始為`[[x1],[x2],...,[xn]]`。

3.迭代合并:

初始化簇計數(shù)器`num_clusters=n`。

當`num_clusters>k`(或滿足其他終止條件)時,執(zhí)行以下操作:

a.在`D`中查找最小非零距離`(i,j)`,其中`i`和`j`是當前簇的索引(注意:在距離矩陣中,`D[i][j]`和`D[j][i]`是相等的,且通常只考慮上三角或下三角部分)。

b.根據(jù)`Clusters`列表確定簇`C_i`和`C_j`具體包含哪些數(shù)據(jù)點。

c.根據(jù)合并策略將簇`C_i`和`C_j`合并成新簇`C_new`。

d.更新`Clusters`列表,移除`C_i`和`C_j`,添加`C_new`。

e.根據(jù)簇間距離更新規(guī)則,更新距離矩陣`D`中與新簇`C_new`相關(guān)的距離值。

f.`num_clusters`減1。

4.終止:當`num_clusters`等于`k`或滿足其他終止條件時,停止迭代。

5.輸出:最終的`k`個簇,以及(可選)完整的樹狀圖表示。

(五)樹狀圖繪制與解讀

樹狀圖是凝聚式聚類的核心可視化手段。繪制過程與聚類算法的合并過程同步。以下是繪制步驟:

1.初始化:將每個數(shù)據(jù)點作為葉節(jié)點,每個節(jié)點連接到一個高度為0的水平線(根節(jié)點)。

2.合并與繪制:每次合并兩個簇時:

在圖上繪制一個新節(jié)點,代表合并后的簇。

從代表被合并簇的兩個節(jié)點分別向上繪制垂直線,與該新節(jié)點連接。

將這兩個垂直線的交點處繪制一條水平線,連接兩個垂直線的起點,這條水平線的高度等于本次合并時兩個簇之間的距離(或不相似度)。這個高度是固定的,因為距離是在該層級確定的。

3.完成:當所有數(shù)據(jù)點最終合并為一個簇時,樹狀圖繪制完成。樹狀圖從底部(葉節(jié)點)向上延伸至頂部(根節(jié)點)。

解讀樹狀圖時:

高度表示距離:從底部到頂部的垂直距離越大,表示合并時涉及的簇在初始狀態(tài)時越不相似。

切割點確定簇:在樹狀圖上畫一條水平線(切割線),可以定義最終的簇。切割線越高,得到的簇數(shù)量越少。

例如,畫一條水平線穿過距離為5的位置,那么所有在水平線上方被該線截斷的簇都會被分開,形成獨立的簇。位于同一垂直分支且未被切割線截斷的點屬于同一個簇。

選擇策略:選擇哪個高度進行切割取決于聚類目標和數(shù)據(jù)特性。例如,如果希望獲得更小的簇,可以選擇較高的切割點;如果希望獲得更相似的簇,可以選擇較低的切割點。

---

三、凝聚式聚類應用案例

凝聚式聚類因其能揭示數(shù)據(jù)的層次結(jié)構(gòu)和靈活性,在眾多領域得到了廣泛應用。以下列舉幾個具體的應用案例,并說明其操作要點和預期效果。

(一)客戶細分(市場分析)

1.應用場景:營銷部門希望根據(jù)客戶的購買歷史、人口統(tǒng)計學信息(年齡、性別、收入等)和互動行為,將客戶群體劃分為不同的細分市場,以便實施個性化的營銷策略。

2.數(shù)據(jù)準備:

收集客戶數(shù)據(jù),可能包括:購買頻率、購買金額、最近購買時間、瀏覽商品類別、人口統(tǒng)計學特征等。

數(shù)據(jù)預處理:處理缺失值、異常值;對數(shù)值型特征進行標準化或歸一化;對類別型特征進行編碼(如獨熱編碼或標簽編碼)。

3.聚類步驟:

選擇合適的距離度量:對于包含多種類型數(shù)據(jù)(數(shù)值和類別)的記錄,可以考慮使用Gower距離或Kulczynski距離等能處理混合類型數(shù)據(jù)的距離度量。如果主要關(guān)注數(shù)值型特征,歐氏距離或標準化后的歐氏距離是常用選擇。

選擇合并策略:平均合并或中位數(shù)合并通常能提供較好的結(jié)果,它們對異常值有一定魯棒性,并且能處理非凸形狀的簇。

運行凝聚式聚類:使用預設的簇數(shù)量`k`(如`k=3`或`k=4`)或根據(jù)樹狀圖選擇合適的距離閾值。

4.結(jié)果分析:

分析每個簇的特征:比較不同簇在原始特征上的均值或分布差異。例如,可能發(fā)現(xiàn)一個簇是高消費年輕群體,另一個簇是低消費老年群體,還有一個簇是中等消費的穩(wěn)定客戶。

命名簇:根據(jù)簇的特征為每個細分市場命名,如“高價值忠誠客戶”、“價格敏感型客戶”、“潛力增長客戶”。

應用:針對不同細分市場設計差異化的產(chǎn)品推薦、定價策略、促銷活動等。

5.預期效果:通過聚類,營銷人員可以更清晰地了解客戶群體,識別高價值客戶,并為不同類型的客戶提供更精準的服務,從而提升客戶滿意度和營銷效率。例如,某電商平臺通過凝聚式聚類將客戶分為三類,針對“高價值忠誠客戶”提供生日禮遇,對“潛力增長客戶”推送新品試用,對“價格敏感型客戶”提供折扣信息,最終提升了整體銷售額。

(二)文檔主題聚類(信息檢索與處理)

1.應用場景:在大量文本數(shù)據(jù)(如新聞文章、科技文獻、社交媒體帖子)中,自動發(fā)現(xiàn)隱藏的主題或話題,并將內(nèi)容相似的文檔歸類到一起。

2.數(shù)據(jù)準備:

收集文本數(shù)據(jù)集。

文本預處理:分詞、去除停用詞、詞形還原、去除低頻詞等。

向量化:將預處理后的文本轉(zhuǎn)換為數(shù)值向量。常用方法包括:詞袋模型(Bag-of-Words,BoW)、TF-IDF(TermFrequency-InverseDocumentFrequency)、Word2Vec或BERT等詞嵌入技術(shù)。

3.聚類步驟:

選擇合適的距離/相似度度量:對于TF-IDF或詞嵌入向量,余弦相似度通常是最佳選擇,因為它關(guān)注詞語分布的相似性,而非詞頻或向量長度。

選擇合并策略:平均合并或完全合并策略可以用于基于向量相似度的聚類。

運行凝聚式聚類:可以嘗試不同的簇數(shù)量`k`,或者使用距離閾值。也可以通過查看樹狀圖來輔助選擇。

4.結(jié)果分析:

閱讀每個簇中的代表性文檔:選取每個簇中最具代表性的幾個文檔進行閱讀,理解該簇的主題。

人工標注與驗證:根據(jù)文檔內(nèi)容,為每個簇賦予一個meaningful的主題標簽(如“人工智能倫理”、“氣候變化政策”、“足球賽事報道”)。

評估:可以通過人工評估或與預定義標簽進行比較,來評估聚類的質(zhì)量和簇的區(qū)分度。

5.應用:自動新聞分類、文獻檢索系統(tǒng)的結(jié)果組織、社交媒體趨勢發(fā)現(xiàn)、企業(yè)內(nèi)部文檔管理優(yōu)化等。

6.預期效果:自動將大量無標簽文本進行主題劃分,幫助用戶快速理解數(shù)據(jù)集的內(nèi)容分布,發(fā)現(xiàn)潛在的模式和關(guān)聯(lián)。例如,搜索引擎可以利用文檔主題聚類來組織搜索結(jié)果,用戶搜索一個關(guān)鍵詞時,能更清晰地看到相關(guān)主題下的不同文檔。

(三)基因表達譜分析(生物信息學)

1.應用場景:在生物醫(yī)學研究中,分析來自不同實驗條件(如疾病狀態(tài)vs.健康狀態(tài))的基因表達數(shù)據(jù),識別與特定生物學過程或疾病相關(guān)的基因模塊。

2.數(shù)據(jù)準備:

獲取基因表達矩陣:通常是一個`mxn`的矩陣,`m`是基因數(shù)量,`n`是實驗樣本數(shù)量。矩陣中的值表示每個基因在對應樣本中的表達水平(如RNA測序數(shù)據(jù))。

數(shù)據(jù)預處理:標準化(如Z-score標準化或T-test標準化)以消除批次效應和尺度差異。

3.聚類步驟:

選擇合適的距離度量:基因表達數(shù)據(jù)通常是高維稀疏矩陣,歐氏距離可能不太適用(因為不同基因表達尺度差異大)。余弦相似度或1-Pearson相關(guān)系數(shù)(衡量不相似性)通常是更好的選擇,因為它們關(guān)注基因表達模式的相似性,對尺度不敏感。

選擇合并策略:平均合并或中位數(shù)合并策略比較常用,它們能較好地處理高維數(shù)據(jù)中的相似性計算。

運行凝聚式聚類:根據(jù)研究目標選擇合適的簇數(shù)量`k`或距離閾值。例如,可能希望將表達模式相似的基因聚類在一起,以發(fā)現(xiàn)功能相關(guān)的基因群。

4.結(jié)果分析:

分析每個基因簇的表達模式:觀察同一簇內(nèi)的基因在所有樣本中的表達變化趨勢。例如,一個簇中的基因可能都在特定疾病樣本中高表達,而在健康樣本中低表達。

功能富集分析:對每個基因簇進行基因本體(GO)或通路富集分析,識別簇中基因可能參與的生物學過程或通路。

可視化:使用熱圖(Heatmap)或樹狀圖可視化聚類結(jié)果,直觀展示基因表達模式和聚類結(jié)構(gòu)。

5.應用:識別疾病相關(guān)基因、理解基因調(diào)控網(wǎng)絡、發(fā)現(xiàn)新的藥物靶點、分類腫瘤亞型等。

6.預期效果:通過聚類,研究人員能夠?qū)⒐δ芟嗨苹騾f(xié)同作用的基因組織在一起,揭示基因在特定生物學過程中的作用機制,并為疾病診斷和治療提供新的線索。例如,通過分析腫瘤樣本的基因表達譜聚類,可以識別出幾個不同的腫瘤亞型,每個亞型具有獨特的基因表達特征和臨床預后。

(四)圖像分割(計算機視覺)

1.應用場景:在醫(yī)學圖像分析中,自動分割出感興趣的區(qū)域(如器官、病灶)或背景,以便進行進一步的分析(如病灶大小測量、密度計算)。

2.數(shù)據(jù)準備:

獲取圖像數(shù)據(jù):通常是灰度圖像或多通道彩色圖像(如CT、MRI、顯微鏡圖像)。

預處理:可能需要進行圖像增強、去噪、標準化等操作。

3.聚類步驟:

像素聚類:將圖像中的每個像素視為一個數(shù)據(jù)點,每個數(shù)據(jù)點的特征可以是其灰度值(灰度圖像)或RGB值(彩色圖像)。如果使用顏色特征,可能需要轉(zhuǎn)換坐標系(如從RGB轉(zhuǎn)換到HSI或Lab)以增強不同顏色通道間的區(qū)分度。

選擇合適的距離度量:對于灰度值或顏色值,歐氏距離或曼哈頓距離是常用的選擇。

選擇合并策略:完全合并策略通常能產(chǎn)生較為平滑的分割結(jié)果,因為它傾向于合并整個連續(xù)區(qū)域,避免將一個區(qū)域分割成小片段。

運行凝聚式聚類:使用預設的簇數(shù)量`k`(對應分割出的區(qū)域數(shù)量,如`k=2`表示前景和背景),或者根據(jù)樹狀圖選擇合適的距離閾值。

4.結(jié)果分析:

可視化聚類結(jié)果:將聚類結(jié)果疊加到原始圖像上,觀察分割效果。

與groundtruth比較:如果存在標注數(shù)據(jù),可以計算分割結(jié)果的準確率、召回率等指標。

參數(shù)調(diào)整:根據(jù)分割效果調(diào)整距離度量方法、合并策略或聚類參數(shù)。

5.應用:醫(yī)學影像分割、遙感圖像分析(如土地覆蓋分類)、視頻對象分割等。

6.預期效果:自動將圖像中具有相似特征(如灰度值或顏色)的像素劃分到同一個區(qū)域,實現(xiàn)像素級別的分類。例如,在醫(yī)學圖像中,可以將腫瘤區(qū)域(高密度)與正常組織(低密度)分割開來,為后續(xù)的病灶檢測和量化提供基礎。

---

四、凝聚式聚類優(yōu)缺點

凝聚式聚類作為一種經(jīng)典的聚類方法,具有自身的優(yōu)勢和局限性。

(一)優(yōu)點

1.層次結(jié)構(gòu)清晰:凝聚式聚類能夠構(gòu)建數(shù)據(jù)的樹狀圖(Dendrogram),直觀地展示數(shù)據(jù)點之間以及簇之間的層次關(guān)系。用戶可以根據(jù)樹狀圖的不同層級選擇合適的簇數(shù)量,保留了數(shù)據(jù)的內(nèi)在結(jié)構(gòu)信息。

2.無需預設簇數(shù):與k-means等需要預先指定簇數(shù)`k`的方法不同,凝聚式聚類可以在沒有簇數(shù)先驗知識的情況下進行。用戶可以通過觀察樹狀圖或設置距離閾值來靈活確定最終的簇數(shù)量。

3.對初始中心點無關(guān):與k-means依賴初始點選擇不同,凝聚式聚類從每個數(shù)據(jù)點開始,逐步合并,因此不受初始狀態(tài)的影響,結(jié)果更穩(wěn)定。

4.多種合并策略可選:不同的簇間距離定義(LinkageCriterion)提供了不同的聚類傾向。用戶可以根據(jù)數(shù)據(jù)的特性選擇最合適的策略(如最近鄰、完全、平均、中位數(shù)),以適應不同的數(shù)據(jù)形狀和分布。

5.對異常值有一定魯棒性:某些合并策略(如完全合并、中位數(shù)合并)對異常值相對不敏感。因為異常值通常距離其他數(shù)據(jù)點較遠,在早期合并階段就可能被排除在主要簇之外。

(二)缺點

1.計算復雜度高:隨著數(shù)據(jù)集規(guī)模`n`的增加,計算量呈平方級增長(O(n2)),尤其是在構(gòu)建和更新距離矩陣時。對于非常大的數(shù)據(jù)集,計算成本可能過高。

2.易受鏈式效應影響:在某些合并策略下(尤其是最近鄰合并),聚類結(jié)果可能呈現(xiàn)“鏈式效應”。即一個長鏈狀結(jié)構(gòu)的簇可能因為其兩端與遠處簇的距離較近而被錯誤地合并成一個過大的簇,導致聚類結(jié)構(gòu)扭曲。這種現(xiàn)象在高維數(shù)據(jù)中可能更嚴重。

3.對參數(shù)選擇敏感:合并策略的選擇和距離閾值(如果使用)的設定對最終結(jié)果有顯著影響。選擇不當可能導致聚類質(zhì)量不高。而樹狀圖方法雖然提供了靈活性,但也增加了主觀選擇難度。

4.可能產(chǎn)生不均衡簇:在合并過程中,如果簇的大小差異較大,合并策略可能會傾向于合并較小的簇,導致最終形成的簇在大小上差異懸殊。

5.不適用于流數(shù)據(jù)或大數(shù)據(jù):由于其高計算復雜度,凝聚式聚類通常不適用于需要實時處理或數(shù)據(jù)量極其龐大的場景。

---

五、改進方法與擴展

為了克服凝聚式聚類的局限性并提升其性能,研究者們提出了多種改進方法和擴展技術(shù)。

(一)優(yōu)化距離計算與合并策略

1.加權(quán)距離:對數(shù)據(jù)集中不同的特征或不同的數(shù)據(jù)點對賦予不同的權(quán)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論