層次聚類分析法教學(xué)課件_第1頁(yè)
層次聚類分析法教學(xué)課件_第2頁(yè)
層次聚類分析法教學(xué)課件_第3頁(yè)
層次聚類分析法教學(xué)課件_第4頁(yè)
層次聚類分析法教學(xué)課件_第5頁(yè)
已閱讀5頁(yè),還剩14頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

層次聚類分析法目錄1層次聚類簡(jiǎn)介概念定義與基本策略2算法原理與類型凝聚法與分裂法的工作原理3距離度量與聯(lián)結(jié)方法不同距離計(jì)算方法及其影響4實(shí)踐應(yīng)用Stata與Python中的實(shí)現(xiàn)方法5案例分析與總結(jié)第一章層次聚類簡(jiǎn)介什么是層次聚類?層次聚類是一種無(wú)監(jiān)督學(xué)習(xí)方法,旨在發(fā)現(xiàn)數(shù)據(jù)中潛在的層次結(jié)構(gòu),無(wú)需預(yù)先指定類別數(shù)量。其核心思想是通過(guò)逐步合并或拆分樣本,形成一個(gè)完整的嵌套聚類樹(也稱為樹狀圖或系統(tǒng)發(fā)生樹)。這種方法特別適合于探索性數(shù)據(jù)分析,幫助研究者理解數(shù)據(jù)的內(nèi)在分組關(guān)系和結(jié)構(gòu)特征。自動(dòng)發(fā)現(xiàn)數(shù)據(jù)結(jié)構(gòu)無(wú)需預(yù)先假設(shè)數(shù)據(jù)分布形式,能夠自然呈現(xiàn)數(shù)據(jù)的層次關(guān)系可視化層次關(guān)系通過(guò)樹狀圖直觀展示樣本間的相似性和聚類過(guò)程靈活的聚類粒度層次聚類的兩種基本策略凝聚法(Agglomerative)自底向上策略初始時(shí)將每個(gè)樣本視為獨(dú)立的類計(jì)算類間距離,合并最相似的兩類不斷迭代合并直到所有樣本歸為一類最常用的層次聚類方法分裂法(Divisive)自頂向下策略初始時(shí)將所有樣本視為一個(gè)類尋找最佳分裂點(diǎn),將類分為兩個(gè)子類遞歸分裂直到每個(gè)樣本成為獨(dú)立的類計(jì)算復(fù)雜度高,應(yīng)用較少兩種方法理論上可以生成完全相同的層次結(jié)構(gòu),但實(shí)際應(yīng)用中由于算法實(shí)現(xiàn)和計(jì)算復(fù)雜度的差異,凝聚法更為常用。層次聚類流程示意凝聚法:從單個(gè)樣本出發(fā),逐步合并最相似的類合并過(guò)程形成一個(gè)樹狀的層次結(jié)構(gòu)可以通過(guò)水平切割樹狀圖獲得不同數(shù)量的聚類分裂法:從整體樣本出發(fā),遞歸地分裂為子類尋找最優(yōu)分裂點(diǎn),使子類內(nèi)部相似度最高計(jì)算復(fù)雜度為O(2^n),實(shí)際應(yīng)用受限第二章算法原理與距離度量深入理解層次聚類的核心機(jī)制凝聚法算法步驟初始化將每個(gè)樣本視為單獨(dú)的簇,N個(gè)樣本形成N個(gè)簇計(jì)算所有樣本對(duì)之間的距離矩陣D找出最近簇對(duì)在距離矩陣D中找出距離最小的兩個(gè)簇i和j將i和j記錄為合并對(duì)象合并簇將簇i和簇j合并成新的簇k更新簇的數(shù)量N=N-1更新距離矩陣計(jì)算新簇k與所有其他簇的距離更新距離矩陣D,刪除i和j的行列,添加k的行列迭代直到完成重復(fù)步驟2-4,直到所有樣本歸為一類或達(dá)到預(yù)設(shè)的簇?cái)?shù)量閾值整個(gè)過(guò)程可以用樹狀圖(Dendrogram)直觀地表示,展示樣本間的層次合并關(guān)系。分裂法算法步驟初始化將所有N個(gè)樣本視為一個(gè)大簇計(jì)算簇內(nèi)所有樣本對(duì)之間的距離矩陣尋找分裂點(diǎn)找出簇內(nèi)距離最遠(yuǎn)的兩個(gè)樣本,作為兩個(gè)新簇的初始中心這一步通常采用某種聚類算法(如K-means)來(lái)實(shí)現(xiàn)最優(yōu)分裂分配樣本將其余樣本分配到距離最近的中心,形成兩個(gè)子簇更新簇的數(shù)量N=N+1遞歸分裂對(duì)每個(gè)子簇重復(fù)步驟2-3進(jìn)行遞歸分裂直到滿足停止條件(如達(dá)到預(yù)設(shè)的簇?cái)?shù)量或每個(gè)簇只包含一個(gè)樣本)分裂法的計(jì)算復(fù)雜度隨樣本數(shù)量呈指數(shù)增長(zhǎng),因此在大規(guī)模數(shù)據(jù)集上應(yīng)用受限,但它在某些特定問(wèn)題上可能提供更好的結(jié)果。常用距離度量方法在層次聚類中,如何計(jì)算兩個(gè)簇之間的距離是算法的核心問(wèn)題。不同的距離度量方法會(huì)產(chǎn)生不同的聚類結(jié)果,適用于不同的數(shù)據(jù)特性。選擇合適的距離度量方法對(duì)聚類結(jié)果有決定性影響,應(yīng)根據(jù)數(shù)據(jù)特性和分析目標(biāo)來(lái)選擇。最小距離法SingleLinkage兩個(gè)簇中最近的兩個(gè)點(diǎn)之間的距離傾向于形成鏈狀或細(xì)長(zhǎng)的簇最大距離法CompleteLinkage兩個(gè)簇中最遠(yuǎn)的兩個(gè)點(diǎn)之間的距離傾向于形成緊湊的球狀簇平均距離法AverageLinkage兩個(gè)簇所有點(diǎn)對(duì)之間距離的平均值介于最小和最大距離法之間的折中方案Ward法Ward'sMethod最小化合并后類內(nèi)方差增量?jī)A向于形成大小相近的簇不同聯(lián)結(jié)方法的聚類效果比較單聯(lián)結(jié)(最小距離)優(yōu)點(diǎn):能夠識(shí)別非球形簇缺點(diǎn):對(duì)噪聲和離群點(diǎn)敏感,容易形成鏈狀效應(yīng)適用:不規(guī)則形狀的數(shù)據(jù)簇全聯(lián)結(jié)(最大距離)優(yōu)點(diǎn):對(duì)噪聲和離群點(diǎn)不敏感缺點(diǎn):偏向于形成大小相等的簇,可能拆分大簇適用:緊湊型數(shù)據(jù)簇均值聯(lián)結(jié)(平均距離)優(yōu)點(diǎn):折中的方案,適應(yīng)性較強(qiáng)缺點(diǎn):計(jì)算復(fù)雜度較高適用:一般數(shù)據(jù)集的首選方法Ward聯(lián)結(jié)法優(yōu)點(diǎn):傾向于形成緊湊且大小相等的簇缺點(diǎn):偏向于球形簇,不適合非歐氏距離適用:希望得到大小相近的簇第三章Stata中的層次聚類操作實(shí)用工具與操作流程Stata層次聚類基本命令1聚類命令結(jié)構(gòu)clusterlinkage[變量列表],linkage(方法)直接對(duì)變量進(jìn)行聚類分析,支持多種聯(lián)結(jié)方法single-最小距離法complete-最大距離法average-平均距離法ward-Ward最小方差法2距離矩陣聚類clustermatlinkage矩陣名,linkage(方法)對(duì)預(yù)先計(jì)算好的距離矩陣進(jìn)行聚類適用于自定義距離度量或非數(shù)值變量的情況3樹狀圖生成clusterdendrogram可選參數(shù):labels(變量)-指定樣本標(biāo)簽cutnumber(n)-指定切割數(shù)量horizontal-水平顯示showcount-顯示簇的樣本數(shù)量4生成聚類變量clustergenerate新變量=group(k)根據(jù)聚類結(jié)果生成分類變量,k為指定的類別數(shù)可用于后續(xù)分析和驗(yàn)證Stata操作流程示例數(shù)據(jù)準(zhǔn)備*導(dǎo)入數(shù)據(jù)importexcel"sample.xlsx",firstrow*標(biāo)準(zhǔn)化變量(推薦)egenzv3=std(V3)egenzv6=std(V6)egenzv7=std(V7)egenzv8=std(V8)執(zhí)行聚類分析*使用單聯(lián)結(jié)法clustersinglelinkagezv3zv6zv7zv8*或使用Ward法clusterwardslinkagezv3zv6zv7zv8*查看聚類變量editclus1生成并查看樹狀圖*基礎(chǔ)樹狀圖clusterdendrogram*帶樣本標(biāo)簽的樹狀圖clusterdendrogram,labels(V1)*指定切割為4類的樹狀圖clusterdendrogram,labels(V1)cutnumber(4)標(biāo)準(zhǔn)化變量(normalization)是層次聚類的重要預(yù)處理步驟,可以消除不同量綱帶來(lái)的影響,使各變量在聚類中的權(quán)重相當(dāng)。Stata樹狀圖解讀垂直軸:表示聚類的距離或相異度水平軸:表示各個(gè)樣本或簇分支點(diǎn):表示兩個(gè)簇的合并分支高度:表示合并時(shí)的距離要確定最佳聚類數(shù),可以:觀察樹狀圖的"自然斷點(diǎn)"尋找距離跳躍較大的合并點(diǎn)在相對(duì)高的層次切割樹狀圖切割線的位置決定了最終的聚類數(shù)量,這是層次聚類的一個(gè)重要優(yōu)勢(shì):可以在分析后靈活決定聚類數(shù)。生成聚類變量示例*生成4類分類變量clustergeneratetype1=group(4)*生成2類分類變量clustergeneratetype2=group(2)*查看結(jié)果tabulatetype1tabulatetype2*交叉表分析tabulatetype1type2生成聚類變量后,可以進(jìn)行進(jìn)一步的統(tǒng)計(jì)分析:描述性統(tǒng)計(jì):各類的特征比較方差分析:驗(yàn)證類間差異顯著性可視化分析:散點(diǎn)圖、箱線圖等聚類結(jié)果解讀示例聚類編號(hào)樣本數(shù)主要特征115高收入、高學(xué)歷群體223中等收入、中等學(xué)歷群體38低收入、高學(xué)歷群體412低收入、低學(xué)歷群體注意:聚類結(jié)果的解讀應(yīng)結(jié)合原始變量的均值、方差等統(tǒng)計(jì)特征,以確定每個(gè)類的典型特點(diǎn)。第四章Python中的層次聚類實(shí)現(xiàn)利用scikit-learn庫(kù)進(jìn)行高效聚類分析scikit-learn中的AgglomerativeClusteringPython的scikit-learn庫(kù)提供了強(qiáng)大的AgglomerativeClustering類,實(shí)現(xiàn)了凝聚型層次聚類算法。主要參數(shù):n_clusters:聚類數(shù)量affinity:距離度量方式euclidean(歐氏距離)manhattan(曼哈頓距離)cosine(余弦相似度)linkage:聯(lián)結(jié)策略wardcompleteaveragesinglecompute_full_tree:是否計(jì)算完整樹fromsklearn.clusterimportAgglomerativeClusteringimportnumpyasnpimportmatplotlib.pyplotaspltfromscipy.cluster.hierarchyimportdendrogram#創(chuàng)建聚類模型model=AgglomerativeClustering(n_clusters=4,affinity='euclidean',linkage='ward')#擬合模型并獲取聚類標(biāo)簽labels=model.fit_predict(X)#可視化聚類結(jié)果plt.scatter(X[:,0],X[:,1],c=labels,cmap='rainbow')plt.title('層次聚類結(jié)果')plt.show()Python代碼示例importnumpyasnpimportpandasaspdimportmatplotlib.pyplotaspltfromscipy.cluster.hierarchyimportdendrogram,linkagefromsklearn.preprocessingimportStandardScaler#1.數(shù)據(jù)準(zhǔn)備df=pd.read_excel("sample.xlsx")X=df[['變量1','變量2','變量3','變量4']].values#2.數(shù)據(jù)標(biāo)準(zhǔn)化scaler=StandardScaler()X_scaled=scaler.fit_transform(X)#3.計(jì)算層次聚類Z=linkage(X_scaled,method='ward')#4.繪制樹狀圖plt.figure(figsize=(12,8))dendrogram(Z,labels=df['ID'].values,leaf_rotation=90.,leaf_font_size=10.,)plt.title('層次聚類樹狀圖')plt.xlabel('樣本')plt.ylabel('距離')plt.axhline(y=6,color='r',linestyle='--')#切割線plt.tight_layout()plt.savefig('dendrogram.png',dpi=300)plt.show()#5.從樹狀圖確定聚類數(shù)后,應(yīng)用聚類fromsklearn.clusterimportAgglomerativeClusteringmodel=Agglomerati

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論