版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
4.5常用聚類算法1.聚類算法概述2.K-Means聚類3.層次聚類4.DBSCAN5.均值漂移6.高斯混合模型(GMM)1.聚類算法概述定義:聚類是一種無監(jiān)督學習方法,旨在將數據集中的樣本劃分為若干組(簇),使得同一簇內的樣本相似度高,不同簇之間的樣本相似度低。特點:不依賴標簽;基于數據內在結構;廣泛應用于數據挖掘、圖像分割、市場細分等領域。2.K-Means聚類核心思想:將數據劃分為K個簇,每個簇通過最小化簇內樣本到質心的距離平方和來定義。目標函數為最小化所有點到其所屬簇中心的距離平方和其中,Ci是第i個簇,是第i個簇的中心。注釋:K-Means可以理解為將數據分成K個組,盡量讓每組內部的數據點盡可能接近彼此,而不同組的數據點盡可能遠離。算法步驟:1.隨機選擇K個初始質心2.將每個點分配到最近的質心所在的簇3.重新計算每個簇的質心4.重復步驟2-3直到質心穩(wěn)定或達到最大迭代次數優(yōu)點:簡單高效;適用于大規(guī)模數據。缺點:需預先指定K值;對初始質心敏感;對非球形簇效果差。應用場景:客戶分群;圖像壓縮;市場細分。例4.6設有一個二維數據集如下,使用K-means聚類算法將數據分為兩個簇(k=2)。解
隨機選定兩個初始質心μ1=(2,2)和μ2=(7,7),然后按照K-means算法進行迭代。(1)初始質心和數據點分配:質心μ1
=(2,2),μ2=(7,7)數據點(1,2),(2,3),(3,3)屬于質心μ1
,數據點(6,6),(7,7),(8,8)屬于質心μ2。(2)更新質心:計算每個簇的均值作為新的質心
(3)迭代更新:繼續(xù)執(zhí)行分配和更新步驟,直到質心不再發(fā)生變化或達到預定的迭代次數。特征(x1)特征(x2)1236782336783.層次聚類核心思想:通過構建樹狀結構(樹狀圖)遞歸地合并或分裂簇,形成聚類的層次結構。類型:凝聚式(自底向上);分裂式(自頂向下)。優(yōu)點:無需指定簇數;可可視化層次關系。缺點:計算復雜度高;對噪聲敏感。應用場景:生物信息學(基因表達分析);社交網絡分析(社區(qū)發(fā)現)。例
將5個點(A-E)按距離聚類。
數據:A(2,3);B(3,7);C(8,8);D(9,4);E(1,2)過程(自底向上):
這是上述層次聚類過程對應的文本樹狀圖。1.找最近:A和E最近,合并為簇1{A,E}2.再找最近:B距簇1最近,合并為簇2{A,E,B}3.繼續(xù)合并:C和D最近,合并為簇3{C,D}4.最終合并:
簇2與簇3合并為簇4{A,B,C,D,E}結果:
樹狀圖清晰展示了從5個點逐步聚為一類的全過程。4.DBSCAN(基于密度的聚類,Density-BasedSpatialClusteringofApplicationswithNoise)核心思想:通過識別高密度區(qū)域形成簇,并能識別噪聲點。相關概念ε(Epsilon)鄰域:
以某個數據點為中心、半徑為ε的圓形區(qū)域。MinPts(MinimumPoints):
定義一個“稠密區(qū)域”所需的最小點數。核心點(CorePoint):
如果一個點的ε鄰域內至少包含MinPts個點(包括自己),則該點為核心點。例如,如果MinPts=5,一個點在其ε半徑內有5個或更多的點,它就是核心點。邊界點(BorderPoint):
如果一個點的ε鄰域內包含的點數少于MinPts個,但它落在某個核心點的鄰域內,則該點為邊界點。噪聲點(NoisePoint/Outlier):
既不是核心點也不是邊界點的點。它們不在任何核心點的密度范圍內。DBSCAN核心步驟1.標記所有點為“未訪問”。2.隨機選一個“未訪問”的點P。3.檢查鄰居:看P周圍半徑ε內有沒有至少MinPts個點。如果不夠
→
把P標記為
噪聲。如果足夠
→
把P定為一個
核心點,并用它
創(chuàng)建一個新簇。4.擴張地盤:把這個核心點P的所有鄰居都拉進新簇里。然后對這些鄰居中的每一個點,重復
第3步
的操作:如果它也是核心點(鄰居多),就把它的鄰居也拉進來。如此循環(huán),直到這個簇再也無法擴大。5.重復循環(huán):回到第2步,找下一個“未訪問”的點,重復過程,直到所有點都被處理過。5.均值漂移(MeanShift)核心思想:通過迭代將點向密度更高的區(qū)域移動,最終形成簇。步驟1.初始化:為數據集中的每一個點,都創(chuàng)建一個副本作為“當前點”。2.移動點:對于每一個“當前點”:計算它在一個固定半徑(帶寬)范圍內的所有鄰居點的均值中心(質心)。將這個“當前點”移動到那個均值中心的位置。3.重復:不斷重復第2步,直到所有“當前點”的移動距離都非常?。ㄊ諗浚?。4.歸類:所有最終收斂到同一個均值中心的原始點,被歸為同一個簇。優(yōu)點:無需指定簇數;適應復雜形狀的簇。缺點:計算量大;對帶寬參數敏感。應用場景:圖像分割;目標跟蹤;移動通信基站優(yōu)化。5.均值漂移(MeanShift)6.高斯混合模型(GaussianMixtureModel,GMM)核心思想:假設數據由多個高斯分布混合生成,通過EM(期望最大化)算法估計每個分布的參數。通俗步驟1.先隨便猜幾個鐘形曲線(高斯分布)的位置和大小。2.E步:對每個點,算它由每個鐘形曲線生成的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 家庭果樹出售合同范本
- 開工慶典禮儀合同范本
- 廣州直租商鋪合同范本
- 崇明恒溫配送合同范本
- 底商托管服務合同范本
- 平面廣告工程合同范本
- 大米委托加工合同范本
- 審計收費標準合同范本
- 八年級生物上冊第三單元第四章第二節(jié)蒸騰作用教案冀少版(2025-2026學年)
- 部編三年級語文上冊灰雀教案套(2025-2026學年)
- 2025年藥學統(tǒng)計學試題及答案
- 新疆維吾爾自治區(qū)阿克蘇地區(qū)阿克蘇市2024-2025學年九年級上學期1月期末英語試題
- 電煤銷售合同范本
- 商場招商人員述職報告
- 180th燃煤鍋爐整體設計
- 工程倫理-形考任務四(權重20%)-國開(SX)-參考資料
- 工傷的事故調查報告
- 酒店年終總結匯報
- 《無人機地面站與任務規(guī)劃》 課件 第1-5章 概論 -無人機航測任務規(guī)劃與實施
- 道路工程樣板引路方案(3篇)
- 員工年度考核證明模板范本
評論
0/150
提交評論