版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第7章大數(shù)據(jù)分析中的四種常見聚類算法7.1大數(shù)據(jù)分析聚類算法概述7.2K均值聚類算法7.3基于密度的DBSCAN聚類方法7.4高斯混合模型聚類算法7.5層次聚類算法7.1大數(shù)據(jù)分析聚類算法概述7.1.1聚類分析的相關(guān)概念及應(yīng)用場景1.聚類分析的概念聚類分析(ClusterAnalysis)又稱群分析,它是研究(樣品或指標(biāo))分類問題的一種統(tǒng)計分析方法,同時也是數(shù)據(jù)挖掘的一個重要算法。聚類分析也就是將一些具有相似性質(zhì)的數(shù)據(jù)劃分到一起,得到多個具有不同性質(zhì)的數(shù)據(jù)類集合。從數(shù)據(jù)挖掘的角度看,聚類分析可以大致分為以下四種。1)劃分聚類2)層次聚類3)基于密度的聚類4)基于網(wǎng)格的聚類第7章大數(shù)據(jù)分析中的四種常見聚類算法7.1大數(shù)據(jù)分析聚類算法概述7.1.1聚類分析的相關(guān)概念及應(yīng)用場景2.聚類算法應(yīng)用場景1)基于用戶位置信息的商業(yè)選址 2)中文地址標(biāo)準(zhǔn)化處理3)非人惡意流量識別 4)國家電網(wǎng)用戶畫像5)求職信息完善 6)搜索引擎查詢聚類以進(jìn)行流量推薦7)保險投保者分組 8)生物種群固有結(jié)構(gòu)認(rèn)知9)圖像分割 10)網(wǎng)站關(guān)鍵詞整合第7章大數(shù)據(jù)分析中的四種常見聚類算法7.1大數(shù)據(jù)分析聚類算法概述7.1.2聚類算法運行基礎(chǔ):簇與距離度量聚類算法中,將數(shù)據(jù)集中的樣本劃分為若干個不相交的子集,每個子集即為一個簇(樣本簇或類別)。距離度量的方法主要包括以下一些。1.閔可夫斯基距離 2.曼哈頓距離3.歐式距離 4.切比雪夫距離5.馬氏距離 6.余弦相似度7.皮爾遜相關(guān)系數(shù) 8.漢明距離9.杰卡德相似系數(shù) 10.編輯距離11.動態(tài)時間歸整距離第7章大數(shù)據(jù)分析中的四種常見聚類算法7.2K均值聚類算法7.2.1基于劃分的K均值聚類算法K均值聚類算法(K-MeansClusteringAlgorithm),也叫K-means聚類算法,它屬于無監(jiān)督學(xué)習(xí),其樣本所屬的類別是未知的,只是根據(jù)特征將樣本分類,且類別空間也由人為需要而選定。K-means聚類算法的思想是最小化所有樣本到所屬類別中心的歐式距離和,采用迭代的方式實現(xiàn)收斂。K-means聚類算法是最著名的劃分聚類算法,它的特點是簡潔和效率高,因此它作為聚類算法中主要采用的方法而被廣泛使用。第7章大數(shù)據(jù)分析中的四種常見聚類算法7.2K均值聚類算法7.2.2二分K均值聚類算法運行原理二分K均值(Bisecting?K-means)聚類算法是基于經(jīng)典K-均值算法實現(xiàn)的,作為K-means聚類算法的改進(jìn)算法,其調(diào)用經(jīng)典K-均值(k=2),把一個聚簇分成兩個,迭代到分成k個停止。第7章大數(shù)據(jù)分析中的四種常見聚類算法7.3基于密度的DBSCAN聚類方法7.3.1DBSCAN算法原理解析1.DBSCAN算法的相關(guān)定義DBSCAN(密度聚類)算法可以解決不規(guī)則形狀聚類,它是一種具有代表性的基于密度的聚類算法。DBSCAN算法不同于劃分和層次聚類方法,它將簇定義為密度相連的點的最大集合,能夠把具有足夠高密度的區(qū)域劃分為簇,并可在噪聲的空間數(shù)據(jù)庫中發(fā)現(xiàn)任意形狀的聚類。2.DBSCAN算法的思想DBSCAN使用的方法很簡單,它任意選擇一個沒有類別的核心對象,然后找到由這個對象密度可達(dá)的所有樣本組成的集合,這個集合即為一個滿足連接性與最大性的聚類簇。接著選擇另一個沒有類別的核心對象,以同樣的方法得到另一個聚類簇,這樣一直執(zhí)行到所有核心對象都有類別為止。第7章大數(shù)據(jù)分析中的四種常見聚類算法7.3基于密度的DBSCAN聚類方法7.3.2DBSCAN算法的基本運行流程第7章大數(shù)據(jù)分析中的四種常見聚類算法7.4高斯混合模型聚類算法7.4.1GMM算法原理分析第7章大數(shù)據(jù)分析中的四種常見聚類算法二維高斯數(shù)據(jù)分布圖混合高斯分布產(chǎn)生的數(shù)據(jù)用單高斯模型對樣本進(jìn)行分析的結(jié)果用混合高斯模型對數(shù)據(jù)樣本進(jìn)行分析的結(jié)果7.4高斯混合模型聚類算法7.4.2GMM的最大期望算法GMM的最大期望算法即EM算法(ExpectationMaximizationAlgorithm,又叫期望最大化算法),是一種迭代算法,用于含有隱變量(LatentVariable)的概率參數(shù)模型的最大似然估計或極大后驗概率估計。由于迭代規(guī)則容易實現(xiàn)并可以靈活考慮隱變量,EM算法被廣泛應(yīng)用于處理數(shù)據(jù)的缺測值,以及很多機器學(xué)習(xí)算法,包括GMM和隱馬爾可夫模型(HiddenMarkovModel,HMM)的參數(shù)估計。第7章大數(shù)據(jù)分析中的四種常見聚類算法7.5層次聚類算法7.5.1層次聚類算法的算法思想層次聚類算法是對給定的數(shù)據(jù)集進(jìn)行層次的分解,直到某種條件滿足為止。層次聚類算法的基本思想是:通過某種相似性測度計算節(jié)點之間的相似性,并按相似度由高到低排序,逐步重新連接每個節(jié)點。該方法的優(yōu)點是可隨時停止劃分。主要步驟如下:(1)移除網(wǎng)絡(luò)中的所有邊,得到有n個孤立節(jié)點的初始狀態(tài);(2)計算網(wǎng)絡(luò)中每對節(jié)點的相似度;(3)根據(jù)相似度從強到弱連接相應(yīng)節(jié)點對,形成樹狀圖;(4)根據(jù)實際需求橫切樹狀圖,獲得社區(qū)結(jié)構(gòu)。第7章大數(shù)據(jù)分析中的四種常見聚類算法7.5層次聚類算法7.5.2層次聚類算法的運行原理層次聚類算法可分為凝聚和分裂兩種方法。1.凝聚的層次聚類算法凝聚的層次聚類算法是一種自底向上的策略,首先將每個對象作為一個簇,然后合并這些原子簇為越來越大的簇,直到所有的對象都在一個簇中,或者某個終結(jié)條件被滿足。2.分裂的層次聚類算法分裂的層
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026廣東廣州市天河區(qū)東風(fēng)實驗小學(xué)招聘語文數(shù)學(xué)音樂教師考試參考題庫及答案解析
- 2026年六安職業(yè)技術(shù)學(xué)院單招綜合素質(zhì)筆試備考試題含詳細(xì)答案解析
- 2026年西安電力高等專科學(xué)校單招綜合素質(zhì)筆試備考試題含詳細(xì)答案解析
- 2026年遼寧機電職業(yè)技術(shù)學(xué)院單招綜合素質(zhì)筆試備考試題含詳細(xì)答案解析
- 2026年湖南外貿(mào)職業(yè)學(xué)院單招綜合素質(zhì)考試參考題庫含詳細(xì)答案解析
- 2026年泉州師范學(xué)院單招綜合素質(zhì)考試備考題庫含詳細(xì)答案解析
- 2026年湖南外國語職業(yè)學(xué)院單招職業(yè)技能考試模擬試題含詳細(xì)答案解析
- 2026年新疆建設(shè)職業(yè)技術(shù)學(xué)院單招綜合素質(zhì)考試備考試題含詳細(xì)答案解析
- 2026年安徽國際商務(wù)職業(yè)學(xué)院單招綜合素質(zhì)考試參考題庫含詳細(xì)答案解析
- 2026年重慶科技職業(yè)學(xué)院單招綜合素質(zhì)考試備考題庫含詳細(xì)答案解析
- 中廣核新能源(深圳)有限公司招聘筆試題庫2026
- 信息化系統(tǒng)運維與支持手冊(標(biāo)準(zhǔn)版)
- 2026屆天津市西青區(qū)數(shù)學(xué)高三第一學(xué)期期末聯(lián)考模擬試題含解析
- 學(xué)校桌椅采購項目質(zhì)量保障方案
- 高考英語讀后續(xù)寫片段小練習(xí)(中英對照+模板套用)
- 嘉賓邀請合同書
- 華電集團企業(yè)介紹
- 2025年AI時代的技能伙伴報告:智能體、機器人與我們(英文版)
- 消除艾滋病、梅毒和乙肝母嬰傳播鄉(xiāng)村醫(yī)生培訓(xùn)會-課件
- 2025年城市更新改造項目經(jīng)濟效益評估可行性研究報告
- 消防知識培訓(xùn)錦旗課件
評論
0/150
提交評論