版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第7章聚類分析K均值(K-Means)聚類方法算法原理屬于劃分聚類分割方法基本思想:給定一個具有n個數(shù)據(jù)元素的數(shù)據(jù)集,通過分割的方法對其進(jìn)行劃分,構(gòu)造k個分組(k<n),每一個分組即為一個聚類。滿足下列條件:①每一個分組至少包含一個數(shù)據(jù)元素;②每一個數(shù)據(jù)元素屬于且僅屬于一個分組。也稱為簇2算法原理基本思想:給定一個具有n個數(shù)據(jù)元素的數(shù)據(jù)集,通過分割的方法對其進(jìn)行劃分,構(gòu)造k個分組(k<n),每一個分組即為一個聚類。3算法認(rèn)為,聚類后得到的簇,應(yīng)由較為相似的對象組成,因此算法將得到緊湊且獨立的簇作為算法的過程和目標(biāo)。算法原理4k=3
,?
任意劃分3個簇緊湊更靠近簇質(zhì)心計算質(zhì)心指派對象計算質(zhì)心指派對象反復(fù)迭代隨機(jī)指派質(zhì)心K-means選擇初始質(zhì)心將數(shù)據(jù)點指派到初始質(zhì)心(SSE=305)第1次迭代:重新計算質(zhì)心,并將數(shù)據(jù)點指派到質(zhì)心(SSE=268)第2次迭代:重新計算質(zhì)心并指派到質(zhì)心(SSE=264)第3次,重新計算質(zhì)心并指派.最終結(jié)果(SSE=262)第4次,質(zhì)心不再變化,得到最終結(jié)果(SSE=262)迭代終止條件:質(zhì)心不再變化;或2)SSE不再變優(yōu)。SSE–目標(biāo)函數(shù)聚類就是使目標(biāo)函數(shù)最優(yōu)的過程。5[例]基本過程例中,二維數(shù)據(jù)距離:歐幾里得距離計算質(zhì)心點坐標(biāo):指定到同一個簇的數(shù)據(jù)點(x、y
)坐標(biāo)平均值6算法過程對于給定的k,指定初始質(zhì)心,完成初始聚類,并通過反復(fù)迭代的方法對聚類結(jié)果進(jìn)行調(diào)整,使得每次調(diào)整后的聚類結(jié)果均比前一次好。“好”,是指簇的內(nèi)聚性大,簇間的耦合性小。通常會用設(shè)置一個指標(biāo)來進(jìn)行衡量。將數(shù)據(jù)元素指派給相距“距離”最小的簇,簇的代表為質(zhì)心。7基本算法過程8選擇適當(dāng)?shù)某跏假|(zhì)心是基本K-Means算法的關(guān)鍵步驟。選擇不同的質(zhì)心,聚類的結(jié)果也有所不同。
如何選擇初始質(zhì)心?【算法】K-means聚類算法1:選擇k個點作為初始的質(zhì)心2:repeat3:將每個點指派到最近的質(zhì)心,形成k個簇4:重新計算每個簇的質(zhì)心5:until質(zhì)心不發(fā)生變化基本算法過程1.隨機(jī)選擇質(zhì)心【算法】K-means聚類算法1:選擇k個點作為初始的質(zhì)心2:repeat3:將每個點指派到最近的質(zhì)心,形成k個簇4:重新計算每個簇的質(zhì)心5:until質(zhì)心不發(fā)生變化9基本算法過程10基本算法過程SSE較大11基本算法過程1.隨機(jī)選擇質(zhì)心隨機(jī)地指定k個點作為初始質(zhì)心點,但是簇的質(zhì)量常常不高。【算法】K-means聚類算法1:選擇k個點作為初始的質(zhì)心2:repeat3:將每個點指派到最近的質(zhì)心,形成k個簇4:重新計算每個簇的質(zhì)心5:until質(zhì)心不發(fā)生變化12基本算法過程對于非監(jiān)督的聚類,初始質(zhì)心點的個數(shù)k也是決定聚類結(jié)果的關(guān)鍵因素簇的數(shù)量越多,SSE會達(dá)到更小13(a)選擇初始質(zhì)心(SSE=3555)……(b)第2次迭代(SSE=2154)(c)最終結(jié)果(SSE=1828)k
=4基本算法過程1.隨機(jī)選擇質(zhì)心隨機(jī)地指定k個點作為初始質(zhì)心點,但是簇的質(zhì)量常常不高。2.最小誤差平方和SSE法多次運行,每次使用一組不同的隨機(jī)初始質(zhì)心,然后選取具有最小SSE(誤差的平方和)的簇集?!舅惴ā縆-means聚類算法1:選擇k個點作為初始的質(zhì)心2:repeat3:將每個點指派到最近的質(zhì)心,形成k個簇4:重新計算每個簇的質(zhì)心5:until質(zhì)心不發(fā)生變化14基本算法過程1.隨機(jī)選擇質(zhì)心2.最小誤差平方和SSE法3.層次聚類法使用層次聚類技術(shù)對樣本進(jìn)行聚類,從聚類結(jié)果中提取k個簇,并以這些簇的質(zhì)心為初始質(zhì)心。方法通常很有效,但僅限于樣本相對較?。▽哟尉垲愰_銷較大)而且k相對于樣本大小較小的情況。【算法】K-means聚類算法1:選擇k個點作為初始的質(zhì)心2:repeat3:將每個點指派到最近的質(zhì)心,形成k個簇4:重新計算每個簇的質(zhì)心5:until質(zhì)心不發(fā)生變化15基本算法過程1.隨機(jī)選擇質(zhì)心2.最小誤差平方和SSE法3.層次聚類法4.離散質(zhì)心法①隨機(jī)地選擇或選取所有點的質(zhì)心作為第一個初始質(zhì)心。②
每個后繼初始質(zhì)心,選擇離已經(jīng)選取過的初始質(zhì)心最遠(yuǎn)的點。確保選擇的初始質(zhì)心不僅是隨機(jī)的,且是散開的??赡苓x中離群點,且求離當(dāng)前初始質(zhì)心集最遠(yuǎn)的點開銷也非常大?!舅惴ā縆-means聚類算法1:選擇k個點作為初始的質(zhì)心2:repeat3:將每個點指派到最近的質(zhì)心,形成k個簇4:重新計算每個簇的質(zhì)心5:until質(zhì)心不發(fā)生變化16基本算法過程17準(zhǔn)則:迭代次數(shù)達(dá)到一定次數(shù)質(zhì)心的變化距離<ε【算法】K-means聚類算法1:選擇k個點作為初始的質(zhì)心2:repeat3:將每個點指派到最近的質(zhì)心,形成k個簇4:重新計算每個簇的質(zhì)心5:until質(zhì)心不發(fā)生變化基本算法過程變化:二分k均值算法是基本k均值算法的直接擴(kuò)充。步驟:將所有點的集合分裂成兩個簇從現(xiàn)有簇中選取一個繼續(xù)分裂重復(fù)步驟②此下去,
直到產(chǎn)生k
個簇18初始化簇表,包含由所有的點組成的簇repeat
從簇表中取出一個簇
for
i=1to
n(實驗次數(shù))
do
使用基本k均值,二分選定的簇
end
for
選擇n個結(jié)果中總SSE最小的二分簇將這兩個簇添加到簇表中until
簇表中包含k個簇。算法特點對
k值較為敏感k=2k=4k=3k=4不同的距離初始值對同樣的數(shù)據(jù)樣本可能得到不同的結(jié)果事先判斷簇的劃分個數(shù)非常困難并往往帶有很大的隨意性19算法特點對離群點、噪聲敏感有離群點k=2離群點導(dǎo)致:SSE高,質(zhì)心代表性變差如何識別、如何處理20算法特點對離群點、噪聲敏感無離散點的聚類迭代過程有離散點的聚類迭代過程21算法特點不能處理非球形簇原始數(shù)據(jù)k=2k=4k=322算法特點不能處理不同尺寸的簇k=2k=423算法特點不能處理不同尺寸的簇k=3k=424算法特點不能處理不同密度的簇原始數(shù)據(jù)K=225算法特點計算開銷大需要迭代進(jìn)行數(shù)據(jù)點之間的鄰近度計算,以調(diào)整質(zhì)心并指派到簇。當(dāng)數(shù)據(jù)量較大時,算法的時間開銷非常大算法簡單,易于理解二分k均值等變種算法運行良好,不受初始化問題的影響26一些問題空簇所有的點在指派時都沒有分配到某簇,就會得到空簇解決:選擇一個替補質(zhì)心找一個距當(dāng)前任何質(zhì)心最遠(yuǎn)的點從最大SSE簇中選一個替補質(zhì)心,繼續(xù)分裂簇,降低SSE27一些問題后處理降低簇SSE進(jìn)一步分裂簇(選SSE最大的簇)引進(jìn)一個新的質(zhì)心(選離所有簇質(zhì)心最遠(yuǎn)的點)拆散一個簇(刪除其質(zhì)心,重新指派其中的點)合并兩個簇增量地更新質(zhì)心在點到簇
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年上饒市廣信區(qū)人民法院公開招聘勞務(wù)派遣工作人員14人備考題庫及一套參考答案詳解
- 2026福建泉州市豐澤區(qū)實驗小學(xué)(東涂校區(qū))招聘春季校聘教師筆試重點題庫及答案解析
- 2025年紹興市中等專業(yè)學(xué)校合同制工作人員(融媒體工作技術(shù)員)招聘備考題庫及參考答案詳解一套
- 2025-2026 學(xué)年高二 歷史 期末沖刺卷 試卷及答案
- 2025江西中贛投設(shè)計本部招聘6人【社招】考試核心試題及答案解析
- 2025四川大學(xué)華西公共衛(wèi)生學(xué)院華西第四醫(yī)院 臨床護(hù)士招聘6人參考筆試題庫附答案解析
- 《金融科技支付清算體系在支付清算行業(yè)中的支付清算監(jiān)管挑戰(zhàn)與發(fā)展趨勢分析》教學(xué)研究課題報告
- 內(nèi)江市公安局高新技術(shù)開發(fā)區(qū)分局2025年第三次招聘警務(wù)輔助人員備考題庫及一套答案詳解
- 2026中國農(nóng)業(yè)科學(xué)院第一批統(tǒng)一招聘(中國農(nóng)科院茶葉研究所)筆試重點試題及答案解析
- 2025年農(nóng)產(chǎn)品深加工產(chǎn)品質(zhì)量與安全保障報告
- 2025年秋人教版(2024)初中美術(shù)七年級上冊期末知識點復(fù)習(xí)卷及答案
- 2025年高校行政面試題及答案
- 調(diào)車服務(wù)合同范本
- 2025年新《中國傳統(tǒng)文化》考試復(fù)習(xí)題(附答案)
- 醫(yī)保支付改革與科室績效激勵性調(diào)整策略
- 貨車掛靠租賃協(xié)議書
- 雨課堂學(xué)堂在線學(xué)堂云《English for Presentations at International Medical Conferences》單元測試考核答案
- 形勢與政策(吉林大學(xué))智慧樹知到答案2024年吉林大學(xué)
- 藥房藥品安全管理月檢查表
- 建筑工程合同中英文版
- YY∕T 0962-2021 整形手術(shù)用交聯(lián)透明質(zhì)酸鈉凝膠
評論
0/150
提交評論