機器學習原理與應用課件 第9章 K均值聚類_第1頁
機器學習原理與應用課件 第9章 K均值聚類_第2頁
機器學習原理與應用課件 第9章 K均值聚類_第3頁
機器學習原理與應用課件 第9章 K均值聚類_第4頁
機器學習原理與應用課件 第9章 K均值聚類_第5頁
已閱讀5頁,還剩25頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第9章

K均值聚類1學習目標了解K-Means聚類的基本原理掌握利用Scikit-learn庫進行K均值聚類基本方法122目錄頁39.1基本原理9.2應用實例K均值聚類9.1基本原理聚類是指以“同類樣本相似度高而異類樣本相似度低”為基本準則將樣本自動分成若干個類別的過程,屬于無監(jiān)督學習(即無類別標記)。如圖9-1所示,相似度較高或在特征空間距離較近的樣本通常聚集成簇,因而,通過判別樣本之間的相似度可將其分成指定數量的類別。類內樣本相似性越大、類間樣本相似性越低,則聚類效果越好。4圖9-1聚類示例

9.1.1基本概念

5

9.1.1基本概念K均值聚類的基本步驟如下:步驟1:隨機選擇K個樣本作為初始聚類中心。步驟2:計算每個樣本到K個聚類中心的距離,選擇距離其最近的聚類中心所屬類別作為當前樣本的類別直至所有樣本點分類完畢。步驟3:根據K個類別中的樣本計算相應均值并作為新的聚類中心。步驟4:重復步驟3~4直至每類的聚類中心或樣本不再變化。6

9.1.1基本概念以“將5個樣本分為兩類”為例進一步描述K均值聚類的過程。①隨機選擇2個樣本作為聚類中心。如圖(a)所示。②將距離聚類中心最近的樣本分至相應的類別。如圖(b)所示。③計算每類樣本的均值以作為新的聚類中心并更新每類的樣本。如圖(c)所示。④重復步驟3時發(fā)現無樣本,因而聚類結束。如圖(d)所示。7

(a)選取聚類中心(b)劃分類別(c)計算均值(d)重復計算均值直至無樣本更新9.1.2評價標準(1)類內樣本聚合度樣本到距離其最近的聚類中心之間的距離之和,其值越小,表明類內樣本越聚集,因而分類效果越好。在Scikit-learn庫中,此指標可通過K均值聚類對象的inertia_屬性獲取。89.1.2評價標準

99.1.2評價標準

109.1.3擴展類型(1)DBSCAN聚類DBSCAN(Density-BasedSpatialClusteringofApplicationswithNoise)是一種基于密度的聚類算法。其思想是將簇定義為密度相連的點的最大集合,能夠將具有足夠高密度的區(qū)域劃分為簇,并可在噪聲的空間數據庫中發(fā)現任意形狀的聚類。119.1.3擴展類型DBSCAN算法描述:輸入:數據集,鄰域半徑Eps,鄰域中數據對象數目閾值MinPts。輸出:密度聯通簇。①從數據庫中抽出一個未處理的點;②如果對于參數Eps和MinPts,抽出的點是核心點,則找出所有從該點密度相連的對象,形成一個簇;③若抽出的點是邊緣點(非核心對象),尋找另一個點;④重復步驟②和③,直到所有的點都被處理。129.1.3擴展類型(2)層次聚類層次聚類(HierarchicalClustering)是一種基于原型的聚類算法,通過某種相似性測度計算節(jié)點之間的相似性,并按相似度由高到低排序,逐步重新連接各個節(jié)點。139.1.3擴展類型層次聚類算法描述:①移除網絡中的所有邊,得到有n個孤立節(jié)點。②計算網絡中每對節(jié)點的相似度。③根據相似度從強到弱連接相應節(jié)點對,形成樹狀圖。④根據實際需求橫切樹狀圖,獲得社區(qū)結構。149.1.3擴展類型(3)Mini-BatchK-均值Mini-BatchK-均值使用了MiniBatch(分批處理)的方法對數據點之間的距離進行計算,是K-均值的修改版本,計算過程中使用小批量數據樣本而不必使用所有的數據樣本對群集質心進行更新,提高了大數據集的更新速度,并且可能對統(tǒng)計噪聲更健壯。Mini-BatchK-均值算法描述如下。①從數據集中隨機抽取一些數據形成小批量,把它們分配給最近的質心。②更新質心。159.2應用實例利用Scikit-learn庫中K均值聚類模塊引入方法如下:fromsklearn.clusterimportKMeans函數原型如下:KMeans(n_clusters=8,init='k-means++',n_init=10,max_iter=300,tol=0.0001,precompute_distances='auto',verbose=0,random_state=None,copy_x=True,n_jobs=1,algorithm='auto')169.2.1參數分析均值聚類算法重要的參數為K值,本例利用部法則確定最優(yōu)K值并不同度量標準對模型的性能進行分析。(1)問題描述利用K均值聚類算法對make_blobs數據行聚類,具體要求如下:①利用肘部法則確定最優(yōu)K值。②采用三種聚類度量標準比較最優(yōu)K值與非最優(yōu)K值時的聚類效果。③繪制最優(yōu)K值時聚類效果。(2)編程實現見9.2.1參數分析.py17

8.2.1參數分析(3)結果分析聚合度(K=3):276.0896109598088輪廓系數(K=3):0.5242733767166292Calinski-Harabasz值(K=3):1140.3741744702536聚合度(K=4):155.4680451324735輪廓系數(K=4):0.5805348965200624Calinski-Harabasz值(K=4):1475.656378279951218

8.2.1參數分析(3)結果分析19(a)最優(yōu)K值確定(b)聚類結果可視化9.2.2文本聚類文本聚類是指在不需要預先指定類別的情況下將相似的文本歸為同一類別,可以從海量的文本數據中提取有價值的信息,在信息檢索、新聞推薦等自然語言處理領域中具有重要的應用價值。(1)問題描述已知句子集合,利用K均值聚類算法對句子進行聚類,具體要求如下:①統(tǒng)計不同的單詞及出現的次數(生成詞頻矩陣)。②根據詞頻矩陣轉換為TF-IDF值構成的樣本。③利用主成分分析算法對樣本進行降維處理。④對樣本進行聚類并輸出相應的聚類結果。(2)編程實現見9.2.2文本聚類.py20

9.2.2文本聚類(3)結果分析樣本基本信息:(14,50)樣本基本信息(PCA):(14,13)聚類結果:[21222210111212]第1類:Ipromise.第2類:Whatareyougoingtodo?Youlookbeautifultonight.Howgreatyouare!Igotsickandtiredofhotels.IamsorryItooksolongtoreply.Whenareyoufree?21第3類:Gotit!Anidleyouth,aneedyage.Hehasalargeincome.Howbluetheskyis!Whatisontheschedulefortoday?Ihopeeverythingisallright.Whatareyouinthemoodfor?

9.2.2文本聚類(3)結果分析根據實驗結果可知,所有句子共包含50個不同的單詞,因而通過詞頻統(tǒng)計與TF-IDF值處理后生成14行50列的樣本集。在此基礎上,通過主成分分析后生成14行13列的樣本集并以此構建句子分類模型以實現句子的分類。整體上而言,由于K均值聚類算法的精度受K值的影響較大,不同的K值將導致不同的聚類結果;此外,對于文本分類問題,僅利用詞頻特征進行求解,通常并不易獲得較高的精度,在精度要求較高的場合中往往需要進一步融合文本語義、詞語相關性等特征。229.2.3睡眠障礙預測隨著人們生活節(jié)奏的加快及生活壓力的增加,不規(guī)則的睡眠時長、體重偏胖、心率不穩(wěn)定、運動量較少等因素往往易導致睡眠障礙病癥。利用相關數據預測睡眠障礙病癥發(fā)生的可能性有助于人們提前做好防患,提高健康水平與生活質量。(1)問題描述已知影響睡眠障礙(Y:SleepDisorder)的相關因素包括睡眠時長(F1:SleepDuration)、BMI類別(F2:BMICategory)、心率(F3:HeartRate)與每天行走步數(F4:DailySteps),利用如表9-2所示數據構建睡眠障礙預測模型以對人們是否存在睡眠障礙進行預測(Y取值None、SleepApnea與Insomnia分別表示高、中與低三種類別的適應度),具體要求如下:①分析不同特征與睡眠障礙之間的關系。②對不同特征之間的相關性進行可視化與分析。③確定最優(yōu)聚類數并構建睡眠障礙分類模型。④測試原特征與主成分分析生成的新特征相應的睡眠障礙分類模型的精度。23

9.2.3睡眠障礙預測(2)編程實現見9.2.3睡眠障礙預測.py(3)結果分析預測精度:0.575預測精度(PCA):0.5524

9.2.3睡眠障礙預測(3)結果分析25(a)心率與睡眠障礙之間的關系(b)每日運動量與睡眠障礙之間的關系(c)BMI與睡眠障礙之間的關系

(d)特征相關性

(e)利用肘部法則確定最優(yōu)K值

9.2.4圖像顏色聚類圖像顏色聚類旨在將圖像中像素對應的顏色劃分為指定的類別,進而可以較少的顏色信息表達圖像主體內容;在效果上,同一類別的顏色可能對應圖像中多個圖像區(qū)域。圖像顏色聚類與計算機視覺領域中的圖像過分割較為相似,但后者同時考慮到圖像中像素的顏色與位置信息,最終將圖像中具有相近顏色與位置特征的像素劃分為一個超像素或圖像區(qū)域,不同超像素或圖像區(qū)域具有不同的顏色與位置特征。26

9.2.4圖像顏色聚類(1)問題描述對指定圖像中像素的顏色進行聚類,具體要求如下:①將圖像中全部像素的顏色劃分為8類并生成新圖像,比較新圖像與原圖像之間的差異。②隨機從圖像中抽取指定數量像素的顏色并劃分為8類,然后生成新圖像以比較其與原圖像之間的差異。③比較以下兩種圖像聚類方法所用時間的差異。(2)編程實現見9.2.4圖像顏色聚類.py279.2.4圖像顏色聚類(3)結果分析Time(all_samples):0.99s.Time(subset_samples):0.54s.28(a)原始圖像

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論