版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第9章
K均值聚類1學(xué)習(xí)目標(biāo)了解K-Means聚類的基本原理掌握利用Scikit-learn庫(kù)進(jìn)行K均值聚類基本方法122目錄頁(yè)39.1基本原理9.2應(yīng)用實(shí)例K均值聚類9.1基本原理聚類是指以“同類樣本相似度高而異類樣本相似度低”為基本準(zhǔn)則將樣本自動(dòng)分成若干個(gè)類別的過(guò)程,屬于無(wú)監(jiān)督學(xué)習(xí)(即無(wú)類別標(biāo)記)。如圖9-1所示,相似度較高或在特征空間距離較近的樣本通常聚集成簇,因而,通過(guò)判別樣本之間的相似度可將其分成指定數(shù)量的類別。類內(nèi)樣本相似性越大、類間樣本相似性越低,則聚類效果越好。4圖9-1聚類示例
9.1.1基本概念
5
9.1.1基本概念K均值聚類的基本步驟如下:步驟1:隨機(jī)選擇K個(gè)樣本作為初始聚類中心。步驟2:計(jì)算每個(gè)樣本到K個(gè)聚類中心的距離,選擇距離其最近的聚類中心所屬類別作為當(dāng)前樣本的類別直至所有樣本點(diǎn)分類完畢。步驟3:根據(jù)K個(gè)類別中的樣本計(jì)算相應(yīng)均值并作為新的聚類中心。步驟4:重復(fù)步驟3~4直至每類的聚類中心或樣本不再變化。6
9.1.1基本概念以“將5個(gè)樣本分為兩類”為例進(jìn)一步描述K均值聚類的過(guò)程。①隨機(jī)選擇2個(gè)樣本作為聚類中心。如圖(a)所示。②將距離聚類中心最近的樣本分至相應(yīng)的類別。如圖(b)所示。③計(jì)算每類樣本的均值以作為新的聚類中心并更新每類的樣本。如圖(c)所示。④重復(fù)步驟3時(shí)發(fā)現(xiàn)無(wú)樣本,因而聚類結(jié)束。如圖(d)所示。7
(a)選取聚類中心(b)劃分類別(c)計(jì)算均值(d)重復(fù)計(jì)算均值直至無(wú)樣本更新9.1.2評(píng)價(jià)標(biāo)準(zhǔn)(1)類內(nèi)樣本聚合度樣本到距離其最近的聚類中心之間的距離之和,其值越小,表明類內(nèi)樣本越聚集,因而分類效果越好。在Scikit-learn庫(kù)中,此指標(biāo)可通過(guò)K均值聚類對(duì)象的inertia_屬性獲取。89.1.2評(píng)價(jià)標(biāo)準(zhǔn)
99.1.2評(píng)價(jià)標(biāo)準(zhǔn)
109.1.3擴(kuò)展類型(1)DBSCAN聚類DBSCAN(Density-BasedSpatialClusteringofApplicationswithNoise)是一種基于密度的聚類算法。其思想是將簇定義為密度相連的點(diǎn)的最大集合,能夠?qū)⒕哂凶銐蚋呙芏鹊膮^(qū)域劃分為簇,并可在噪聲的空間數(shù)據(jù)庫(kù)中發(fā)現(xiàn)任意形狀的聚類。119.1.3擴(kuò)展類型DBSCAN算法描述:輸入:數(shù)據(jù)集,鄰域半徑Eps,鄰域中數(shù)據(jù)對(duì)象數(shù)目閾值MinPts。輸出:密度聯(lián)通簇。①?gòu)臄?shù)據(jù)庫(kù)中抽出一個(gè)未處理的點(diǎn);②如果對(duì)于參數(shù)Eps和MinPts,抽出的點(diǎn)是核心點(diǎn),則找出所有從該點(diǎn)密度相連的對(duì)象,形成一個(gè)簇;③若抽出的點(diǎn)是邊緣點(diǎn)(非核心對(duì)象),尋找另一個(gè)點(diǎn);④重復(fù)步驟②和③,直到所有的點(diǎn)都被處理。129.1.3擴(kuò)展類型(2)層次聚類層次聚類(HierarchicalClustering)是一種基于原型的聚類算法,通過(guò)某種相似性測(cè)度計(jì)算節(jié)點(diǎn)之間的相似性,并按相似度由高到低排序,逐步重新連接各個(gè)節(jié)點(diǎn)。139.1.3擴(kuò)展類型層次聚類算法描述:①移除網(wǎng)絡(luò)中的所有邊,得到有n個(gè)孤立節(jié)點(diǎn)。②計(jì)算網(wǎng)絡(luò)中每對(duì)節(jié)點(diǎn)的相似度。③根據(jù)相似度從強(qiáng)到弱連接相應(yīng)節(jié)點(diǎn)對(duì),形成樹(shù)狀圖。④根據(jù)實(shí)際需求橫切樹(shù)狀圖,獲得社區(qū)結(jié)構(gòu)。149.1.3擴(kuò)展類型(3)Mini-BatchK-均值Mini-BatchK-均值使用了MiniBatch(分批處理)的方法對(duì)數(shù)據(jù)點(diǎn)之間的距離進(jìn)行計(jì)算,是K-均值的修改版本,計(jì)算過(guò)程中使用小批量數(shù)據(jù)樣本而不必使用所有的數(shù)據(jù)樣本對(duì)群集質(zhì)心進(jìn)行更新,提高了大數(shù)據(jù)集的更新速度,并且可能對(duì)統(tǒng)計(jì)噪聲更健壯。Mini-BatchK-均值算法描述如下。①?gòu)臄?shù)據(jù)集中隨機(jī)抽取一些數(shù)據(jù)形成小批量,把它們分配給最近的質(zhì)心。②更新質(zhì)心。159.2應(yīng)用實(shí)例利用Scikit-learn庫(kù)中K均值聚類模塊引入方法如下:fromsklearn.clusterimportKMeans函數(shù)原型如下:KMeans(n_clusters=8,init='k-means++',n_init=10,max_iter=300,tol=0.0001,precompute_distances='auto',verbose=0,random_state=None,copy_x=True,n_jobs=1,algorithm='auto')169.2.1參數(shù)分析均值聚類算法重要的參數(shù)為K值,本例利用部法則確定最優(yōu)K值并不同度量標(biāo)準(zhǔn)對(duì)模型的性能進(jìn)行分析。(1)問(wèn)題描述利用K均值聚類算法對(duì)make_blobs數(shù)據(jù)行聚類,具體要求如下:①利用肘部法則確定最優(yōu)K值。②采用三種聚類度量標(biāo)準(zhǔn)比較最優(yōu)K值與非最優(yōu)K值時(shí)的聚類效果。③繪制最優(yōu)K值時(shí)聚類效果。(2)編程實(shí)現(xiàn)見(jiàn)9.2.1參數(shù)分析.py17
8.2.1參數(shù)分析(3)結(jié)果分析聚合度(K=3):276.0896109598088輪廓系數(shù)(K=3):0.5242733767166292Calinski-Harabasz值(K=3):1140.3741744702536聚合度(K=4):155.4680451324735輪廓系數(shù)(K=4):0.5805348965200624Calinski-Harabasz值(K=4):1475.656378279951218
8.2.1參數(shù)分析(3)結(jié)果分析19(a)最優(yōu)K值確定(b)聚類結(jié)果可視化9.2.2文本聚類文本聚類是指在不需要預(yù)先指定類別的情況下將相似的文本歸為同一類別,可以從海量的文本數(shù)據(jù)中提取有價(jià)值的信息,在信息檢索、新聞推薦等自然語(yǔ)言處理領(lǐng)域中具有重要的應(yīng)用價(jià)值。(1)問(wèn)題描述已知句子集合,利用K均值聚類算法對(duì)句子進(jìn)行聚類,具體要求如下:①統(tǒng)計(jì)不同的單詞及出現(xiàn)的次數(shù)(生成詞頻矩陣)。②根據(jù)詞頻矩陣轉(zhuǎn)換為T(mén)F-IDF值構(gòu)成的樣本。③利用主成分分析算法對(duì)樣本進(jìn)行降維處理。④對(duì)樣本進(jìn)行聚類并輸出相應(yīng)的聚類結(jié)果。(2)編程實(shí)現(xiàn)見(jiàn)9.2.2文本聚類.py20
9.2.2文本聚類(3)結(jié)果分析樣本基本信息:(14,50)樣本基本信息(PCA):(14,13)聚類結(jié)果:[21222210111212]第1類:Ipromise.第2類:Whatareyougoingtodo?Youlookbeautifultonight.Howgreatyouare!Igotsickandtiredofhotels.IamsorryItooksolongtoreply.Whenareyoufree?21第3類:Gotit!Anidleyouth,aneedyage.Hehasalargeincome.Howbluetheskyis!Whatisontheschedulefortoday?Ihopeeverythingisallright.Whatareyouinthemoodfor?
9.2.2文本聚類(3)結(jié)果分析根據(jù)實(shí)驗(yàn)結(jié)果可知,所有句子共包含50個(gè)不同的單詞,因而通過(guò)詞頻統(tǒng)計(jì)與TF-IDF值處理后生成14行50列的樣本集。在此基礎(chǔ)上,通過(guò)主成分分析后生成14行13列的樣本集并以此構(gòu)建句子分類模型以實(shí)現(xiàn)句子的分類。整體上而言,由于K均值聚類算法的精度受K值的影響較大,不同的K值將導(dǎo)致不同的聚類結(jié)果;此外,對(duì)于文本分類問(wèn)題,僅利用詞頻特征進(jìn)行求解,通常并不易獲得較高的精度,在精度要求較高的場(chǎng)合中往往需要進(jìn)一步融合文本語(yǔ)義、詞語(yǔ)相關(guān)性等特征。229.2.3睡眠障礙預(yù)測(cè)隨著人們生活節(jié)奏的加快及生活壓力的增加,不規(guī)則的睡眠時(shí)長(zhǎng)、體重偏胖、心率不穩(wěn)定、運(yùn)動(dòng)量較少等因素往往易導(dǎo)致睡眠障礙病癥。利用相關(guān)數(shù)據(jù)預(yù)測(cè)睡眠障礙病癥發(fā)生的可能性有助于人們提前做好防患,提高健康水平與生活質(zhì)量。(1)問(wèn)題描述已知影響睡眠障礙(Y:SleepDisorder)的相關(guān)因素包括睡眠時(shí)長(zhǎng)(F1:SleepDuration)、BMI類別(F2:BMICategory)、心率(F3:HeartRate)與每天行走步數(shù)(F4:DailySteps),利用如表9-2所示數(shù)據(jù)構(gòu)建睡眠障礙預(yù)測(cè)模型以對(duì)人們是否存在睡眠障礙進(jìn)行預(yù)測(cè)(Y取值None、SleepApnea與Insomnia分別表示高、中與低三種類別的適應(yīng)度),具體要求如下:①分析不同特征與睡眠障礙之間的關(guān)系。②對(duì)不同特征之間的相關(guān)性進(jìn)行可視化與分析。③確定最優(yōu)聚類數(shù)并構(gòu)建睡眠障礙分類模型。④測(cè)試原特征與主成分分析生成的新特征相應(yīng)的睡眠障礙分類模型的精度。23
9.2.3睡眠障礙預(yù)測(cè)(2)編程實(shí)現(xiàn)見(jiàn)9.2.3睡眠障礙預(yù)測(cè).py(3)結(jié)果分析預(yù)測(cè)精度:0.575預(yù)測(cè)精度(PCA):0.5524
9.2.3睡眠障礙預(yù)測(cè)(3)結(jié)果分析25(a)心率與睡眠障礙之間的關(guān)系(b)每日運(yùn)動(dòng)量與睡眠障礙之間的關(guān)系(c)BMI與睡眠障礙之間的關(guān)系
(d)特征相關(guān)性
(e)利用肘部法則確定最優(yōu)K值
9.2.4圖像顏色聚類圖像顏色聚類旨在將圖像中像素對(duì)應(yīng)的顏色劃分為指定的類別,進(jìn)而可以較少的顏色信息表達(dá)圖像主體內(nèi)容;在效果上,同一類別的顏色可能對(duì)應(yīng)圖像中多個(gè)圖像區(qū)域。圖像顏色聚類與計(jì)算機(jī)視覺(jué)領(lǐng)域中的圖像過(guò)分割較為相似,但后者同時(shí)考慮到圖像中像素的顏色與位置信息,最終將圖像中具有相近顏色與位置特征的像素劃分為一個(gè)超像素或圖像區(qū)域,不同超像素或圖像區(qū)域具有不同的顏色與位置特征。26
9.2.4圖像顏色聚類(1)問(wèn)題描述對(duì)指定圖像中像素的顏色進(jìn)行聚類,具體要求如下:①將圖像中全部像素的顏色劃分為8類并生成新圖像,比較新圖像與原圖像之間的差異。②隨機(jī)從圖像中抽取指定數(shù)量像素的顏色并劃分為8類,然后生成新圖像以比較其與原圖像之間的差異。③比較以下兩種圖像聚類方法所用時(shí)間的差異。(2)編程實(shí)現(xiàn)見(jiàn)9.2.4圖像顏色聚類.py279.2.4圖像顏色聚類(3)結(jié)果分析Time(all_samples):0.99s.Time(subset_samples):0.54s.28(a)原始圖像
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 婦科常用中成藥的合理使用
- DB36∕T 1485-2025“贛出精 品”品牌建設(shè)通 用要求
- 銀聯(lián)企業(yè)服務(wù)(上海)有限公司2026年度招聘?jìng)淇碱}庫(kù)及1套參考答案詳解
- 中國(guó)氣象局在京單位2026年度招聘崗位備考題庫(kù)附答案詳解
- 客戶信息管理分類標(biāo)準(zhǔn)化表格
- 藝術(shù)創(chuàng)作知識(shí)產(chǎn)權(quán)尊重承諾書(shū)7篇
- 2025年農(nóng)村水利基礎(chǔ)設(shè)施建設(shè)項(xiàng)目可行性研究報(bào)告
- 城鄉(xiāng)規(guī)劃合同范本
- 拆房建房合同范本
- 搬廠運(yùn)輸合同范本
- 2025年大學(xué)康復(fù)治療學(xué)(運(yùn)動(dòng)療法學(xué))試題及答案
- 胎膜早破的診斷與處理指南
- 被壓迫者的教育學(xué)
- 2025年科研倫理與學(xué)術(shù)規(guī)范期末考試試題及參考答案
- 2025年紀(jì)檢監(jiān)察知識(shí)試題庫(kù)(含答案)
- CJT 288-2017 預(yù)制雙層不銹鋼煙道及煙囪
- 2024年西安市政道橋建設(shè)集團(tuán)有限公司招聘筆試參考題庫(kù)含答案解析
- 《普通心理學(xué)課程論文3600字(論文)》
- GB/T 5209-1985色漆和清漆耐水性的測(cè)定浸水法
- GB/T 14388-2010木工硬質(zhì)合金圓鋸片
- 大三上學(xué)期-免疫學(xué)第11章
評(píng)論
0/150
提交評(píng)論