版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第8章聚類分析BigData目錄§8.1導(dǎo)論§8.2模糊c均值聚類§8.3k均值聚類§8.4密度聚類算法聚類分析是一類無(wú)監(jiān)督機(jī)器學(xué)習(xí)方法,旨在將相似的數(shù)據(jù)點(diǎn)歸為一類,以便發(fā)現(xiàn)數(shù)據(jù)中的內(nèi)在模式和結(jié)構(gòu)。本節(jié)介紹聚類分析的概念、數(shù)學(xué)理論及步驟?!?.1導(dǎo)論一、概念1.引例:氣象站的調(diào)整問題現(xiàn)有12個(gè)氣象站10年的降雨信息?,F(xiàn)因資金問題要減少2個(gè)氣象站,請(qǐng)問減少哪兩個(gè)其氣象站合適?2.定義
所謂聚類分析,是指按相似性的大小將數(shù)據(jù)點(diǎn)進(jìn)行歸類——相似性大的歸為一類,相似性小的歸到不同的類中,目的是發(fā)現(xiàn)數(shù)據(jù)點(diǎn)的內(nèi)在結(jié)構(gòu)和規(guī)律。本節(jié)其他知識(shí)點(diǎn)請(qǐng)見下頁(yè)(↓)導(dǎo)圖。知識(shí)點(diǎn)導(dǎo)圖§8.2模糊c均值聚類模糊c均值聚類是一種用模糊數(shù)學(xué)中的隸屬度來(lái)定義對(duì)象之間的相似度的聚類方法。其中c是指類別數(shù)量,是需事先設(shè)定的一個(gè)超參數(shù)。一、定義
設(shè)原始數(shù)據(jù)矩陣X標(biāo)準(zhǔn)化為X’:模糊c均值聚類就是將X劃分為c類(),聚類中心為:令
uij表示第i個(gè)對(duì)象屬于第j個(gè)類的隸屬度,有
1.聚類準(zhǔn)則定義目標(biāo)函數(shù)為
2.算法描述如右圖所示→
Python沒有集成模糊c均值聚類算法,我們寫了一個(gè)自建庫(kù)fcm_clusterer,遵循python機(jī)器學(xué)習(xí)庫(kù)sklearn接口規(guī)范,用法如下:二、實(shí)現(xiàn)###2.分析模塊##2.1建模fromfcm_clustererimportFuzzyCMeansmodel=FuzzyCMeans()##2.2訓(xùn)練model.fit(data)##2.3獲取結(jié)果results=model.get_results()##2.4可視化聚類結(jié)果model.visualize_clusters()##2.5可視化各特征對(duì)各簇的重要性model.visualize_feature_importance()其中通過get_results()方法獲取的結(jié)果包括7個(gè)方面:
'1.樣本類別標(biāo)簽’:self.obj_labels,'2.按類別分組的樣本’:self.clusters,'3.原始聚類中心’:self.centers,'4.標(biāo)準(zhǔn)化聚類中心’:self.scaled_centers,'5.聚類質(zhì)量評(píng)估’:self.quality,'6.各類別統(tǒng)計(jì)信息’:self.cluster_stats,'7.白化隸屬度矩陣’:self.whiteU另外,還要模型評(píng)估的clustering_evaluator方法和新對(duì)象類別預(yù)測(cè)的predict方法。應(yīng)用中體會(huì)聚類器的要領(lǐng)。三、案例分析-大型百貨商場(chǎng)會(huì)員畫像數(shù)據(jù)集“【第8章案例分析】會(huì)員的RFMP信息.xlsx”是某大型百貨商場(chǎng)會(huì)員的RFMP信息。下表是數(shù)據(jù)的前5行:請(qǐng)根據(jù)數(shù)據(jù)集完成下述任務(wù):(一)應(yīng)用模糊C均值聚類法對(duì)數(shù)據(jù)集中的會(huì)員進(jìn)行聚類分析,類別數(shù)C自擬;(二)對(duì)聚類結(jié)果進(jìn)行評(píng)價(jià);(三)請(qǐng)對(duì)各類會(huì)員進(jìn)行畫像,即描述各類會(huì)員的特征??ㄌ?hào)RFMP3c3cba51030113556.986903.834c4b072f025196460.745117.435d1d7f0c9193720047.1828221.56e70373e21884790.518352.94565cc95ff3834250523.813394.075【實(shí)驗(yàn)過程】本案例有兩個(gè)模塊:數(shù)據(jù)模塊→分析模塊。
數(shù)據(jù)模塊主要是:讀入數(shù)據(jù),數(shù)據(jù)標(biāo)準(zhǔn)化已放在模型的fit方法中;
分析模塊主要是:建立模型(擬定C=3)
→訓(xùn)練模型(數(shù)據(jù)標(biāo)準(zhǔn)化、聚類中心的計(jì)算,等)
→評(píng)估模型(三個(gè)非監(jiān)督型指標(biāo))
→提取結(jié)果(7個(gè)方面的結(jié)果+可視化)【實(shí)驗(yàn)結(jié)果】(1)各對(duì)象聚類后的類別標(biāo)簽及各類成員(前5行)樣本編號(hào)所屬類別類別1類別2類別3111485421250683135198414529951553100……………聚類效果可視化:可以看出各簇還是聚集在一起的。(2)聚類中心(標(biāo)準(zhǔn)化數(shù)據(jù))類別標(biāo)簽RFMP類均值類標(biāo)準(zhǔn)差類別10.1154740.0708030.0303880.0444910.0652890.037414類別20.702840.0100520.0070190.0173090.1843050.345717類別30.033660.3640430.1954210.1747410.1919660.135376(3)模型評(píng)估評(píng)估指標(biāo)值備注Calinski-Harabasz指數(shù)264.8118826越高表示聚類效果越好Davis-Bouldin指數(shù)0.835772933越低表示聚類效果越好輪廓系數(shù)0.469006101范圍[-1,1],越接近1表示聚類效果越好(4)各類別統(tǒng)計(jì)信息類別類內(nèi)樣本數(shù)類內(nèi)占比重要性顯著特征(重要性前三)RFMP類別15022.02640.16850.07750.04720.0344RFM類別29340.96920.41880.07750.07060.0615RFM類別38437.00440.25030.21570.11780.0959RFM特征重要性可視化(5)畫像類別消費(fèi)特點(diǎn)畫像類別1R相對(duì)F、M、P偏大,說明是活躍度一般的會(huì)員普通會(huì)員類別2R特別大,F(xiàn)、M、P三個(gè)特征都特別小,說明是不常購(gòu)物會(huì)員沉睡會(huì)員(流失風(fēng)險(xiǎn)會(huì)員)類別3R特別小,F(xiàn)、M、P三個(gè)特征都較大,說明是常購(gòu)物會(huì)員高價(jià)值活躍會(huì)員描述會(huì)員的四個(gè)指標(biāo),R是指最近一次消費(fèi)記錄到當(dāng)前時(shí)間的間隔,F(xiàn)是指一定時(shí)間內(nèi)的消費(fèi)頻率,M是指一定時(shí)間內(nèi)的累計(jì)消費(fèi)金額,P是指會(huì)員在一定時(shí)間內(nèi)給商場(chǎng)帶來(lái)的累計(jì)利潤(rùn)。R用來(lái)描述會(huì)員的活躍度,F(xiàn)用來(lái)描述會(huì)員的忠誠(chéng)度,M和P都用來(lái)描述會(huì)員的價(jià)值度。####案例分析——大型百貨商場(chǎng)會(huì)員畫像###1.數(shù)據(jù)模塊importpandasaspdfile=r"..\數(shù)據(jù)\【第8章案例分析】會(huì)員的RFMP信息.xlsx"data=pd.read_excel(file,index_col=0)###2.分析模塊##2.1建模——建立模糊c均值聚類模型,其中類別數(shù)設(shè)置為3,隸屬度指數(shù)因子設(shè)置為2fromfcm_clustererimportFuzzyCMeansmodel=FuzzyCMeans(n_clusters=3,e=2)##2.2訓(xùn)練model.fit(data)##2.3獲取結(jié)果results=model.get_results()##2.4可視化聚類結(jié)果model.visualize_clusters()##2.5可視化各特征對(duì)各簇的重要性model.visualize_feature_importance()分析程序小結(jié)+課程思政:模糊c均值聚類算法是基于模糊數(shù)學(xué)的算法,算法流程在教材中圖文并茂,但隸屬度這個(gè)陌生的概念會(huì)讓算法理解起來(lái)有一定的難度。模糊c聚類算法沒有集成在python機(jī)器學(xué)習(xí)庫(kù)中,我們基于算法自建了模糊c均值聚類器fcm_clusterer,輸入輸出都很友好,供大家使用。課程思政:FCM允許一個(gè)樣本以不同隸屬度屬于多個(gè)類別,打破了“非此即彼”的二元對(duì)立。這可謂與中華傳統(tǒng)文化中的“中庸之道”與“和而不同”的智慧不謀而合?!?.3K-均值聚類
K-均值聚類是一個(gè)小而美的聚類方法,特點(diǎn)是算法容易懂、效率特別高、應(yīng)用極其廣。其中的K是類別數(shù)量,是算法中需要事先設(shè)定的一個(gè)超參數(shù)。算法如右圖所示。一、概念K-均值聚類算法流程圖K-means的升級(jí)版K-means++,主要是初始聚類中心的選取方法上做了改進(jìn)二、基于python的實(shí)現(xiàn)Python中實(shí)現(xiàn)k-mean聚類算法的工具是來(lái)自sklearn.cluster模塊的Kmeans類,其語(yǔ)法及重要參數(shù)介紹如下:fromsklearn.clusterimportKmeansmodel=KMeans(n_clusters=8,init='k-means++’)主要輸入項(xiàng):(1)n_clusters:類別數(shù),默認(rèn)值是8(2)init:初始聚類中心的選取方法,取值有3個(gè){'k-means++','random',或一個(gè)數(shù)組}主要輸出項(xiàng):(1)label_:每個(gè)樣本對(duì)應(yīng)的類別標(biāo)簽(2)cluster_centers_:聚類中心,是一個(gè)[n_clusters,n_features]矩陣,示例:centroid=pd.DataFrame(model.cluster_centers_)該語(yǔ)句給出聚類中心。應(yīng)用k-means聚類算法解決大型百貨商場(chǎng)會(huì)員畫像問題。三、案例分析
【實(shí)驗(yàn)過程】實(shí)驗(yàn)流程:數(shù)據(jù)模塊→分析模塊→提取結(jié)果
【實(shí)驗(yàn)結(jié)果】按上述流程編程,運(yùn)行后按流程輸出結(jié)果:對(duì)象ID類別標(biāo)簽RFMP3c3cba510類別0246.465.4319047.912069.764c4b072f1類別116.5034.77214153.4611110.08d1d7f0c92類別26.0072.00826828.0420684.126e70373e065cc95ff1……會(huì)員類別標(biāo)簽各簇中心模型評(píng)估結(jié)果從評(píng)估結(jié)果和聚類結(jié)果的可視化看,聚類效果優(yōu)良評(píng)估指標(biāo)值備注Calinski-Harabasz指數(shù)695.3054越高表示聚類效果越好Davis-Bouldin指數(shù)0.4199越低表示聚類效果越好輪廓系數(shù)0.7802范圍[-1,1],越接近1表示聚類效果越好小結(jié)+課程思政:應(yīng)用K-means實(shí)現(xiàn)聚類分析,總體上代碼簡(jiǎn)單。但若要輸出的結(jié)果直觀,需我們自己整理輸出結(jié)果的格式,比如各對(duì)象對(duì)應(yīng)的類別標(biāo)簽、聚類中心以數(shù)據(jù)框形式輸出;聚類效果可視化、模型評(píng)估等輸出內(nèi)容,則需我們額外編寫代碼來(lái)實(shí)現(xiàn),K-means并不自帶這些功能。課程思政:k均值聚類通過“質(zhì)心”不斷吸引樣本、調(diào)整位置,最終形成穩(wěn)定結(jié)構(gòu)——這就像一個(gè)組織的發(fā)展,需要有堅(jiān)強(qiáng)的“核心”來(lái)凝聚力量,統(tǒng)一方向。我國(guó)堅(jiān)持黨的領(lǐng)導(dǎo),正是發(fā)揮“政治質(zhì)心”的作用,確保社會(huì)系統(tǒng)在復(fù)雜環(huán)境中保持穩(wěn)定與高效?!?.4密度聚類〇、導(dǎo)言密度:是指給定半徑ε,該樣本點(diǎn)的ε鄰域內(nèi)所含樣本點(diǎn)的數(shù)量?;诿芏染垲惖暮诵乃枷耄褐灰獦颖军c(diǎn)的密度大于某個(gè)閾值,則將該樣本添加到最近的簇中。特點(diǎn):可發(fā)現(xiàn)任意形狀的聚類,且對(duì)噪聲數(shù)據(jù)不敏感。本節(jié)介紹兩個(gè)密度聚類法:基于密度的帶噪聲的應(yīng)用空間聚類(DBSCAN)及其改進(jìn)版層次DBSCAN(HDBSCAN),HDBSCAN旨在克服DBSCAN在處理不同密度簇和噪聲數(shù)據(jù)時(shí)的局限性。點(diǎn)的密度示意圖
一、DBSCAN2.上述概念的示意圖孤立點(diǎn)即噪聲3.DBSCAN算法導(dǎo)圖之后這個(gè)噪聲點(diǎn)可能還是會(huì)屬于某個(gè)簇Python中實(shí)現(xiàn)t-SNE的工具是來(lái)自sklearn.cluster模塊的DBSCAN類。model=DBSCAN(
eps=0.5,
min_samples=5,metric='euclidean’,algorithm='auto')主要輸入項(xiàng):(1)eps:鄰域半徑(2)min_samples:算法中的m(3)metric:樣本點(diǎn)之間的距離(4)algorithm:聚類算法,取值有4個(gè)
{'brute','ball_tree','kd_tree','auto'}主要輸出項(xiàng):(1)core_sample_indices_:核心樣本點(diǎn)的索引;(2)components_:核心樣本點(diǎn);(3)labels_:類別標(biāo)簽,噪聲的標(biāo)簽是-1。4.DBSCAN算法實(shí)現(xiàn)對(duì)象ID類別標(biāo)簽簇標(biāo)簽RFMP3c3cba51-1簇00.05900.07610.02160.03844c4b072f-1簇10.90170.00000.00200.0084d1d7f0c9-1簇20.49170.01090.00350.00856e70373e-165cc95ff-1……應(yīng)用DBSCAN聚類算法解決大型百貨商場(chǎng)會(huì)員畫像問題。
【實(shí)驗(yàn)過程】實(shí)驗(yàn)流程:數(shù)據(jù)模塊→分析模塊→提取結(jié)果
【實(shí)驗(yàn)結(jié)果】按上述流程編程,運(yùn)行后按流程輸出結(jié)果:會(huì)員類別標(biāo)簽密度峰值點(diǎn)5.DBSCAN案例分析模型評(píng)估結(jié)果從評(píng)估結(jié)果和聚類結(jié)果的可視化看,聚類效果優(yōu)良評(píng)估指標(biāo)指標(biāo)得分備注方差比標(biāo)準(zhǔn):CH得分178.8174越高表示聚類效果越好戴維森-堡丁指數(shù):DB得分0.8681越低表示聚類效果越好輪廓系數(shù):silhouette得分0.4058范圍[-1,1],越接近1表示聚類效果越好1.安裝通過anaconda
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 煤礦停車場(chǎng)衛(wèi)生管理制度
- 衛(wèi)生院隊(duì)伍建設(shè)管理制度
- 售樓處周邊衛(wèi)生管理制度
- 衛(wèi)生室消防安全工作制度
- 幼兒園廁所衛(wèi)生工作制度
- 手衛(wèi)生相關(guān)管理制度
- 面包房前廳衛(wèi)生制度
- 學(xué)校醫(yī)務(wù)室衛(wèi)生制度
- 社區(qū)衛(wèi)生服務(wù)站內(nèi)控制度
- 美膚店衛(wèi)生服務(wù)制度
- 工業(yè)互聯(lián)網(wǎng)安全技術(shù)(微課版)課件全套 項(xiàng)目1-7 工業(yè)互聯(lián)網(wǎng)及安全認(rèn)識(shí)-工業(yè)互聯(lián)網(wǎng)安全新技術(shù)認(rèn)識(shí)
- 2025至2030中國(guó)船舵行業(yè)項(xiàng)目調(diào)研及市場(chǎng)前景預(yù)測(cè)評(píng)估報(bào)告
- 海上風(fēng)電回顧與展望2025年
- 地鐵春節(jié)安全生產(chǎn)培訓(xùn)
- 預(yù)包裝食品配送服務(wù)投標(biāo)方案(技術(shù)方案)
- 新型電力系統(tǒng)背景下新能源發(fā)電企業(yè)技術(shù)監(jiān)督管理體系創(chuàng)新
- 旅游景區(qū)旅游安全風(fēng)險(xiǎn)評(píng)估報(bào)告
- FZ∕T 54007-2019 錦綸6彈力絲行業(yè)標(biāo)準(zhǔn)
- 顱腦外傷的麻醉管理
- AED(自動(dòng)體外除顫儀)的使用
- 2024年福建寧德高速交警招聘筆試參考題庫(kù)附帶答案詳解
評(píng)論
0/150
提交評(píng)論