版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、系統(tǒng)工程(System Engineering),3-2 聚類分析 Cluster Analysis,什么是聚類分析 聚類分析是根據(jù)“物以類聚”的道理,對樣品(觀測量)或指標(biāo)(變量)進(jìn)行分類的一種多元統(tǒng)計分析方法。 將個體或?qū)ο蠓诸?,使得同一類中的對象之間的相似性比與其他類的對象的相似性更強(qiáng)。 聚類分析的目的: 使類內(nèi)對象的同質(zhì)性最大化和類間對象的異質(zhì)性最大化。 原則是同一類中的個體有較大的相似性,不同類中的個體差異很大。,聚類分析的基本思想,聚類分析的應(yīng)用:無處不在 早在孩提時代,人就通過不斷改進(jìn)下意識中的聚類模式來學(xué)會如何區(qū)分貓和狗,動物和植物 誰經(jīng)常光顧商店,誰買什么東西,買多少? 按忠
2、誠卡記錄的光臨次數(shù)、光臨時間、性別、年齡、職業(yè)、購物種類、金額等變量分類 這樣商店可以. 識別顧客購買模式(如喜歡一大早來買酸奶和鮮肉,習(xí)慣周末時一次性大采購) 刻畫不同的客戶群的特征(用變量來刻畫,就象刻畫貓和狗的特征一樣),聚類分析的基本思想,為什么這樣分類?(分類的好處) 因為每一個類別里面的人消費(fèi)方式都不一樣,需要針對不同的人群,制定不同的關(guān)系管理方式,以提高客戶對公司商業(yè)活動的參與率。 挖掘有價值的客戶,并制定相應(yīng)的促銷策略: 如,對經(jīng)常購買酸奶的客戶 對累計消費(fèi)達(dá)到12個月的老客戶 針對潛在客戶派發(fā)廣告,比在大街上亂發(fā)傳單命中率更高,成本更低!,聚類分析的基本思想,如:對企業(yè)的經(jīng)濟(jì)
3、效益進(jìn)行評價時,建立了一個由多個指標(biāo)組成的指標(biāo)體系,由于信息的重疊,一些指標(biāo)之間存在很強(qiáng)的相關(guān)性,所以需要將相似的指標(biāo)聚為一類,從而達(dá)到簡化指標(biāo)體系的目的。,聚類分析的基本思想,基本思想: 是根據(jù)一批樣品的多個觀測指標(biāo),具體地找出一些能夠度量樣品或指標(biāo)之間相似程度的統(tǒng)計量,然后利用統(tǒng)計量將樣品或指標(biāo)進(jìn)行歸類。把相似的樣品或指標(biāo)歸為一類,把不相似的歸為其他類。直到把所有的樣品(或指標(biāo))聚合完畢. 相似樣本或指標(biāo)的集合稱為類。 問題:如何來選擇樣品(或指標(biāo))間相似的測度指標(biāo),如何將有相似性的類連接起來?,聚類分析的基本思想,聚類分析的類型有: 對樣本分類,稱為Q型聚類分析 對變量分類,稱為R型聚類
4、分析 Q型聚類是對樣本進(jìn)行聚類,它使具有相似性特征的樣本聚集在一起,使差異性大的樣本分離開來。 R型聚類是對變量進(jìn)行聚類,它使具有相似性的變量聚集在一起,差異性大的變量分離開來,可在相似變量中選擇少數(shù)具有代表性的變量參與其他分析,實現(xiàn)減少變量個數(shù),達(dá)到變量降維的目的。,聚類分析的類型及方法,樣品聚類:對觀測量(Case)進(jìn)行聚類(不同的目的選用不同的指標(biāo)作為分類的依據(jù),如選拔運(yùn)動員與分課外活動小組)。 變量聚類:找出彼此獨(dú)立且有代表性的自變量,而又不丟失大部分信息。在生產(chǎn)活動中不乏有變量聚類的實例,如:衣服號碼(身長、胸圍、褲長、腰圍)、鞋的號碼。變量聚類使批量生產(chǎn)成為可能。,聚類分析的類型及
5、方法,聚類分析的方法: 系統(tǒng)聚類(層次聚類) 非系統(tǒng)聚類(非層次聚類) 系統(tǒng)聚類法包括:凝聚方式聚類、分解方式聚類 非系統(tǒng)聚類法包括:模糊聚類法、K均值法(快速聚類法)等等,聚類分析的類型及方法,以系統(tǒng)聚類法為例,聚類分析的類型及方法,樣本或變量的相似性程度的數(shù)量指標(biāo): 距離 它是將每一個樣品看作p維空間的一個點,并用某種度量方法測量點與點之間的距離,距離較近的歸為一類,距離較遠(yuǎn)的點應(yīng)屬于不同的類。 相似系數(shù) 性質(zhì)越接近的變量或樣品,它們的相似系數(shù)越接近于1或一l,而彼此無關(guān)的變量或樣品它們的相似系數(shù)則越接近于0,相似的為一類,不相似的為不同類; 樣本分類(Q型聚類)常以距離刻畫相似性 指標(biāo)分
6、類(R型聚類)常以相似系數(shù)刻畫相似性,相似性度量,常用距離 明考夫斯基距離(Minkowski distance) 明氏距離有三種特殊形式: 絕對距離(Block距離):當(dāng)q=1時,相似性度量,常用距離 明氏距離有三種特殊形式: 歐氏距離(Euclidean distance):當(dāng)q=2時 切比雪夫距離:當(dāng) q= 時,相似性度量,明考夫斯基距離主要有以下兩個缺點: 明氏距離的值與各指標(biāo)的量綱有關(guān),而各指標(biāo)計量單位的選擇有一定的人為性和隨意性,各變量計量單位的不同不僅使此距離的實際意義難以說清,而且,任何一個變量計量單位的改變都會使此距離的數(shù)值改變從而使該距離的數(shù)值依賴于各變量計量單位的選擇。
7、明氏距離的定義沒有考慮各個變量之間的相關(guān)性和重要性。實際上,明考夫斯基距離是把各個變量都同等看待,將兩個樣品在各個變量上的離差簡單地進(jìn)行了綜合。,相似性度量,當(dāng)各變量的單位不同或測量值范圍相差很大時,不應(yīng)直接采用明氏距離,而應(yīng)先對各變量的數(shù)據(jù)作標(biāo)準(zhǔn)化處理,然后用標(biāo)準(zhǔn)化后的數(shù)據(jù)計算距離。 常用的標(biāo)準(zhǔn)化處理: 其中 為第j個變量的樣本均值; 為第j個變量的樣本方差。,相似性度量,二、相似系數(shù) 相似系數(shù)(或其絕對值)越大,變量之間的相似性程度越高;反之,越低。聚類時,比較相似的變量歸為一類,不太相似的變量歸為不同的類。 變量xi與xj的相似系數(shù)用cij表示,滿足以下三個條件,相似性度量,相似系數(shù)的表
8、示方法 夾角余弦:-1cos1 相關(guān)系數(shù):-1rij1 變量間的距離: 利用相似系數(shù)來定義距離 利用樣本協(xié)差陣來定義距離 把變量Xi的n次觀測值看成n維空間的點,在n維空間中定義m個變量間的距離。,相似性度量,相關(guān)系數(shù) 設(shè) 和 是第i和j個樣品的觀測值,則二者之間的相似測度為:,相似性度量,相似系數(shù)除常用來度量變量之間的相似性外有時也用來度量樣品之間的相似性,同樣,距離有時也用來度量變量之間的相似性。 由距離來構(gòu)造相似系數(shù)總是可能的,如令 這里dij 為第i 個樣品與第j個樣品的距離,顯然cij 滿足定義相似系數(shù)的三個條件,故可作為相似系數(shù).,相似性度量,系統(tǒng)聚類法,系統(tǒng)聚類法是聚類分析諸方法
9、中用得最多的一種。 基本思想:開始將個樣品各自作為一類,并規(guī)定樣品之間的距離和類與類之間的距離,然后將距離最近的兩類合并成一個新類,計算新類與其他類的距離;重復(fù)進(jìn)行兩個最近類的合并,每次減少一類,直至所有的樣品合并為一類。 常用的系統(tǒng)聚類方法: 最短距離法 最長舉例法 中間舉例法 重心法,系統(tǒng)聚類法基本步驟,1. 選擇樣本間距離的定義及類間距離的定義; 2. 計算n個樣本兩兩之間的距離,得到距離矩陣 3. 構(gòu)造個類,每類只含有一個樣本; 4. 合并符合類間距離定義要求的兩類為一個新類; 5. 計算新類與當(dāng)前各類的距離。若類的個數(shù)為1,則轉(zhuǎn)到步驟6,否則回到步驟4; 6.畫出聚類圖; 7.決定類
10、的個數(shù)和類。,例: 為了研究遼寧等5省1991年城鎮(zhèn)居民生活消費(fèi)的分布規(guī)律,根據(jù)調(diào)查資料做類型分類,用最短距離做類間分類。資料如下:,聚類分析,將每一個省區(qū)視為一個樣本: G1=遼寧,G2=浙江,G3=河南,G4=甘肅,G5=青海 采用歐氏距離: d12 =(7.9-7.68)2+(39.77-50.37)2+(8.49-11.35)2+(12.94- 13.3)2+(19.27-19.25)2+(11.05-14.59)2+(2.04-2.75)2+(13.29-14.87)20.5=11.67 d13=13.80 d14=13.12 d15=12.80 d23=24.63 d24=24.0
11、6 d25=23.54 d34=2.2 d35=3.51 d45=2.21,聚類分析,根據(jù)5個省區(qū)之間的歐式距離,用D0表示距離矩陣(對稱陣,故給出下三角陣) 因此將3.4合并為一類,為類6,替代了3、4兩類 類6與剩余的1、2、5之間的距離分別為: d(3,4)1=min(d31,d41)=min(13.80,13.12)=13.12 d(3,4)2=min(d32,d42)=min(24.63,24.06)=24.06 d(3,4)5=min(d35,d45)=min(3.51,2.21)=2.21,得到新矩陣 合并類6和類5,得到新類7 類7與剩余的1、2之間的距離分別為: d(5,6)1=min(d51,d61)=min(12.80,13.12)=12.80 d(5,6)2=min(d52,d62)=min(23.54,24.06)=23.54
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 養(yǎng)老院員工行為規(guī)范制度
- 中國煙草總公司鄭州煙草研究院2026年高校畢業(yè)生招聘備考題庫及一套完整答案詳解
- 2026年智能家居系統(tǒng)報告及未來五至十年家居科技報告
- 2026年汽車行業(yè)氫燃料電池技術(shù)突破報告
- 第四單元第13課 同步練習(xí)(含解析) 統(tǒng)編版高中語文選擇性必修中冊
- 2025年海洋工程裝備制造行業(yè)發(fā)展報告
- 2025年能源行業(yè)綠色創(chuàng)新應(yīng)用報告
- 2025年銅箔行業(yè)政策法規(guī)影響分析報告
- 2026年智能酒精度測量儀項目營銷方案
- 2026年保密知識競賽試卷及答案(四)
- 2025年秋招機(jī)械工程師筆試真題及答案
- 碳積分交易平臺市場分析報告
- 半導(dǎo)體物理-課件 -第9章 半導(dǎo)體異質(zhì)結(jié)構(gòu)
- 圓柱齒輪減速機(jī)維修課件
- 國網(wǎng)培訓(xùn)課件
- 河道整治施工過程中的風(fēng)險控制方案
- 2026屆高考物理一輪復(fù)習(xí)策略講座
- 儲備園長筆試題目及答案
- 職工幫困基金管理辦法
- 2025ESC瓣膜性心臟病管理指南解讀課件
- 空調(diào)設(shè)備維修保養(yǎng)計劃與實施規(guī)范
評論
0/150
提交評論