版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、2008年8月,第15章,聚類分析,聚類分析,1 聚類分析的基本原理 2 系統(tǒng)聚類 3 K-均值聚類,2008年8月,學習目標,聚類分析的基本思想和原理 層次聚類和K-均值聚類的基本過程 解釋聚類的結(jié)果 層次聚類和K-均值聚類的差異及應(yīng)用條件 聚類分析的注意事項 用SPSS進行聚類分析,2008年8月,在現(xiàn)實生活中,分類問題是十分常見的 根據(jù)經(jīng)濟發(fā)展水平把各個國家分成發(fā)達國家、中等發(fā)達國家、發(fā)展中國家 按照消費者的特征對消費者分類,按照產(chǎn)品特征對產(chǎn)品分類 這些分類中,有的事先并不知道存在什么類別,完全按照反映對象特征的數(shù)據(jù)把對象進行分類,這在統(tǒng)計上稱為聚類分析;有的則是在事先有了某種分類標準之
2、后,判定一個新的研究對象應(yīng)該歸屬到哪一類別,這在統(tǒng)計上則稱為判別分析(discriminant analysis) 本章主要介紹聚類分析方法,聚類分析 (cluster analysis),1 聚類分析的基本原理 1.1 什么是聚類分析? 1.2 相似性的度量,聚類分析,1.1 什么是聚類分析?,聚類分析的思想和原理,2008年8月,把“對象”分成不同的類別 這些類不是事先給定的,而是直接根據(jù)數(shù)據(jù)的特征確定的 把相似的東西放在一起,從而使得類別內(nèi)部的“差異”盡可能小,而類別之間的“差異”盡可能大 聚類分析就是按照對象之間的“相似”程度把對象進行分類,什么是聚類分析? (cluster anal
3、ysis),2008年8月,聚類分析的“對象”可以是所觀察的多個樣本,也可以是針對每個樣本測得的多個變量 按照變量對所觀察的樣本進行分類稱為Q型聚類 按照多項經(jīng)濟指標(變量)對不同的地區(qū)(樣本)進行分類 按照樣本對多個變量進行分類,則稱為R型聚類 按照不同地區(qū)的樣本數(shù)據(jù)對多個經(jīng)濟變量進行分類 兩種聚類沒有什么本質(zhì)區(qū)別,實際中人們更感興趣的通常是根據(jù)變量對樣本進行分類(Q型聚類),什么是聚類分析? (兩種分類方式),2008年8月,按對象的“相似”程度分類 根據(jù)樣本的觀測數(shù)據(jù)測度變量之間的相似性程度可以使用夾角余弦、Pearson相關(guān)系數(shù)等工具,也稱為相似系數(shù) 變量間的相似系數(shù)越大,說明它們越相
4、近 根據(jù)變量來測度樣本之間的相似程度則使用“距離” 把離得比較近的歸為一類,而離得比較遠的放在不同的類,什么是聚類分析? (按什么分類),1.2 相似性的度量,聚類分析的思想和原理,2008年8月,聚類分析中是用“距離”或“相似系數(shù)”來度量對象之間的相似性 31個地區(qū)的人均GDP數(shù)據(jù)就是直線上的31個點,每一個點對應(yīng)一個地區(qū) 如果按照人均GDP對它們進行分類,就可以把在直線上離得比較近的那些點歸為一類。如果再考慮財政收入,那么人均GDP和財政收入就是二維平面上的一個點,31個地區(qū)就是平面中的31個點 多個變量就是高維空間中的一個點,31個地區(qū)就是高維空間中的31個點 各個點之間距離的遠近就是分
5、類的依據(jù),相似性的度量,2008年8月,在對樣本進行分類時,度量樣本之間的相似性使用點間距離 點間距離的計算方法主要有 歐氏距離(Euclidean distance) 平方歐氏距離(Squared Euclidean distance) Block距離(Block distance) Chebychev距離(Chebychev distance) 馬氏距離(Minkovski distance) 最常用的是平方歐氏距離,相似性的度量(樣本點間距離的計算方法),2008年8月,相似性的度量(樣本點間距離的計算方法),2008年8月,在對變量進行分類時,度量變量之間的相似性常用相似系數(shù),測度方法
6、有,相似性的度量(變量相似系數(shù)的計算方法),2 系統(tǒng)聚類 2.1 系統(tǒng)聚類的兩種方式 2.2 類間距離的計算方法 2.3 系統(tǒng)聚類的應(yīng)用,聚類分析,2.1 系統(tǒng)聚類的兩種方式,2 系統(tǒng)聚類,2008年8月,系統(tǒng)聚類又稱層次聚類 事先不確定要分多少類,而是先把每一個對象作為一類,然后一層一層進行分類 根據(jù)運算的方向不同,層次聚類法又分為合并法和分解法,兩種方法的運算原理一樣,只是方向相反,系統(tǒng)聚類(hierarchical cluster),2008年8月,將每一個樣本作為一類,如果是k個樣本就分k成類 按照某種方法度量樣本之間的距離,并將距離最近的兩個樣本合并為一個類別,從而形成了k-1個類別
7、 再計算出新產(chǎn)生的類別與其他各類別之間的距離,并將距離最近的兩個類別合并為一類。這時,如果類別的個數(shù)仍然大于1,則繼續(xù)重復這一步,直到所有的類別都合并成一類為止 總是先把離得最近的兩個類進行合并 合并越晚的類,距離越遠 事先并不會指定最后要分成多少類,而是把所有可能的分類都列出,再視具體情況選擇一個合適的分類結(jié)果,系統(tǒng)聚類(合并法),2008年8月,分解方法原理與合并法相反 先把所有的對象(樣本或變量)作為一大類,然后度量對象之間的距離或相似程度,并將距離或相似程度最遠的對象分離出去,形成兩大類(其中的一類只有一個對象) 再度量類別中剩余對象之間的距離或相似程度,并將最遠的分離出去,不斷重復這
8、一過程,直到所有的對象都自成一類為止 SPSS中只提供了合并法,系統(tǒng)聚類(分解法),2.2 類間距離的計算方法,系統(tǒng)聚類,2008年8月,在系統(tǒng)聚類法中,當類別多于1個時,就涉及到如何定義兩個類別之間的距離問題 計算類間距離(與上面介紹的點間距離不同)的方法有很多,不同方法會得到不同的聚類結(jié)果 實際中較常用的是離差平方和法(Wards method),又稱Ward法,類間距離的計算方法,2008年8月,類間距離的計算方法,2008年8月,Nearest neighbor(最短距離法)用兩個類別中各個數(shù)據(jù)點之間最短的那個距離來表示兩個類別之間的距離 Furthest neighbor(最長距離法
9、)用兩個類別中各個數(shù)據(jù)點之間最長的那個距離來表示兩個類別之間的距離 Centroid clustering(重心法)用兩個類別的重心之間的距離來表示兩個類別之間的距離 between-groups linkage(組間平均距離法)SPSS的默認方法。是用兩個類別中間各個數(shù)據(jù)點之間的距離的平均來表示兩個類別之間的距離 Wards method(離差平方和法)使各類別中的離差平方和較小,而不同類別之間的離差平方和較大,類間距離的計算方法,2.3 系統(tǒng)聚類的應(yīng)用,系統(tǒng)聚類,2008年8月,【例】根據(jù)我國31個省市自治區(qū)2006年的6項主要經(jīng)濟指標數(shù)據(jù),采用層次聚類法進行分類,并對結(jié)果進行分析,層次聚
10、類的應(yīng)用 (實例分析),31個地區(qū)的6項經(jīng)濟指標,2008年8月,用SPSS進行層次聚類,第1步 選擇【Analyze】下拉菜單,并選擇【Classify- Hierarchical Cluster】,進入主對話框 第2步 將用于聚類的所有變量選入【Variable(s)】;把區(qū)分樣 本的標簽 (本例為“地區(qū)”)選入【Label Cases by】;若 對樣本進行聚類,在【Cluster】下選擇【Cases】(本 例選擇對樣本聚類),若對變量進行聚類,在 【Cluster】下選擇【Variables】 第3步 點入【Statistics】選中【Agglomeration schedule】,
11、點擊【Continue】回到主對話框 第4步 點入【Plots】選中【Dendrogram】,點擊 【Continue】回到主對話框,2008年8月,用SPSS進行層次聚類,第5步 點入【Method】,在【Cluster Method】中選擇類間距離的 定義方法(本例選擇Wards method);在【Measure】下選擇 點間距離的定義方法(本例使用Squared Euclidean distance);在【Transform Values】的【Standardize】框中 選擇否對原始數(shù)據(jù)進行標準化處理(本例選擇了【Z scores】)。點擊【Continue】回到主對話框 第6步 點
12、入【Save】,在【Cluster Membership】下選擇在原始數(shù) 據(jù)中保留分類結(jié)果,其中【Single solution】表示指定要分成 類時各樣本所屬的類,【Range of solution】表示指定要分成 最少類、最多類時各樣本所屬的類(SPSS會將分類的結(jié)果以 變量形式保存到原數(shù)據(jù)窗口中),點擊【Continue】【OK】,用SPSS進行系統(tǒng)聚類,2008年8月,SPSS的輸出結(jié)果(實例分析),層 次 聚 類 過 程 的 步 驟 號,2008年8月,SPSS的輸出結(jié)果(實例分析),層次聚類過程的步驟號,第1列是聚類的步驟號。第2列和第3列給出了每一步被合并的對象(這里是地區(qū))
13、首先把31個地區(qū)各自作為一類(共有31類)。第1步是把距離最近的兩個地區(qū)21(海南)和地區(qū)30(寧夏)合并成一類。在后面的步驟中,對于包含多個樣本的新類別,實際上是用類中的一個樣本來代表該類別,比如,第2步被合并的是21和地區(qū)29(青海),這里的“21”實際上是指在第1步中被合并的類別,只是用“21”表示21(海南)所在的類別,2008年8月,SPSS的輸出結(jié)果(實例分析),層次聚類過程的步驟號,第4列給出每一步被合并的兩個類之間的聚類系數(shù)(即距離)。距離按從小到大排列,越早合并的類距離越近。0.013是地區(qū)21(海南)和地區(qū)30(寧夏)之間的距離,而0.040是先被合并的第一小類與地區(qū)29(
14、青海)之間的距離 第5列和第6列表示本步聚類中參與聚類的是原始的樣本還是已經(jīng)合并的小類,0表示本步聚類的是原始的樣本,第一次出現(xiàn)在聚類過程中,其他數(shù)字則表示第幾步聚類生成的小類參與了本步聚類。第7列給出了在每一步中合并形成的新類別下一次將在第幾步中與其他類別合并。例如,在第2步中,參與聚類的是第1步形成的小類(21號樣本所在的類)和地區(qū)29(青海),第5列的“1”表示21號類是在第1步中形成的小類,而“0”表示地區(qū)29(青海)是第一次出現(xiàn)在本步聚類中的原始樣本,第7列中的“10”表示這一類將在第10步中與其他類別合并,其余類推,2008年8月,Cluster Membership,分成2類到5
15、類時各地區(qū)所屬的類別,2008年8月,層 次 聚 類 的 樹 狀 圖,分成兩類,分成四類,最大距離作為相對距離25 ,其余的距離都換算成與 之相比的相對距離大小,cut,2008年8月,層次聚類的應(yīng)用 (分類匯總),2008年8月,使用SPSS中的Means過程(計算分類統(tǒng)計量),注意 使用Means過程時可直接在聚類分析的數(shù)據(jù)中進行,數(shù) 據(jù)表中應(yīng)包括SPSS以變量名CLU5_1、CLU4_1、 CLU3_1、CLU2_1等保存的結(jié)果,然后按下列步驟操作 第一步 選擇【Analyze】下拉菜單,并選擇 【Compare Means-Means】主對話框 第二步 將用于描述的所有變量選入【Dep
16、endentlist】,把地 區(qū)所屬的類別號變量選入【Independent list】 第三步 點擊【Options】并選 擇所需要的統(tǒng)計量,點擊 【Continue】主對話框 【OK】,使用SPSS的Means過程,2008年8月,層次聚類的應(yīng)用 (類別檢驗),各類別所屬地區(qū)的描述統(tǒng)計量,2008年8月,層次聚類的應(yīng)用 (類別檢驗),不同類別6項經(jīng)濟指標的方差分析表,方差分析,3 K-均值聚類 3.1 K-均值聚類的基本過程 3.2 K-均值聚類的應(yīng)用 3.3 使用聚類方法的注意事項,聚類分析,2008年8月,系統(tǒng)聚類事先不需要確定要分多少類,聚類過程一層層進行,最后得出所有可能的類別結(jié)果
17、,研究這根據(jù)具體情況確定最后需要的類別。該方法可以繪制出樹狀聚類圖,方便使用者直觀選擇類別,但其缺點是計算量較大,對大批量數(shù)據(jù)的聚類效率不高 K-均值聚類事先需要確定要分的類別數(shù)據(jù),計算量要小得多,效率比層次聚類要高, 也被稱為快速聚類(quick cluster),K-均值聚類(K-means cluster),3.1 K-均值聚類的基本過程,3 K-均值聚類,2008年8月,第1步:確定要分的類別數(shù)目K 需要研究者自己確定 在實際應(yīng)用中,往往需要研究者根據(jù)實際問題反復嘗試,得到不同的分類并進行比較,得出最后要分的類別數(shù)量 第2步:確定K個類別的初始聚類中心 要求在用于聚類的全部樣本中,選擇
18、K個樣本作為K個類別的初始聚類中心 與確定類別數(shù)目一樣,原始聚類中心的確定也需要研究者根據(jù)實際問題和經(jīng)驗來綜合考慮 使用SPSS進行聚類時,也可以由系統(tǒng)自動指定初始聚類中心,K-均值聚類(步驟),2008年8月,第3步:根據(jù)確定的K個初始聚類中心,依次計算每個樣本到K個聚類中心的距離歐氏距離,并根據(jù)距離最近的原則將所有的樣本分到事先確定的K個類別中 第4步:根據(jù)所分成的K個類別,計算出各類別中每個變量的均值,并以均值點作為新的K個類別中心。根據(jù)新的中心位置,重新計算每個樣本到新中心的距離,并重新進行分類,K-均值聚類(步驟),2008年8月,第5步:重復第4步,直到滿足終止聚類條件為止 迭代次
19、數(shù)達到研究者事先指定的最大迭代次數(shù)(SPSS隱含的迭代次數(shù)是10次) 新確定的聚類中心點與上一次迭代形成的中心點的最大偏移量小于指定的量(SPSS隱含的是0.02) K-均值聚類法是根據(jù)事先確定的K個類別反復迭代直到把每個樣本分到指定的里類別中。類別數(shù)目的確定具有一定的主主觀性,究竟分多少類合適,需要研究者對研究問題的了解程度、相關(guān)知識和經(jīng)驗,K-均值聚類(步驟),3.2 K-均值聚類的應(yīng)用,K-均值聚類,2008年8月,【例】根據(jù)我國31個省市自治區(qū)2006年的6項主要經(jīng)濟指標數(shù)據(jù),采用層次聚類法進行分類,并對結(jié)果進行分析,K-均值聚類的應(yīng)用 (實例分析),31個地區(qū)的6項經(jīng)濟指標,2008
20、年8月, 數(shù)據(jù)檢查 若原始變量取值差異較大,應(yīng)先將原始數(shù)據(jù)進行標準化,避免變量值差異過大對分類結(jié)果的影響 可以先觀察6項經(jīng)濟指標的有關(guān)描述統(tǒng)計量,K-均值聚類的應(yīng)用 (實例分析),2008年8月, 數(shù)據(jù)標準化(SPSS) 【Analyze】【Descriptive Statistics】 【Descriptives】主對話框 將需要標準化的變量選入【Variable(s)】 【Save standardized values as variables】 【OK】,K-均值聚類的應(yīng)用 (實例分析),31個地區(qū)的6項經(jīng)濟指標的標準化,2008年8月,K-均值聚類的應(yīng)用 (實例分析),分成4類的初始
21、聚類中心,該表列出每一類別的初始聚類中心,本例的這些中心是由SPSS自動生成的,它實際上就是數(shù)據(jù)集中的某一條記錄。聚類中心的選擇原則是中心點距離其他點盡可能遠。例如,第一類的聚類中心是3.17960,這實際上就是上海的人均GDP標準化后的值。第二類聚類中心是1.83293則是天津的標準化人均GDP,等等,2008年8月,K-均值聚類的應(yīng)用 (實例分析),分成4類的迭代過程, 該表從表中可以看出每次迭代過程中類別中心的變化,隨著迭代次數(shù)的增加,類別中心點的變化越來越小。本例只4次就已經(jīng)收斂了,2008年8月,K-均值聚類的應(yīng)用 (實例分析),分成4類的最終聚類中心, 表中的數(shù)據(jù)表示各個類別在各變
22、量上的平均值。如,第一類的2.88521表示被分到第一類的地區(qū)(北京和上海)標準化后的人均GDP平均值,2008年8月,K-均值聚類的應(yīng)用 (實例分析),分類后各個變量在類別之間的方差分析表, 利用方差分析表可以判斷所分的類別是否合理。從表中可以看出,分類后各變量在不同類別之間的差異都是顯著的(P值均接近0),2008年8月,K-均值聚類的應(yīng)用 (實例分析),分成4類時每一類的地區(qū)數(shù)量, 由該表可以看出,第一類包括2個地區(qū),第二類包括11個地區(qū),第三類包括4個地區(qū),第四類包括14個地區(qū),2008年8月,K-均值聚類的應(yīng)用 (實例分析),分成4類時每個地區(qū)所屬的類別,2008年8月,K-均值聚類的應(yīng)用 (分類匯總),3.3 使用聚類方法的注意事項,K-均值聚類,2008年8月,除分層聚類法和K-均值聚類法外,1996年還提出一種新的聚類方法,即兩步聚類法(TwoStep Cluster)(SPSS提供了該聚類方法的程序) 無論那種分類方法,最終要分成多少類別,并不是完全由方法本身來決定,研究者應(yīng)結(jié)合具體問題而定 聚類分析是一種探索性的數(shù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025福建泉州石獅產(chǎn)投教育集團有限公司招聘工作人員1人備考題庫及1套參考答案詳解
- (2025年)高級保安模擬考試題附答案
- 2025年食品安全員業(yè)務(wù)培訓考試題庫(答案+解析)
- 2025年古典園林考試題及答案
- 2025廣東廣州花都城投廣電城市服務(wù)有限公司招聘項目用工人員2人備考題庫及答案詳解(奪冠系列)
- 2025國家電投集團中國電力招聘26人備考題庫(含答案詳解)
- 2025陜西水務(wù)發(fā)展集團所屬企業(yè)社會招聘備考題庫及答案詳解1套
- 2025年砌筑工考試試題及答案
- 2025年VB基礎(chǔ)復習試題與答案
- 2025年產(chǎn)科門診針刺傷應(yīng)急演練試題含答案
- 能源行業(yè)人力資源開發(fā)新策略
- 工作照片拍攝培訓課件
- 2025年海南三亞市吉陽區(qū)教育系統(tǒng)公開招聘編制教師122人(第1號)筆試歷年典型考題(歷年真題考點)解題思路附帶答案詳解
- 2026年孝昌縣供水有限公司公開招聘正式員工備考題庫參考答案詳解
- 托管學校合作合同協(xié)議
- 產(chǎn)品銷售團隊外包協(xié)議書
- 2025年醫(yī)保局支部書記述職報告
- 汽車充電站安全知識培訓課件
- 世說新語課件
- 全體教師大會上副校長講話:點醒了全校200多名教師!毀掉教學質(zhì)量的不是學生是這7個環(huán)節(jié)
- 民航招飛pat測試題目及答案
評論
0/150
提交評論