版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第三章 聚類分析cluster analysis,概述 距離與相似系數(shù) 系統(tǒng)聚類法 (hierarchical clustering ) 快速聚類法 (k-means clustering) 變量聚類,聚類分析是多元分析的主要方法之一,主要用來對大量的樣品或變量進行分類,是初步數(shù)據(jù)分析的重要工具之一。,一、概述,聚類的實質 根據(jù)樣本(變量)間的親疏關系將樣本(變量)分為類,相近的歸為一類,差別較大的歸為另一類。所獲得的分類應有一定的意義。 聚類分析的關鍵 親疏關系的判別:相似性與距離(不相似性) 分類數(shù)的確定:分多少類合適,聚類分析的應用,不同地區(qū)城鎮(zhèn)居民收入和消費狀況的分類研究。 區(qū)域經濟及
2、社會發(fā)展水平的分析及全國區(qū)域經濟綜合評價 產品市場細分:按照消費者的需求特征分成不同的細分市場 在兒童生長發(fā)育研究中,把以形態(tài)學為主的指標歸于一類,以機能為主的指標歸于另一類,聚類分析的類型,根據(jù)分類的對象 Q型聚類(即樣品聚類clustering for individuals) R型聚類(指標聚類clustering for variables) 根據(jù)分類的方法: 系統(tǒng)聚類(hierarchical clustering ) 快速聚類(k-means clustering),聚類分析數(shù)據(jù)格式,k,二、距離與相似系數(shù),樣本間的親疏關系通常用距離描述,變量間的親疏關系通常用相似系數(shù)或相關系數(shù)描
3、述 不同測量尺度的數(shù)據(jù),其距離的計算方法不同,(一)、距離:樣本間的親疏關系,距離的定義: 假使每個樣品由p個變量描述,則每個樣品都可以看成p維空間中的一個點,n個樣品就是p維空間中的n個點,則第i樣品與第j樣品之間的距離記為dij dij滿足下列條件 dij0 dii =0 dij = dji dij dik + dkj,1. 歐式(Euclidian )距離,2. 明氏(Minkowski )距離,當q=1, 為絕對值距離,SPSS稱為block 當q=2,即為歐式距離 當q=,有 , 稱為切比雪夫(Chebychev)距離,實例計算,品,距離矩陣,絕對值距離,品,Euclidian距離的
4、平方,2,Euclidian距離,明氏距離的缺點,各指標同等對待(權數(shù)相同),不能反映各指標變異程度上的差異 距離的大小與各指標的觀測單位有關,有時會出現(xiàn)不合理結果(p7,圖1-1例) 沒有考慮指標之間的相關性,當各指標的測量值相差懸殊時,可以先對數(shù)據(jù)標準化,然后用標準化后的數(shù)據(jù)計算距離,3. 馬氏(Mahalanobis) 距離,明氏距離沒有考慮數(shù)據(jù)中的協(xié)方差模式,馬氏距離則考慮了協(xié)方差,且不受指標測量單位的影響:,已知一二維正態(tài)總體G的分布為:GN(,),其中,分別求點A=(1,1), 和點B=(1,-1)到均值的歐式距離和馬氏距離,歐式等距離線,馬氏等距離線,Mahalanobis 距離
5、例,A,B,歐氏距離、標準化變量的歐式距離與馬氏距離的比較,4. Lance和Williams 距離,對標準化變量:,5. 配合距離,前幾類距離多用于定距和定比尺度數(shù)據(jù),對于定類和定序變量:,配合距離例,4種品牌的軟飲料在4個方面的特性:是否可樂口味?是否含有咖啡因?是否節(jié)食飲料?是否可口可樂公司產?,距離矩陣,1. 夾角余弦(Cosine),(二)相似系數(shù):變量間的親疏關系,受相似形的啟發(fā)而來,AB和CD盡管長度不一,但形狀相似,A,B,D,C,2. Pearson相關系數(shù),(二)相似系數(shù),SPSS的analyze corelatedistances,Measures對話框,定距尺度,定序尺
6、度,定類尺度,三、系統(tǒng)聚類法,聚合法,分解法,通常分為兩步:先做出類別距離譜系圖,再根據(jù)譜系圖的特點確定分類數(shù)并分類,Agglomerative系統(tǒng)聚類法基本步驟,步驟1:將n個樣品各作為一類,共n類:C1、 C2、 Cn。計算各類之間的距離,構成距離矩陣:dcicj=dij 步驟2:找到距離最近的兩類合并為一新類 步驟3:計算新類與當前各類的距離。 重復步驟2、3,直至合并成一類為止,形成譜系圖 根據(jù)譜系圖確定如何分類,單樣本類,類與類之間的距離為樣品距離,類間距離,類與類間距離,類與類之間的距離,1.最短距離法(single linkage) 2.最長距離法(complete linkag
7、e) 3.中間距離法(median method) 4.類平均法(average linkage) 5.可變類平均法(flexible-beta method) 6.重心法(centroid method) 7.Ward離差平方和法(Wards minimum-variance method),Agglomerative Methods:各種不同方法的基本步驟相同, 只是類與類之間距離的計算方法不同。,(一)最短距離法,類與類之間的 距離是兩類間 兩兩樣品間的 最短距離,6個民族的粗死亡率與期望壽命,哈薩克與藏族的距離最短,最先合并形成新類CL7,新類CL7和其余四類的距離,第二次合并,新類和
8、各類的距離,第三次合并,第四次合并,最后合并成一類,譜系圖不顯示實際距離,顯示0-25的比例距離,樹狀圖,冰柱圖,1,2,3,4,5,融合在一起的為一類,(二)最長距離法,類與類之間的 距離是兩類間 兩兩樣品間的 最長距離,前例:最長距離法,第1次合并仍取最短歐式距離,新類和各類的距離:取最大值,第2次合并,新類和各類的距離:取最大值,第3次合并,第4次合并,最后合并,(三)中間距離法(median method),最長距離夸大了類間距離,最短距離低估了類間距離。介于兩者間的距離即為中間距離,(四)類平均法(average linkage between group),SPSS作為默認方法,稱
9、為 between-groups linkage,(五)重心法(centroid method),類與類間的距離用各自重心間的歐式距離表示,(六)Ward最小方差法(Ward minimum variance method),源于方差分析。 類內離差平方和:類中各樣品到類重心(均值)的平方歐式距離之和。 基本思路:兩類合并后,離差平方和就會增加。每次選擇使離差平方和增加(SSMSSKSSL)最小的兩類進行合并,直至所有的樣品歸為一類。,(七)各種系統(tǒng)聚類方法的統(tǒng)一,以上聚類方法的計算步驟完全相同,僅類與類之間的定義不同。Lance和Williams于1967年將其統(tǒng)一為:,八種系統(tǒng)聚類法公式的
10、參數(shù),注意:幾種聚類方法獲得的結果不一定相同,最長距離法,最短距離法,分類數(shù)的確定及類別的解釋,系統(tǒng)聚類法給我們提供了一個類別距離譜系,最終樣本如何分類、分成幾類需要我們自己根據(jù)研究的目的確定。,3類,2類,2類,系統(tǒng)聚類的SPSS實現(xiàn),指定參與聚類的變量名和樣品號,存放標識變量,選擇聚類類型,Statistics,不顯示類成員表,顯示指定范圍中每一步類成員,列出指定類數(shù)的類成員,Plot對話框,顯示聚類的每一步,指定顯示的聚類范圍,不生成冰柱圖,Method對話框,聚類方法選項,聚類方法選項,Between-group linkage: 類平均法,使兩兩項對之間的平均距離最小 Within-
11、group linkage: 類內平均連鎖,合并后的類中所有項之間的平均距離最小。兩類間的距離即是合并后的類中所有可能的觀測量對之間的距離平方。 Nearest neighbor Fartherst neighbor Centroid clustering Median clustering Wards method,距離測度方法選項,Interval: Euclidean distance Squared euclidean distance Cosine:變量矢量的余弦 Chebychev Block: Manhattan 距離,兩觀測單位間距離為其值差的絕對值和,用于Q型聚類 Minko
12、wski Customized: 距離是一個絕對冪的度量,即變量絕對值的第p次冪值和的第r次根,數(shù)值標準化的方法選項,None: 不標準化 Z scores: 標準化 Range -1 to 1: 標準化到-1到+1范圍 Maximum magnitude: 標準化到最大值1 Range 0 to 1: 標準化到0-1范圍 Mean of 1: 標準化到一個均值范圍 Standard deviation of 1: 標準化到一個標準差,Save 對話框,將分類結果存入數(shù)據(jù)文件中,生成一個新變量,表明每個個體所屬類,指定范圍內的結果,生成若干個新變量,系統(tǒng)聚類例:轎車的市場細分,對151名MBA
13、學生的轎車偏好進行調查,要求他們對10種轎車打分,分值1-10(最高分)。 10種轎車型號為:BMW328i, Ford Explorer, Infiniti J30, Jeep Grand Cherikee, Lexus ES300, Chrysler Town&Country, Merceds C280, Saab 9000, Porsche Boxster, Volvo V90. 用Wards系統(tǒng)聚類法進行分類 初分析:根據(jù)譜系圖確定分類數(shù) 樣本數(shù)太多,譜系圖不易看,可隨機抽樣,四、快速聚類法(k-means),也叫動態(tài)聚類、逐步聚類、迭代聚類 與系統(tǒng)聚類的主要區(qū)別 非層次性遞推過程 從
14、初始分類開始不斷優(yōu)化的過程 當樣本量很大時,用系統(tǒng)聚類法的計算工作量極大,作出的樹狀圖也十分復雜, 不便于分析,用快速聚類較好。,K-means process,Important: initial centroids or cluster centers and the number of clusters,注意:快速聚類需事先確定分幾類,容易產生局部最優(yōu)而非全局最優(yōu),初始分類很重要,初始凝聚點的確定,自動選擇 必須給出允許分類的最大個數(shù)k 憑經驗選擇 可以先選取部分樣本作系統(tǒng)聚類(例如用Wards方法,它與K-means的分類原則很相似),以得到初始分類的凝聚點(并確定分類數(shù)),建立一個初
15、始凝聚點數(shù)據(jù)文件,快速聚類的SPSS實現(xiàn),快速聚類主對話框,指定分類數(shù),先定初始類別中心,再按K-means算法疊代分類,僅按初始類別中心點分類,點擊centers按鈕后展開:凝聚點的輸入輸出,Iterate對話框:疊代終止準則,限定最大疊代次數(shù),限定K-means算法的收斂判據(jù):0N1,含義:當兩次疊代計算的最小的類中心的變化距離小于初始類中心距離的N%時,疊代停止。,限定在每個觀測量被分配到一類后,馬上計算新的類中心。如不選此項,則在完成了所有觀測量的一次分配后,再計算各類的類中心,Save 對話框,建立一個新變量記錄分類結果(默認名:qx1_1)。,建立一個新變量記錄各觀測量距所屬類中心
16、間的歐式距離(默認名:qc1_2),Option 對話框,例題輸出結果,類別間距離差異均顯著,轎車市場細分例-續(xù),在系統(tǒng)聚類的基礎上,用K-means進行進一步分析比較,確定最終分類數(shù),并分析結果。 分別按照分3類、4類和5類進行快速聚類,比較結果。 對結果進行分析:計算各類平均得分,五、變量聚類法,分析的目的 了解變量間及變量組合間的親疏關系 對變量進行分類 根據(jù)分類結果及它們之間的關系,在每一類中選擇有代表性的變量作為重要變量,用少數(shù)幾個重要變量進一步作分析計算,如進行回歸分析或Q型聚類。,五、變量聚類法,變量聚類例,為了研究30個省、市、自治區(qū)1991年城鎮(zhèn)居民消費的分布規(guī)律,對變量和樣
17、本分別進行聚類分析。月平均消費數(shù)據(jù)如表,其中:x1-人均糧食支出(元/人),x2-人均副食支出,x3-人均煙、酒、茶支出,x4-人均其他副食支出,x5人均衣著支出,x6-人均日用品支出,x7-人均燃料支出,x8-人均非商品支出,變量聚類例,先作樣本聚類:類平均法、ward法 再作變量聚類 樣本距離測度:夾角余弦或相關系數(shù) 類距離:最短距離法、最長距離法、類平均 注意:重心法、median、ward法都要求用歐式距離平方,數(shù)據(jù),Ward法,類平均法,樣品聚類結果,變量聚類:相關性強的指標歸并到一起,相關系數(shù),x1-人均糧食支出 x2-人均副食支出 x3-人均煙酒茶支出, x4-人均其他副食支出 x5人均衣著支出 x6-人均日用品支出, x7-人均燃料支出 x8-人均非商品支出,聚類分析 小結,1聚類分析的概念 2兩種聚類思想:系統(tǒng)聚類、快速聚類 譜系圖 確定分類數(shù) 3Q-型聚類分析 4R-型聚類分析 5SPSS的聚類分析過程 6聚類分析的結果評述,系統(tǒng)聚類的統(tǒng)計思想,對于位置類別的樣本或變量,依據(jù)相應的定義把它們分為若干類,分類過程是一個逐步減少類別的過程,在每一個聚類層次,必須滿足“類內差異小,類間差異大”原則,直至
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 課件知識要點總結報告
- 2026年計算機等級考試二級操作系統(tǒng)技能考核試題及答案
- 科技論文寫作與發(fā)表教程課件-初稿的組織和編寫
- 中醫(yī)經典方劑學習與應用心得報告
- 《舟夜書所見》教學方案與課件制作
- 消防器材合格證樣本模板下載
- 商業(yè)伙伴貿易安全合作協(xié)議范本
- 旋噴樁技術專項試樁成果分析報告
- 2026年橋梁施工的外部環(huán)境風險因素
- 中高級技術人才培養(yǎng)方案設計
- 廣西南寧市2024-2025學年高二上學期期末教學調研數(shù)學試卷(含答案)
- 2023年馬克思主義基本原理概論讀書筆記
- 鋼筋桁架樓板配筋及撓度計算小工具
- TY/T 4001.1-2018汽車自駕運動營地建設要求與開放條件
- GB/T 40692-2021政務信息系統(tǒng)定義和范圍
- GB/T 19022-2003測量管理體系測量過程和測量設備的要求
- 人工智能與教育的深度融合課件
- 國際經濟法期末導學
- 案例onyx使用內容
- 注塑機全年保養(yǎng)計劃
- 房屋建筑工程投標書范本課件
評論
0/150
提交評論