spss做聚類分析.ppt_第1頁
spss做聚類分析.ppt_第2頁
spss做聚類分析.ppt_第3頁
spss做聚類分析.ppt_第4頁
spss做聚類分析.ppt_第5頁
已閱讀5頁,還剩34頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、用SPSS作聚類分析,以經(jīng)濟效益數(shù)據(jù)為例,用聚類分析法對各省市作分類 (見spssex-4/全國各省市經(jīng)濟效益數(shù)據(jù)) 以城鎮(zhèn)居民消費資料為例,用聚類分析法對各省市作分類 (見spssex-4/城鎮(zhèn)居民消費支出資料),毛本清 2010.08.27,SPSS中的聚類分析,Spss中的聚類功能常用的有兩種: 快速聚類(迭代過程): K-Means Cluster 系統(tǒng)聚類:Hierarchical Cluster,毛本清 2010.08.27,一、Hierarchical Cluster聚類,系統(tǒng)聚類由兩種方法:分解法和凝聚法。 系統(tǒng)聚類的功能:即可進行樣品的聚類,也可進行變量的聚類。 系統(tǒng)聚類的原

2、理:即我們前面介紹過的系統(tǒng)聚類方法的原理和過程。,毛本清 2010.08.27,系統(tǒng)聚類的中要進行以下的選擇: 數(shù)據(jù)的標準化 測度方法的選擇:距離方法的選擇或相似性、關(guān)聯(lián)程度的選擇。 聚類方法的選擇:即以什么方法聚類,spss中提供了7中方法可進行選擇。 輸出圖形的選擇:樹形圖或冰柱圖。,毛本清 2010.08.27,系統(tǒng)聚類,毛本清 2010.08.27,見(一)聚類方法,見( 二)各種距離和相似系數(shù),毛本清 2010.08.27,Method,聚類方法,標準化變換,親疏關(guān)系指標,毛本清 2010.08.27,(一)聚類方法 1.Between-groups linkage 類間平均法 兩類

3、距離為兩類元素兩兩之間平均平方距離 2.Within-groups linkage 類內(nèi)平均法 兩類距離為合并后類中可能元素兩兩之間平均平方距離 3.Nearest neighbor 最短距離法 4. Furthest neighbor 最長距離法 5.Centroid clustering 重心法 (歐式距離) 6.Median clustering 中間距離法 (歐式距離) 7.Ward Method 離差平方法 (歐式距離),毛本清 2010.08.27,1.squared euclidean distance 平方歐式距離 2. euclidean distance 歐式距離 3.co

4、sine 夾角余弦(R型) 4.pearson correlation 皮爾遜相關(guān)系數(shù)(R) 5.chebychev 切比雪夫距離,(二)各種距離和相似系數(shù)(親疏關(guān)系指標),毛本清 2010.08.27,6.block 絕對值距離 7.minkowski 明考斯基 8.customized,毛本清 2010.08.27,毛本清 2010.08.27,Statistics,聚類進度表,相似矩陣,樣品或變量的分類情況,毛本清 2010.08.27,毛本清 2010.08.27,凝聚狀態(tài)表的第一列表示聚類分析的第幾步;第二列、第三列表示本步聚類中哪兩個樣本或小類聚成一類;第四列是相應(yīng)的樣本距離或小類

5、距離;第五列、第六列表明本步聚類中,參與聚類的是樣本還是小類。0表示樣本,數(shù)字n(非0)表示由第n步聚類產(chǎn)生的小類參與本步聚類;第七列表示本步聚類的結(jié)果將在下面聚類的第幾步中用到。,毛本清 2010.08.27,毛本清 2010.08.27,Plot,樹狀結(jié)構(gòu)圖,冰柱圖,冰柱的方向,毛本清 2010.08.27,Vertical Icicle,6 7,毛本清 2010.08.27,冰柱圖因其樣子非常象冬天房頂垂下的冰柱得名,它以圖形的方式顯示層次聚類分析結(jié)果,一般從冰柱圖的最后一行開始觀察,第一列表示類數(shù)。兩樣品之間的“”表示將其兩邊的樣品(類)聯(lián)結(jié)起來聚成新類。,毛本清 2010.08.27

6、,毛本清 2010.08.27,應(yīng)用舉例:,4-1,毛本清 2010.08.27,首先對表4-1中的原始數(shù)據(jù)進行標準化變換處理,經(jīng)過運算使數(shù)據(jù)標準化得到表4-2,使它的每列數(shù)據(jù)的平均值為0,方差為1,這樣表4-1中5列具有不同量綱、不同數(shù)量級的數(shù)據(jù),不同地區(qū)數(shù)據(jù)求出歐氏距離。,就能放在一起比較;其次用表4-2中經(jīng)過標準化處理后的30個,毛本清 2010.08.27,毛本清 2010.08.27,毛本清 2010.08.27,表4-1,毛本清 2010.08.27,毛本清 2010.08.27,表 4-2,毛本清 2010.08.27,毛本清 2010.08.27,毛本清 2010.08.27,

7、K-Means Cluster聚類,毛本清 2010.08.27,K-Means Cluster原理,首先,選擇n個數(shù)值型變量參與聚類分析,最后要求的聚類數(shù)為k個; 其次,由系統(tǒng)選擇k個(聚類的類數(shù))觀測量(也可由用戶指定)作為聚類的種子。 第三,按照距離這些類中心的距離最小的原則把所有觀測量(樣品)分派到各類重心所在的類中去。 第四,這樣每類中可能由若干個樣品,計算每個類中各個變量的均值,以此作為第二次迭代的中心; 第五,然后根據(jù)這個中心重復(fù)第三、第四步,直到中心的迭代標準達到要求時,聚類過程結(jié)束。,毛本清 2010.08.27,K-Means Cluster聚類過程,由AnalyzeCla

8、ssify K-Means Cluster 將個變量放入Variable ; 輸入最后聚類的個數(shù);,毛本清 2010.08.27,例 飲料數(shù)據(jù)(spssex/drink.sav ),16種飲料的熱量、咖啡因、鈉及價格四種變量,毛本清 2010.08.27,快速聚類,毛本清 2010.08.27,選項,讀寫凝聚點,人為固定分類數(shù),ANOVA表, 初始凝聚點等,毛本清 2010.08.27,快速聚類法的聚類數(shù)由用戶指定,分類是唯一的。 1.分類數(shù):如希望聚成K類 2.聚類方法:method: iterate and clussify(聚類分析的 clussify only(聚類分析過程類中心 3.

9、聚類中心:centers 4.迭代次數(shù):iterate 5.保存分類結(jié)果:save,每一步都重新計算新的類中心點),點始終為初始類中心點,僅作一次迭代),毛本清 2010.08.27,Initial Cluster Center:快速聚類的初始類中心點(本例由系統(tǒng)自行指定四個類的初始類中心點),指定聚成四類,毛本清 2010.08.27,Iteration History:快速聚類的迭代步驟 在迭代過程中,完成第一次迭代后形成的四個新類中心點距初始類中心點的歐氏距離分別為5.065、12.532、12.275、25.901。第四次迭代后形成的四個新類中心點幾乎與上次確定的中心點沒有差別。經(jīng)過四次迭代,快速聚類完成。,毛本清 2010.08.27,快速

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論