聚類分析方法與SPSS

上傳人：兒*** IP屬地：廣東上傳時間：2023-01-13 格式：PPT 頁數(shù)：31 大?。?94KB 積分：20 舉報 版權(quán)申訴

已閱讀5頁，還剩26頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

聚類分析方法基于SPSS應(yīng)用軟件精選ppt（一）聚類分析的一般問題1.聚類分析的意義聚類分析是統(tǒng)計中研究物以類聚的多元統(tǒng)計分析方法，針對的是生活中廣泛存在的聚類現(xiàn)象和形成的統(tǒng)計分析方法；例如：市場細(xì)分和客戶細(xì)分問題；聚類分析是將一組數(shù)據(jù)（變量）按照其不同的特征（或者在樣本上的不同表現(xiàn)）自動分成若干類，類內(nèi)部有相似性，類之間有區(qū)別；精選ppt理解聚類分析的關(guān)鍵

(1)首先不知道數(shù)據(jù)到底是來自幾個類；(2)第二不知道每個數(shù)據(jù)到底是那一類；(3)第三也不知道類和類的界限是什么；(4)所謂親疏程度就是兩個數(shù)據(jù)（變量）綜合考慮各指標(biāo)后的接近程度；精選ppt2.聚類分析中的“親疏程度”的度量方法數(shù)據(jù)中，個體之間的親疏程度是非常重要的，因為我們正是依靠這種親疏程度來將進(jìn)行類的合并和分化；親疏程度的測度一般可以有兩個角度：個體間的相似程度，越相似兩個體越接近，可以用相似系數(shù)來描述這種相似程度；個體間的差異程度，即個體間的距離，距離越近則個體越接近；精選ppt首先要將數(shù)據(jù)看成空間中的一個點，以此來定義距離，距離的定義有很多，可以分為歐氏距離，明氏距離，夾角余弦等；根據(jù)變量的類型不同，距離的定義方式也不同，比如定距型變量和計數(shù)型變量的距離就不一樣；精選ppt3.聚類分析的幾點說明所選的變量應(yīng)該符合聚類的要求，一定要選取與分析的目標(biāo)有關(guān)的變量，而不要選取無關(guān)的變量；各變量的變量值不應(yīng)該在數(shù)量級上有差異，數(shù)量級上的差異可能帶來距離上不準(zhǔn)確從而影響聚類效果，解決的方法是先將數(shù)據(jù)標(biāo)準(zhǔn)化；各變量間不應(yīng)該有較強(qiáng)的線性相關(guān)關(guān)系，否則其中一個變量就沒有用了；精選ppt常見的聚類分析方法有兩種：層次聚類和K－Mean聚類，這兩種方法SPSS都提供菜單操作。精選ppt（二）層次聚類1.層次聚類的兩種類型和兩種方式層次聚類又稱系統(tǒng)聚類，聚類過程按照一定的層次進(jìn)行，即從小類到大類的層次，有兩種類型：Q型聚類和R型聚類，聚類方式也分兩種：凝聚型聚類和分解型聚類；Q型聚類是對樣本進(jìn)行聚類，R型聚類是對變量進(jìn)行聚類；精選ppt凝聚方式聚類的思想是首先每個樣本自成一類，然后按照某種方法度量個體間的親疏程度，將其中最親密的個體聚成一小類，然后以此繼續(xù)下去，直到最后只剩下一個類；分解方式聚類的思想是首先所有個體都成為一個大類，然后按照某種方法度量親疏程度，將最疏遠(yuǎn)的個體分離除去形成兩個類，以此繼續(xù)下去，知道每一個個體自成一類；在SPSS中采用凝聚方式的聚類方法精選ppt2.個體與小類，小類與小類之間的親疏程度的度量方法SPSS提供了很多度量小類與小類之間的親疏程度的方法，下面分別介紹幾種：精選ppt“Cluster”共有七種進(jìn)行聚類的方法：①“Between-groupslinkage”類間平均法，當(dāng)兩類之間所有個案之間距離的平均值最小時，這兩類可以合并為一類。這是系統(tǒng)缺省的方法。②“Within-groupslinkage”類內(nèi)平均法，當(dāng)合并后所有個案的距離的平均值最小時，這兩類可以合并為一類。③“Nearestneighbor”最短距離法，當(dāng)兩類之間最近的個案之間的距離最小時，這兩類可以合并為一類。精選ppt④“Furthestneighbor”最長距離法，當(dāng)兩類之間最遠(yuǎn)的個案之間的距離最小時，這兩類可以合并為一類。⑤“Centroidclustering”重心法，當(dāng)兩類中重心的距離最小時，這兩類可以合并為一類。⑥“Medianclustering”中心法，當(dāng)兩類中心的距離最小時，這兩類可以合并為一類。⑦“Ward'smethod”離差平方和法，當(dāng)合并后類內(nèi)部的各個個案距離的離差平方和最小時，這兩類可以合并為一類。精選ppt啤酒成分和價格數(shù)據(jù)啤酒名熱量鈉含量酒精價格Budweiser 144.00 19.00 4.70 .43Schlitz 181.00 19.00 4.90 .43Ionenbrau 157.00 15.00 4.90 .48Kronensourc 170.00 7.00 5.20 .73Heineken 152.00 11.00 5.00 .77Old-milnaukee 145.00 23.00 4.60 .26Aucsberger 175.00 24.00 5.50 .40Strchs-bohemi 149.00 27.00 4.70 .42Miller-lite 99.00 10.00 4.30 .43Sudeiser-lich 113.00 6.00 3.70 .44Coors 140.00 16.00 4.60 .44Coorslicht 102.00 15.00 4.10 .46Michelos-lich 135.00 11.00 4.20 .50Secrs 150.00 19.00 4.70 .76Kkirin 149.00 6.00 5.00 .79Pabst-extra-l 68.00 15.00 2.30 .36Hamms 136.00 19.00 4.40 .43Heilemans-old 144.00 24.00 4.90 .43Olympia-gold- 72.00 6.00 2.90 .46Schlite-light 97.00 7.00 4.20 .47精選ppt分層聚類的命令:執(zhí)行[Analyze][Classify][HierarchicalCluster]，精選ppt精選ppt選擇變量進(jìn)入“Variable(s)”中選擇聚類類型“Cluster”(單選項)：樣本聚類Cases(“Q聚類”)或變量聚類Variable(“R聚類”)

“display”中可以選擇(復(fù)選項)：

“Statistics”只計算統(tǒng)計分析?！皃lots”只產(chǎn)生圖像。精選ppt按鈕“Statistics”將產(chǎn)生輸出統(tǒng)計量：精選ppt“Agglomerationschedule”為生成并類過程表。在表中將顯示并類過程中的并類信息，包括：并類距離值、在相應(yīng)值上的并類類別和類間關(guān)系?？梢愿鶕?jù)并類過程表了解聚類過程?！癙roximitymatrix”產(chǎn)生測度矩陣。測度矩陣可以顯示出并類過程中各類之間的距離或相關(guān)性?！癈lusterMembership”聚類成員關(guān)系表。在并類過程中，各個個案被并到哪一類：精選ppt“None”不顯示聚類成員關(guān)系表?！癝inglesolution”顯示指定類數(shù)時聚類成員關(guān)系表。指定的類數(shù)應(yīng)當(dāng)是小于等于個案個數(shù)，大于等于1的整數(shù)。當(dāng)聚類到達(dá)此指定的數(shù)值時，將在輸出窗口顯示各個個案所屬的類?！癛angeofsolutions”顯示聚類成員在指定并類范圍內(nèi)所屬類的關(guān)系表。指定的范圍也應(yīng)當(dāng)是在個案數(shù)與1之間的整數(shù)。精選ppt按鈕“Plots”將產(chǎn)生聚類圖形精選ppt“Dendrogram”生成樹狀圖“Icicle”生成冰柱圖“Allclusters”全過程冰柱圖“Specifiedrangeofclusters”指定并類范圍冰柱圖“None”不生成冰柱圖“Orientaton”圖形取向：豎直的Vertical和水平的Horizontal精選ppt按鈕“Method”為聚類方法選擇精選ppt定義樣本點間的相似度。精選ppt選擇對變量作標(biāo)準(zhǔn)化處理的方法精選ppt精選ppt（三）K-Means聚類層次聚類執(zhí)行效率不是很理想，而這方面正是K-Means聚類的特長；K-Means聚類分析的核心步驟第一步，指定聚類的數(shù)目，假設(shè)要分成K類；第二步，確定類的初始中心；可以有兩種方式指定類的初始中心，可以用戶自定義，也可以讓系統(tǒng)自己確定；第三步，根據(jù)距離最近原則進(jìn)行聚類；重新確定K個類的中心；判斷是否滿足停止聚類分析的條件；精選pptK均值法（快速聚類、動態(tài)聚類）精選ppt1.K-Means聚類分析的核心步驟聚類分析終止的條件有兩個：迭代次數(shù)，當(dāng)前迭代次數(shù)等于設(shè)定的迭代次數(shù)，SPSS默認(rèn)迭代10次便終止聚類；類中心點偏移的程度，以迭代前后中心點的最大偏移量是否超過預(yù)定值，默認(rèn)0.02；通過設(shè)定恰當(dāng)?shù)牡螖?shù)和偏移標(biāo)準(zhǔn)，可以有效克服初始類中心點指定時可能存在的方差，提高聚類分析準(zhǔn)確性；精選ppt在Method框中是否調(diào)整類中心點，其中Iterateandclassify表示由SPSS自動調(diào)整類中心，Classify表示在迭代中不更改類中心；通過Iterate按鈕去定終止聚類的條件，Maximumiteration標(biāo)志最大迭代數(shù)，在ConvergenceCriterion，Usingrunningmeans選型可以每進(jìn)入一個新數(shù)據(jù)就計算一次；2.K-Means聚類分析的基本操作精選ppt將參與K-Means聚類分析的

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

聚類分析方法與SPSS

文檔簡介

溫馨提示

最新文檔

評論

聚類分析方法與SPSS

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔