聚類分析方法與SPSS_第1頁
聚類分析方法與SPSS_第2頁
聚類分析方法與SPSS_第3頁
聚類分析方法與SPSS_第4頁
聚類分析方法與SPSS_第5頁
已閱讀5頁,還剩26頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

聚類分析方法基于SPSS應(yīng)用軟件精選ppt(一)聚類分析的一般問題1.聚類分析的意義聚類分析是統(tǒng)計中研究物以類聚的多元統(tǒng)計分析方法,針對的是生活中廣泛存在的聚類現(xiàn)象和形成的統(tǒng)計分析方法;例如:市場細(xì)分和客戶細(xì)分問題;聚類分析是將一組數(shù)據(jù)(變量)按照其不同的特征(或者在樣本上的不同表現(xiàn))自動分成若干類,類內(nèi)部有相似性,類之間有區(qū)別;精選ppt理解聚類分析的關(guān)鍵

(1)首先不知道數(shù)據(jù)到底是來自幾個類;(2)第二不知道每個數(shù)據(jù)到底是那一類;(3)第三也不知道類和類的界限是什么;(4)所謂親疏程度就是兩個數(shù)據(jù)(變量)綜合考慮各指標(biāo)后的接近程度;精選ppt2.聚類分析中的“親疏程度”的度量方法數(shù)據(jù)中,個體之間的親疏程度是非常重要的,因為我們正是依靠這種親疏程度來將進(jìn)行類的合并和分化;親疏程度的測度一般可以有兩個角度:個體間的相似程度,越相似兩個體越接近,可以用相似系數(shù)來描述這種相似程度;個體間的差異程度,即個體間的距離,距離越近則個體越接近;精選ppt首先要將數(shù)據(jù)看成空間中的一個點,以此來定義距離,距離的定義有很多,可以分為歐氏距離,明氏距離,夾角余弦等;根據(jù)變量的類型不同,距離的定義方式也不同,比如定距型變量和計數(shù)型變量的距離就不一樣;精選ppt3.聚類分析的幾點說明所選的變量應(yīng)該符合聚類的要求,一定要選取與分析的目標(biāo)有關(guān)的變量,而不要選取無關(guān)的變量;各變量的變量值不應(yīng)該在數(shù)量級上有差異,數(shù)量級上的差異可能帶來距離上不準(zhǔn)確從而影響聚類效果,解決的方法是先將數(shù)據(jù)標(biāo)準(zhǔn)化;各變量間不應(yīng)該有較強(qiáng)的線性相關(guān)關(guān)系,否則其中一個變量就沒有用了;精選ppt常見的聚類分析方法有兩種:層次聚類和K-Mean聚類,這兩種方法SPSS都提供菜單操作。精選ppt(二)層次聚類1.層次聚類的兩種類型和兩種方式層次聚類又稱系統(tǒng)聚類,聚類過程按照一定的層次進(jìn)行,即從小類到大類的層次,有兩種類型:Q型聚類和R型聚類,聚類方式也分兩種:凝聚型聚類和分解型聚類;Q型聚類是對樣本進(jìn)行聚類,R型聚類是對變量進(jìn)行聚類;精選ppt凝聚方式聚類的思想是首先每個樣本自成一類,然后按照某種方法度量個體間的親疏程度,將其中最親密的個體聚成一小類,然后以此繼續(xù)下去,直到最后只剩下一個類;分解方式聚類的思想是首先所有個體都成為一個大類,然后按照某種方法度量親疏程度,將最疏遠(yuǎn)的個體分離除去形成兩個類,以此繼續(xù)下去,知道每一個個體自成一類;在SPSS中采用凝聚方式的聚類方法精選ppt2.個體與小類,小類與小類之間的親疏程度的度量方法SPSS提供了很多度量小類與小類之間的親疏程度的方法,下面分別介紹幾種:精選ppt“Cluster”共有七種進(jìn)行聚類的方法:①“Between-groupslinkage”類間平均法,當(dāng)兩類之間所有個案之間距離的平均值最小時,這兩類可以合并為一類。這是系統(tǒng)缺省的方法。②“Within-groupslinkage”類內(nèi)平均法,當(dāng)合并后所有個案的距離的平均值最小時,這兩類可以合并為一類。③“Nearestneighbor”最短距離法,當(dāng)兩類之間最近的個案之間的距離最小時,這兩類可以合并為一類。精選ppt④“Furthestneighbor”最長距離法,當(dāng)兩類之間最遠(yuǎn)的個案之間的距離最小時,這兩類可以合并為一類。⑤“Centroidclustering”重心法,當(dāng)兩類中重心的距離最小時,這兩類可以合并為一類。⑥“Medianclustering”中心法,當(dāng)兩類中心的距離最小時,這兩類可以合并為一類。⑦“Ward'smethod”離差平方和法,當(dāng)合并后類內(nèi)部的各個個案距離的離差平方和最小時,這兩類可以合并為一類。精選ppt啤酒成分和價格數(shù)據(jù)啤酒名 熱量 鈉含量 酒精 價格Budweiser 144.00 19.00 4.70 .43Schlitz 181.00 19.00 4.90 .43Ionenbrau 157.00 15.00 4.90 .48Kronensourc 170.00 7.00 5.20 .73Heineken 152.00 11.00 5.00 .77Old-milnaukee 145.00 23.00 4.60 .26Aucsberger 175.00 24.00 5.50 .40Strchs-bohemi 149.00 27.00 4.70 .42Miller-lite 99.00 10.00 4.30 .43Sudeiser-lich 113.00 6.00 3.70 .44Coors 140.00 16.00 4.60 .44Coorslicht 102.00 15.00 4.10 .46Michelos-lich 135.00 11.00 4.20 .50Secrs 150.00 19.00 4.70 .76Kkirin 149.00 6.00 5.00 .79Pabst-extra-l 68.00 15.00 2.30 .36Hamms 136.00 19.00 4.40 .43Heilemans-old 144.00 24.00 4.90 .43Olympia-gold- 72.00 6.00 2.90 .46Schlite-light 97.00 7.00 4.20 .47精選ppt分層聚類的命令:執(zhí)行[Analyze][Classify][HierarchicalCluster],精選ppt精選ppt選擇變量進(jìn)入“Variable(s)”中選擇聚類類型“Cluster”(單選項):樣本聚類Cases(“Q聚類”)或變量聚類Variable(“R聚類”)

“display”中可以選擇(復(fù)選項):

“Statistics”只計算統(tǒng)計分析?!皃lots”只產(chǎn)生圖像。精選ppt按鈕“Statistics”將產(chǎn)生輸出統(tǒng)計量:精選ppt“Agglomerationschedule”為生成并類過程表。在表中將顯示并類過程中的并類信息,包括:并類距離值、在相應(yīng)值上的并類類別和類間關(guān)系??梢愿鶕?jù)并類過程表了解聚類過程?!癙roximitymatrix”產(chǎn)生測度矩陣。測度矩陣可以顯示出并類過程中各類之間的距離或相關(guān)性?!癈lusterMembership”聚類成員關(guān)系表。在并類過程中,各個個案被并到哪一類:精選ppt“None”不顯示聚類成員關(guān)系表?!癝inglesolution”顯示指定類數(shù)時聚類成員關(guān)系表。指定的類數(shù)應(yīng)當(dāng)是小于等于個案個數(shù),大于等于1的整數(shù)。當(dāng)聚類到達(dá)此指定的數(shù)值時,將在輸出窗口顯示各個個案所屬的類?!癛angeofsolutions”顯示聚類成員在指定并類范圍內(nèi)所屬類的關(guān)系表。指定的范圍也應(yīng)當(dāng)是在個案數(shù)與1之間的整數(shù)。精選ppt按鈕“Plots”將產(chǎn)生聚類圖形精選ppt“Dendrogram”生成樹狀圖“Icicle”生成冰柱圖“Allclusters”全過程冰柱圖“Specifiedrangeofclusters”指定并類范圍冰柱圖“None”不生成冰柱圖“Orientaton”圖形取向:豎直的Vertical和水平的Horizontal精選ppt按鈕“Method”為聚類方法選擇精選ppt定義樣本點間的相似度。精選ppt選擇對變量作標(biāo)準(zhǔn)化處理的方法精選ppt精選ppt(三)K-Means聚類層次聚類執(zhí)行效率不是很理想,而這方面正是K-Means聚類的特長;K-Means聚類分析的核心步驟第一步,指定聚類的數(shù)目,假設(shè)要分成K類;第二步,確定類的初始中心;可以有兩種方式指定類的初始中心,可以用戶自定義,也可以讓系統(tǒng)自己確定;第三步,根據(jù)距離最近原則進(jìn)行聚類;重新確定K個類的中心;判斷是否滿足停止聚類分析的條件;精選pptK均值法(快速聚類、動態(tài)聚類)精選ppt1.K-Means聚類分析的核心步驟聚類分析終止的條件有兩個:迭代次數(shù),當(dāng)前迭代次數(shù)等于設(shè)定的迭代次數(shù),SPSS默認(rèn)迭代10次便終止聚類;類中心點偏移的程度,以迭代前后中心點的最大偏移量是否超過預(yù)定值,默認(rèn)0.02;通過設(shè)定恰當(dāng)?shù)牡螖?shù)和偏移標(biāo)準(zhǔn),可以有效克服初始類中心點指定時可能存在的方差,提高聚類分析準(zhǔn)確性;精選ppt在Method框中是否調(diào)整類中心點,其中Iterateandclassify表示由SPSS自動調(diào)整類中心,Classify表示在迭代中不更改類中心;通過Iterate按鈕去定終止聚類的條件,Maximumiteration標(biāo)志最大迭代數(shù),在ConvergenceCriterion,Usingrunningmeans選型可以每進(jìn)入一個新數(shù)據(jù)就計算一次;2.K-Means聚類分析的基本操作精選ppt將參與K-Means聚類分析的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論