聚類分析方法與SPSS_第1頁(yè)
聚類分析方法與SPSS_第2頁(yè)
聚類分析方法與SPSS_第3頁(yè)
聚類分析方法與SPSS_第4頁(yè)
聚類分析方法與SPSS_第5頁(yè)
已閱讀5頁(yè),還剩26頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

聚類分析方法基于SPSS應(yīng)用軟件精選ppt(一)聚類分析的一般問(wèn)題1.聚類分析的意義聚類分析是統(tǒng)計(jì)中研究物以類聚的多元統(tǒng)計(jì)分析方法,針對(duì)的是生活中廣泛存在的聚類現(xiàn)象和形成的統(tǒng)計(jì)分析方法;例如:市場(chǎng)細(xì)分和客戶細(xì)分問(wèn)題;聚類分析是將一組數(shù)據(jù)(變量)按照其不同的特征(或者在樣本上的不同表現(xiàn))自動(dòng)分成若干類,類內(nèi)部有相似性,類之間有區(qū)別;精選ppt理解聚類分析的關(guān)鍵

(1)首先不知道數(shù)據(jù)到底是來(lái)自幾個(gè)類;(2)第二不知道每個(gè)數(shù)據(jù)到底是那一類;(3)第三也不知道類和類的界限是什么;(4)所謂親疏程度就是兩個(gè)數(shù)據(jù)(變量)綜合考慮各指標(biāo)后的接近程度;精選ppt2.聚類分析中的“親疏程度”的度量方法數(shù)據(jù)中,個(gè)體之間的親疏程度是非常重要的,因?yàn)槲覀冋且揽窟@種親疏程度來(lái)將進(jìn)行類的合并和分化;親疏程度的測(cè)度一般可以有兩個(gè)角度:個(gè)體間的相似程度,越相似兩個(gè)體越接近,可以用相似系數(shù)來(lái)描述這種相似程度;個(gè)體間的差異程度,即個(gè)體間的距離,距離越近則個(gè)體越接近;精選ppt首先要將數(shù)據(jù)看成空間中的一個(gè)點(diǎn),以此來(lái)定義距離,距離的定義有很多,可以分為歐氏距離,明氏距離,夾角余弦等;根據(jù)變量的類型不同,距離的定義方式也不同,比如定距型變量和計(jì)數(shù)型變量的距離就不一樣;精選ppt3.聚類分析的幾點(diǎn)說(shuō)明所選的變量應(yīng)該符合聚類的要求,一定要選取與分析的目標(biāo)有關(guān)的變量,而不要選取無(wú)關(guān)的變量;各變量的變量值不應(yīng)該在數(shù)量級(jí)上有差異,數(shù)量級(jí)上的差異可能帶來(lái)距離上不準(zhǔn)確從而影響聚類效果,解決的方法是先將數(shù)據(jù)標(biāo)準(zhǔn)化;各變量間不應(yīng)該有較強(qiáng)的線性相關(guān)關(guān)系,否則其中一個(gè)變量就沒(méi)有用了;精選ppt常見(jiàn)的聚類分析方法有兩種:層次聚類和K-Mean聚類,這兩種方法SPSS都提供菜單操作。精選ppt(二)層次聚類1.層次聚類的兩種類型和兩種方式層次聚類又稱系統(tǒng)聚類,聚類過(guò)程按照一定的層次進(jìn)行,即從小類到大類的層次,有兩種類型:Q型聚類和R型聚類,聚類方式也分兩種:凝聚型聚類和分解型聚類;Q型聚類是對(duì)樣本進(jìn)行聚類,R型聚類是對(duì)變量進(jìn)行聚類;精選ppt凝聚方式聚類的思想是首先每個(gè)樣本自成一類,然后按照某種方法度量個(gè)體間的親疏程度,將其中最親密的個(gè)體聚成一小類,然后以此繼續(xù)下去,直到最后只剩下一個(gè)類;分解方式聚類的思想是首先所有個(gè)體都成為一個(gè)大類,然后按照某種方法度量親疏程度,將最疏遠(yuǎn)的個(gè)體分離除去形成兩個(gè)類,以此繼續(xù)下去,知道每一個(gè)個(gè)體自成一類;在SPSS中采用凝聚方式的聚類方法精選ppt2.個(gè)體與小類,小類與小類之間的親疏程度的度量方法SPSS提供了很多度量小類與小類之間的親疏程度的方法,下面分別介紹幾種:精選ppt“Cluster”共有七種進(jìn)行聚類的方法:①“Between-groupslinkage”類間平均法,當(dāng)兩類之間所有個(gè)案之間距離的平均值最小時(shí),這兩類可以合并為一類。這是系統(tǒng)缺省的方法。②“Within-groupslinkage”類內(nèi)平均法,當(dāng)合并后所有個(gè)案的距離的平均值最小時(shí),這兩類可以合并為一類。③“Nearestneighbor”最短距離法,當(dāng)兩類之間最近的個(gè)案之間的距離最小時(shí),這兩類可以合并為一類。精選ppt④“Furthestneighbor”最長(zhǎng)距離法,當(dāng)兩類之間最遠(yuǎn)的個(gè)案之間的距離最小時(shí),這兩類可以合并為一類。⑤“Centroidclustering”重心法,當(dāng)兩類中重心的距離最小時(shí),這兩類可以合并為一類。⑥“Medianclustering”中心法,當(dāng)兩類中心的距離最小時(shí),這兩類可以合并為一類。⑦“Ward'smethod”離差平方和法,當(dāng)合并后類內(nèi)部的各個(gè)個(gè)案距離的離差平方和最小時(shí),這兩類可以合并為一類。精選ppt啤酒成分和價(jià)格數(shù)據(jù)啤酒名 熱量 鈉含量 酒精 價(jià)格Budweiser 144.00 19.00 4.70 .43Schlitz 181.00 19.00 4.90 .43Ionenbrau 157.00 15.00 4.90 .48Kronensourc 170.00 7.00 5.20 .73Heineken 152.00 11.00 5.00 .77Old-milnaukee 145.00 23.00 4.60 .26Aucsberger 175.00 24.00 5.50 .40Strchs-bohemi 149.00 27.00 4.70 .42Miller-lite 99.00 10.00 4.30 .43Sudeiser-lich 113.00 6.00 3.70 .44Coors 140.00 16.00 4.60 .44Coorslicht 102.00 15.00 4.10 .46Michelos-lich 135.00 11.00 4.20 .50Secrs 150.00 19.00 4.70 .76Kkirin 149.00 6.00 5.00 .79Pabst-extra-l 68.00 15.00 2.30 .36Hamms 136.00 19.00 4.40 .43Heilemans-old 144.00 24.00 4.90 .43Olympia-gold- 72.00 6.00 2.90 .46Schlite-light 97.00 7.00 4.20 .47精選ppt分層聚類的命令:執(zhí)行[Analyze][Classify][HierarchicalCluster],精選ppt精選ppt選擇變量進(jìn)入“Variable(s)”中選擇聚類類型“Cluster”(單選項(xiàng)):樣本聚類Cases(“Q聚類”)或變量聚類Variable(“R聚類”)

“display”中可以選擇(復(fù)選項(xiàng)):

“Statistics”只計(jì)算統(tǒng)計(jì)分析?!皃lots”只產(chǎn)生圖像。精選ppt按鈕“Statistics”將產(chǎn)生輸出統(tǒng)計(jì)量:精選ppt“Agglomerationschedule”為生成并類過(guò)程表。在表中將顯示并類過(guò)程中的并類信息,包括:并類距離值、在相應(yīng)值上的并類類別和類間關(guān)系??梢愿鶕?jù)并類過(guò)程表了解聚類過(guò)程?!癙roximitymatrix”產(chǎn)生測(cè)度矩陣。測(cè)度矩陣可以顯示出并類過(guò)程中各類之間的距離或相關(guān)性?!癈lusterMembership”聚類成員關(guān)系表。在并類過(guò)程中,各個(gè)個(gè)案被并到哪一類:精選ppt“None”不顯示聚類成員關(guān)系表。“Singlesolution”顯示指定類數(shù)時(shí)聚類成員關(guān)系表。指定的類數(shù)應(yīng)當(dāng)是小于等于個(gè)案?jìng)€(gè)數(shù),大于等于1的整數(shù)。當(dāng)聚類到達(dá)此指定的數(shù)值時(shí),將在輸出窗口顯示各個(gè)個(gè)案所屬的類?!癛angeofsolutions”顯示聚類成員在指定并類范圍內(nèi)所屬類的關(guān)系表。指定的范圍也應(yīng)當(dāng)是在個(gè)案數(shù)與1之間的整數(shù)。精選ppt按鈕“Plots”將產(chǎn)生聚類圖形精選ppt“Dendrogram”生成樹(shù)狀圖“Icicle”生成冰柱圖“Allclusters”全過(guò)程冰柱圖“Specifiedrangeofclusters”指定并類范圍冰柱圖“None”不生成冰柱圖“Orientaton”圖形取向:豎直的Vertical和水平的Horizontal精選ppt按鈕“Method”為聚類方法選擇精選ppt定義樣本點(diǎn)間的相似度。精選ppt選擇對(duì)變量作標(biāo)準(zhǔn)化處理的方法精選ppt精選ppt(三)K-Means聚類層次聚類執(zhí)行效率不是很理想,而這方面正是K-Means聚類的特長(zhǎng);K-Means聚類分析的核心步驟第一步,指定聚類的數(shù)目,假設(shè)要分成K類;第二步,確定類的初始中心;可以有兩種方式指定類的初始中心,可以用戶自定義,也可以讓系統(tǒng)自己確定;第三步,根據(jù)距離最近原則進(jìn)行聚類;重新確定K個(gè)類的中心;判斷是否滿足停止聚類分析的條件;精選pptK均值法(快速聚類、動(dòng)態(tài)聚類)精選ppt1.K-Means聚類分析的核心步驟聚類分析終止的條件有兩個(gè):迭代次數(shù),當(dāng)前迭代次數(shù)等于設(shè)定的迭代次數(shù),SPSS默認(rèn)迭代10次便終止聚類;類中心點(diǎn)偏移的程度,以迭代前后中心點(diǎn)的最大偏移量是否超過(guò)預(yù)定值,默認(rèn)0.02;通過(guò)設(shè)定恰當(dāng)?shù)牡螖?shù)和偏移標(biāo)準(zhǔn),可以有效克服初始類中心點(diǎn)指定時(shí)可能存在的方差,提高聚類分析準(zhǔn)確性;精選ppt在Method框中是否調(diào)整類中心點(diǎn),其中Iterateandclassify表示由SPSS自動(dòng)調(diào)整類中心,Classify表示在迭代中不更改類中心;通過(guò)Iterate按鈕去定終止聚類的條件,Maximumiteration標(biāo)志最大迭代數(shù),在ConvergenceCriterion,Usingrunningmeans選型可以每進(jìn)入一個(gè)新數(shù)據(jù)就計(jì)算一次;2.K-Means聚類分析的基本操作精選ppt將參與K-Means聚類分析的

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論