SPSS數(shù)據(jù)的聚類分析_第1頁
SPSS數(shù)據(jù)的聚類分析_第2頁
SPSS數(shù)據(jù)的聚類分析_第3頁
SPSS數(shù)據(jù)的聚類分析_第4頁
SPSS數(shù)據(jù)的聚類分析_第5頁
已閱讀5頁,還剩51頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

2023/6/91zf聚類分析(ClusterAnalysis)知識要點(diǎn):1、什么是聚類分析?2、理解聚類分析的基本思想3、聚類分析的相似性度量4、系統(tǒng)聚類法(HierarchicalCluster)和快速聚類(k-means)的基本思想5、結(jié)合SPSS軟件進(jìn)行案例分析6、聚類分析的應(yīng)用SPSS數(shù)據(jù)的聚類分析全文共56頁,當(dāng)前為第1頁。2023/6/92zf例1:誰經(jīng)常光顧商店,誰買什么東西,買多少?按忠誠卡記錄的光臨次數(shù)、光臨時間、性別、年齡、職業(yè)、購物種類、金額等變量分類這樣商店可以….識別顧客購買模式(如喜歡一大早來買酸奶和鮮肉,習(xí)慣周末時一次性大采購)刻畫不同的客戶群的特征(如用性別、年齡等變量來刻畫)聚類分析的應(yīng)用:無處不在為什么這樣分類?有何好處?因?yàn)槊恳粋€類別里面的人消費(fèi)方式都不一樣,需要針對不同的人群,制定不同的關(guān)系管理方式,以提高客戶對公司商業(yè)活動的參與率。挖掘有價值的客戶,并制定相應(yīng)的促銷策略:對經(jīng)常購買酸奶的客戶;對累計消費(fèi)達(dá)到12個月的老客戶。針對潛在客戶派發(fā)廣告,比在大街上亂發(fā)傳單命中率更高,成本更低!SPSS數(shù)據(jù)的聚類分析全文共56頁,當(dāng)前為第2頁。2023/6/93zf例2:誰是銀行信用卡的黃金客戶?利用儲蓄額、刷卡消費(fèi)金額、誠信度等變量對客戶分類,找出“黃金客戶”!這樣銀行可以……制定更吸引的服務(wù),留住客戶!比如:一定額度和期限的免息透資服務(wù)!百盛的貴賓打折卡!在他或她生日的時候送上一個小蛋糕!SPSS數(shù)據(jù)的聚類分析全文共56頁,當(dāng)前為第3頁。2023/6/94zf如何實(shí)現(xiàn)聚類?

---聚類分析的基本思想和方法1、什么是聚類分析?聚類分析:是根據(jù)“物以類聚”的道理,對樣品或指標(biāo)進(jìn)行分類,使得同一類中的對象之間的相似性比與其他類的對象的相似性更強(qiáng)的一種多元統(tǒng)計分析方法。聚類分析的目的:把相似的研究對象歸成類;即:使類內(nèi)對象的相似性最大化和類間對象的差異性最大化。問題的關(guān)鍵:如何刻畫研究對象(樣品或指標(biāo))間的相似性?有哪些方法可以實(shí)現(xiàn)研究對象的分類呢?SPSS數(shù)據(jù)的聚類分析全文共56頁,當(dāng)前為第4頁。2023/6/95zf系統(tǒng)聚類(又稱為層次聚類Hierarchical

cluster):凝聚式系統(tǒng)聚類、分解式系統(tǒng)聚類非系統(tǒng)聚類(又稱為非層次聚類non-hierarchical

cluster):如K-均值法(快速聚類法)2、聚類分析的方法SPSS數(shù)據(jù)的聚類分析全文共56頁,當(dāng)前為第5頁。2023/6/96zf凝聚式分解式以系統(tǒng)聚類法為例SPSS數(shù)據(jù)的聚類分析全文共56頁,當(dāng)前為第6頁。2023/6/97zf二、相似性度量1、相似性的度量指標(biāo):相似系數(shù):性質(zhì)越接近的變量或樣品,它們的相似系數(shù)越接近于1或-1,而彼此無關(guān)的變量或樣品它們的相似系數(shù)則越接近于0,相似的為一類,不相似的為不同類;距離:變量或樣本間的距離越近,說明其相似性越高,應(yīng)歸為一類;距離越遠(yuǎn)則說明相似性越弱,應(yīng)歸為不同的類。樣本分類(Q型聚類)常以距離刻畫相似性指標(biāo)分類(R型聚類)常以相似系數(shù)刻畫相似性SPSS數(shù)據(jù)的聚類分析全文共56頁,當(dāng)前為第7頁。2023/6/98zf常用距離:1)明考夫斯基距離(Minkowskidistance)明氏距離有三種特殊形式:1a)絕對距離(Block距離):當(dāng)g=1時SPSS數(shù)據(jù)的聚類分析全文共56頁,當(dāng)前為第8頁。2023/6/99zf1b)歐氏距離(Euclideandistance):當(dāng)g=2時1c)切比雪夫距離:當(dāng)時SPSS數(shù)據(jù)的聚類分析全文共56頁,當(dāng)前為第9頁。2023/6/910zf例:橫軸代表重量(單位:kg),縱軸代表長度(單位:cm)。有四個點(diǎn)A,B,C,D,見圖。明氏距離及其特殊形式的缺陷SPSS數(shù)據(jù)的聚類分析全文共56頁,當(dāng)前為第10頁。2023/6/911zfSPSS數(shù)據(jù)的聚類分析全文共56頁,當(dāng)前為第11頁。2023/6/912zf以上幾種距離主要有以下兩個缺點(diǎn):距離的值受到各指標(biāo)的量綱的影響,具有一定的人為性。距離的定義沒有考慮各個變量之間的相關(guān)性和重要性。如何克服以上的缺點(diǎn)??SPSS數(shù)據(jù)的聚類分析全文共56頁,當(dāng)前為第12頁。2023/6/913zf標(biāo)準(zhǔn)化處理:當(dāng)各變量的單位不同或測量值范圍相差很大時,不應(yīng)直接采用明氏距離,而應(yīng)先對各變量的數(shù)據(jù)作標(biāo)準(zhǔn)化處理,然后用標(biāo)準(zhǔn)化后的數(shù)據(jù)計算距離。常用的標(biāo)準(zhǔn)化處理:

其中:為第j個變量的樣本均值;為第j個變量的樣本方差。改進(jìn)距離的定義,運(yùn)用馬氏距離。SPSS數(shù)據(jù)的聚類分析全文共56頁,當(dāng)前為第13頁。2023/6/914zf2)馬氏距離克服量綱的影響克服指標(biāo)間相關(guān)性的影響缺點(diǎn):協(xié)方差矩陣難以確定SPSS數(shù)據(jù)的聚類分析全文共56頁,當(dāng)前為第14頁。2023/6/915zf1、最短距離(NearestNeighbor)x21?x12?x22?x11?類Gp與類Gq之間的距離Dpq

:其中,d(xi,xj)表示點(diǎn)xi∈Gp和xj∈Gq之間的距離以當(dāng)前某個樣本與已經(jīng)形成的小類中的各樣本距離中的最小值作為當(dāng)前樣本與該小類之間的距離。三、類和類之間的距離度量SPSS數(shù)據(jù)的聚類分析全文共56頁,當(dāng)前為第15頁。2023/6/916zf例1:為了研究遼寧省5省區(qū)某年城鎮(zhèn)居民生活消費(fèi)的分布規(guī)律,根據(jù)調(diào)查資料做類型劃分省份x1x2x3x4x5x6x7x8遼寧浙江河南甘肅青海7.907.689.429.1610.0639.7750.3727.9327.9828.648.4911.358.209.0110.5212.9413.308.149.3210.0519.2719.2516.1715.9916.1811.0514.599.429.108.392.042.751.551.821.9613.2914.879.7611.3510.81SPSS數(shù)據(jù)的聚類分析全文共56頁,當(dāng)前為第16頁。2023/6/917zfG1={遼寧},G2={浙江},G3={河南},G4={甘肅},G5={青海}采用歐氏距離得到的距離矩陣:1234510211.670D1=313.8024.630413.1224.062.200512.8023.543.512.210河南與甘肅的距離最近,先將二者(3和4)合為一類G6={G3,G4}SPSS數(shù)據(jù)的聚類分析全文共56頁,當(dāng)前為第17頁。2023/6/918zfd61=d(3,4)1=min{d13,d14}=13.12d62=d(3,4)2=min{d23,d24}=24.06d65=d(3,4)5=min{d35,d45}=2.21612560D2=113.120224.0611.67052.2112.8023.540d71=d(3,4,5)1=min{d13,d14,d15}=12.80d72=d(3,4,5)2=min{d23,d24,d25}=23.54

712D3=70112.800223.5411.670河南、甘肅與青海并為一新類G7={G6,G5}={G3,G4,G6}G8={G1,G2}SPSS數(shù)據(jù)的聚類分析全文共56頁,當(dāng)前為第18頁。2023/6/919zfd78=min{d71,d72}=12.8078D4=70812.80河南3甘肅4青海5遼寧1浙江2SPSS數(shù)據(jù)的聚類分析全文共56頁,當(dāng)前為第19頁。2023/6/920zf2、最長距離(FurthestNeighbor)???x11?x21????以當(dāng)前某個樣本與已經(jīng)形成的小類中的各樣本距離中的最大值作為當(dāng)前樣本與該小類之間的距離。SPSS數(shù)據(jù)的聚類分析全文共56頁,當(dāng)前為第20頁。2023/6/921zf(3)組間平均連接(Between-groupLinkage)??????為所有樣本對間的平均距離。利用了所有樣本對距離的信息SPSS數(shù)據(jù)的聚類分析全文共56頁,當(dāng)前為第21頁。2023/6/922zf(4)組內(nèi)平均連接(Within-groupLinkage)????對所有樣本對的距離求平均值,包括小類之間的樣本對、小類內(nèi)的樣本對.SPSS數(shù)據(jù)的聚類分析全文共56頁,當(dāng)前為第22頁。2023/6/923zf(5)重心法(Centroidmethod):??類均值點(diǎn)的距離SPSS數(shù)據(jù)的聚類分析全文共56頁,當(dāng)前為第23頁。2023/6/924zf(6)離差平方和法(Ward’smethod

)2,41,56,5SPSS數(shù)據(jù)的聚類分析全文共56頁,當(dāng)前為第24頁。2023/6/925zf紅綠(2,4,6,5)8.75離差平方和增加8.75-2.5=6.25黃綠(6,5,1,5)14.75離差平方和增加14.75-8.5=6.25黃紅(2,4,1,5)10-10=0故按該方法的連接,黃紅首先連接。先將n個樣本各成一類,然后每次縮小一類,每縮小一類離差平方和就要增大,選擇使離差平方和S增加最小的兩類合并,直至所有樣本歸為一類為止。SPSS數(shù)據(jù)的聚類分析全文共56頁,當(dāng)前為第25頁。2023/6/926zf四、系統(tǒng)聚類法系統(tǒng)聚類法是一種其聚類過程可以用所謂的譜系結(jié)構(gòu)或樹形結(jié)構(gòu)來描繪的方法?!孪炔挥么_定分多少類SPSS系統(tǒng)聚類法:凝聚式系統(tǒng)聚類法1、所有的研究對象各自算作一類,將最“靠近”的首先聚類

2、再將這個類和其它類中最“靠近”的結(jié)合,直至所有的對象都合并為一類為止

SPSS處理:分析(Analyze)-分類(Classify)-系統(tǒng)聚類(HierarchicalCluster)

SPSS數(shù)據(jù)的聚類分析全文共56頁,當(dāng)前為第26頁。2023/6/927zf案例分析某年度31個省市自治區(qū)小康指數(shù)的聚類分析(見數(shù)據(jù):聚類分析(小康指數(shù)).SAV)SPSS數(shù)據(jù)的聚類分析全文共56頁,當(dāng)前為第27頁。2023/6/928zfSPSS操作:1、Analyze-Classify-HierarchicalCluster2、把聚類的依據(jù)變量X1(綜合指數(shù))、X2(社會結(jié)構(gòu))、X3(經(jīng)濟(jì)與技術(shù)發(fā)展)、X4(人口素質(zhì))、X5(生活質(zhì)量)、X5(法制與治安)等選入Variables對話框3、把dq(省市)變量選入Labelcaseby樣本標(biāo)注對話框4、在Cluster選Cases,表示是對31個省市自治區(qū)(樣本)進(jìn)行聚類SPSS數(shù)據(jù)的聚類分析全文共56頁,當(dāng)前為第28頁。2023/6/929zf點(diǎn)擊統(tǒng)計量(Statistics)按鈕出現(xiàn)對話框:選入聚類的依據(jù)變量X1(綜合指數(shù))、X2(社會結(jié)構(gòu))、X3(經(jīng)濟(jì)與技術(shù)發(fā)展)、X4(人口素質(zhì))、X5(生活質(zhì)量)、X5(法制與治安)等對樣本進(jìn)行標(biāo)注對樣本進(jìn)行聚類SPSS數(shù)據(jù)的聚類分析全文共56頁,當(dāng)前為第29頁。2023/6/930zfStatistics對話框:分類信息表(Clustermembership):

無(None)表示不列示分類信息表;

單一方案(Singlesolution)指定分為某一類的分類信息表;

方案范圍(Rangeofsolution)指定分為某一類的分類信息表。也稱凝聚狀態(tài)表相似性矩陣表分類信息表若要顯示分為3類的情況,則在此填入3若要顯示分為3、4、5類的情況,則在From后填3在through后填5SPSS數(shù)據(jù)的聚類分析全文共56頁,當(dāng)前為第30頁。2023/6/931zf點(diǎn)擊繪制(Plots)按鈕出現(xiàn)以下對話框:樹形結(jié)構(gòu)圖冰柱圖列示所有分類的冰柱圖列示指定某幾類分類結(jié)果的冰柱圖不列示冰柱圖冰柱圖列示方向SPSS數(shù)據(jù)的聚類分析全文共56頁,當(dāng)前為第31頁。2023/6/932zf點(diǎn)擊方法(Method)按鈕出現(xiàn)以下對話框:選擇類與類之間距離的度量方式;系統(tǒng)默認(rèn)為‘組間平均法’選擇相似性的度量指標(biāo),系統(tǒng)默認(rèn)為平方歐氏距離數(shù)據(jù)標(biāo)準(zhǔn)化處理方式選擇;系統(tǒng)默認(rèn)為不進(jìn)行標(biāo)準(zhǔn)化處理SPSS數(shù)據(jù)的聚類分析全文共56頁,當(dāng)前為第32頁。2023/6/933zf點(diǎn)擊保存(Save)按鈕出現(xiàn)以下對話框:該對話框選擇是否將某分類信息以新變量的形式保存對數(shù)據(jù)文件中系統(tǒng)默認(rèn)狀態(tài):不保存保存指定分為某一類的分類結(jié)果;若要保存分為3類的情況,則在此填入3。系統(tǒng)將產(chǎn)生一個新變量,將所有樣本分到3類中某一類的結(jié)果列示到數(shù)據(jù)文件。保存指定分為某幾類的分類結(jié)果;若要保存分為3-5類的情況,則在From處填3,在through處填5;系統(tǒng)將產(chǎn)生3個新變量,將所有樣本分3、4、5類結(jié)果列示到數(shù)據(jù)文件。SPSS數(shù)據(jù)的聚類分析全文共56頁,當(dāng)前為第33頁。2023/6/934zf輸出結(jié)果及分析樣本描述:有效樣本(Valid)、缺失樣本(Missing)、總樣本(Total)相似性矩陣表:即31個省份之間的距離矩陣表SPSS數(shù)據(jù)的聚類分析全文共56頁,當(dāng)前為第34頁。2023/6/935zf凝聚狀態(tài)表聚類進(jìn)行到第幾步這兩列表示的是哪個樣本(或類)與哪個樣本(或類)聚類系數(shù),即該步中實(shí)現(xiàn)聚類的兩樣本(或類)之間的距離最后這列顯示的是:該步聚類結(jié)果會在后面第幾步用到這兩列顯示的是:該步聚類是樣本的聚類還是樣本與類的聚類或者是類與類的聚類;若為0表示的是樣本,若為非0則表示的是類,即第幾步聚成的類SPSS數(shù)據(jù)的聚類分析全文共56頁,當(dāng)前為第35頁。2023/6/936zf分類信息表該表是在‘Statistics對話框’選擇‘Singlesolution指定分類為3’出現(xiàn)的分為3類的分類信息表該表可看出:北京、上海、天津?yàn)橐活?;浙江、廣東、江蘇等為一類;黑龍江、吉林、湖北等為一類。SPSS數(shù)據(jù)的聚類分析全文共56頁,當(dāng)前為第36頁。2023/6/937zf縱向冰柱圖該列表示分類個數(shù)這些列表示的是樣本;即31個省份。在省份與省份之間若有‘Ⅹ’連接,則兩省份同屬一類,否則,兩省份劃到不同的類中去了。SPSS數(shù)據(jù)的聚類分析全文共56頁,當(dāng)前為第37頁。2023/6/938zf在SPSS對話框中選擇:Analyze-Reports-Casesummaries每一類各自的情況如何?哪些屬于小康水平高的地區(qū)?哪些屬于小康水平低或中等的地區(qū)呢?省市(dq)綜合指數(shù)(X1

)社會結(jié)構(gòu)(X2

)經(jīng)濟(jì)與技術(shù)發(fā)展

(X3

)人口素質(zhì)(X4

)生活質(zhì)量(X5

)法制與治安(X6

)AverageLinkage(clu3-1)綜合指數(shù)(X1

)社會結(jié)構(gòu)(X2

)經(jīng)濟(jì)與技術(shù)發(fā)展

(X3

)人口素質(zhì)(X4

)生活質(zhì)量(X5

)法制與治安(X6

)AverageLinkage(clu3-1)SPSS數(shù)據(jù)的聚類分析全文共56頁,當(dāng)前為第38頁。2023/6/939zf點(diǎn)擊Statistics按鈕出現(xiàn)對話框:選擇均值(Mean)、中位數(shù)(Median)、最小值(Minimum)、最大值(Maximum)等統(tǒng)計量點(diǎn)擊Continue按鈕,再點(diǎn)擊上頁對話框中的‘OK’;即出現(xiàn)以下結(jié)果:SPSS數(shù)據(jù)的聚類分析全文共56頁,當(dāng)前為第39頁。2023/6/940zf每類總體及樣本在綜合指數(shù)、社會結(jié)構(gòu)等6個小康指數(shù)上的描述統(tǒng)計從3類的描述統(tǒng)計可看出:處于第一類的北京、上海、天津等屬于小康水平較高的地區(qū);處于第2類的浙江、廣東、江蘇等為小康水平中等的地區(qū);處于第3類的黑龍江、吉林、湖北等為小康水平較低的地區(qū)。SPSS數(shù)據(jù)的聚類分析全文共56頁,當(dāng)前為第40頁。2023/6/941zf參見數(shù)據(jù):聚類分析(商廈評分).sav案例分析:商廈評價的聚類分析SPSS數(shù)據(jù)的聚類分析全文共56頁,當(dāng)前為第41頁。2023/6/942zf(二)聚類個數(shù)的確定碎石圖:X軸表示分類數(shù);y軸表示聚合系數(shù)SPSS數(shù)據(jù)的聚類分析全文共56頁,當(dāng)前為第42頁。2023/6/943zf黛米爾曼(Demirmen,1972)提出依據(jù)樹狀結(jié)構(gòu)圖分類的準(zhǔn)則:SPSS數(shù)據(jù)的聚類分析全文共56頁,當(dāng)前為第43頁。2023/6/944zf(三)聚類個數(shù)及解釋SPSS數(shù)據(jù)的聚類分析全文共56頁,當(dāng)前為第44頁。2023/6/945zf(1)事先要確定分多少類;(2)確定初始類中心(一是用戶指定;二是系統(tǒng)指定);(3)根據(jù)每個樣本數(shù)據(jù)點(diǎn)到類中心的距離遠(yuǎn)近對樣本進(jìn)行分類;(4)重新計算類中心;(5)判斷是否已滿足終止聚類分析的條件(若滿足,則結(jié)束聚類;否則,回到第(3)重新聚類)五、非系統(tǒng)聚類法:

快速聚類法(

k-means)的SPSS處理SPSS數(shù)據(jù)的聚類分析全文共56頁,當(dāng)前為第45頁。2023/6/946zf案例分析:商廈評價的聚類分析參見數(shù)據(jù):聚類分析(商廈評分).savSPSS數(shù)據(jù)的聚類分析全文共56頁,當(dāng)前為第46頁。2023/6/947zfSPSS操作:1、Analyze-Classify-K-MeansCluster2、把聚類的依據(jù)變量gwhj(購物環(huán)境)、fwzl(服務(wù)質(zhì)量)等選入Variables對話框3、把bh(商廈編號)變量選入Labelcaseby樣本標(biāo)注對話框4、在NumberofClusters確定分類個數(shù);若為3,則輸入3SPSS數(shù)據(jù)的聚類分析全文共56頁,當(dāng)前為第47頁。2023/6/948zf點(diǎn)擊迭代(iterate)按鈕SPSS數(shù)據(jù)的聚類分析全文共56頁,當(dāng)前為第48頁。2023/6/949zf一般可不點(diǎn)擊迭代iterate按鈕,由系統(tǒng)默認(rèn)即可;

用得較多的是保存(Save)按鈕和選項(xiàng)(Option)按鈕。最大迭代次數(shù),一般可由系統(tǒng)默認(rèn)收斂標(biāo)準(zhǔn),最終類中心與上一類中心發(fā)生何種程度位移,停止迭代SPSS數(shù)據(jù)的聚類分析全文共56頁,當(dāng)前為第49頁。2023/6/950zf點(diǎn)擊保存(Save)按鈕,出現(xiàn)對話框點(diǎn)擊選項(xiàng)(Option)按鈕,出現(xiàn)對話框:以新變量形式保存‘分類信息’到SPSS數(shù)據(jù)文件中以新變量形式保存‘每個樣本到各自所在類的類中心的距離’到SPSS數(shù)據(jù)文件中輸出初始類中心表輸出方差分析表;反映哪些變量對分類起著顯著作用輸出每個樣本的分類信息缺失樣本的處理,可不用選擇,由系統(tǒng)默認(rèn)即可SPSS數(shù)據(jù)的聚類分析全文共56頁,當(dāng)前為第50頁。2023/6/951zf輸出結(jié)果及分析初始類中心:本例中第一類表示商廈質(zhì)量高

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論