版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、統(tǒng)計分析與SPSS的應用,第十章 SPSS的聚類分析,第10章 SPSS的聚類分析,本章內容,10.1 聚類分析的一般問題 10.2 層次聚類 10.3 K-Means聚類,2020/7/22,第10章 SPSS的聚類分析,3,10.1 聚類分析的一般問題,10.1.1 聚類分析的意義 聚類分析是統(tǒng)計學中研究“物以類聚”問題的多元統(tǒng)計分析方法。 聚類分析是一種建立分類的多元統(tǒng)計分析方法,它能夠將一批樣本(或變量)數(shù)據(jù)根據(jù)其諸多特征,按照在性質上的親疏程度(各變量取值上的總體差異程度)在沒有先驗知識(沒有事先指定的分類標準)的情況下進行自動分類,產(chǎn)生多個分類結果。類內部的個體在特征上具有相似性,
2、不同類間個體特征的差異性較大。,2020/7/22,第10章 SPSS的聚類分析,4,例如,學校里有些同學經(jīng)常在一起,關系比較密切,而他們與另一些同學卻很少來往,關系比較疏遠。究其原因可能會發(fā)現(xiàn),經(jīng)常在一起的同學的家庭情況、性格、學習成績、課余愛好等方面有許多共同之處,而關系比較疏遠的同學在這些方面有較大的差異性。為了研究家庭情況、性格、學習成績、課余愛好等是否會成為劃分學生小群體的主要決定因素,可以從有關這些方面的數(shù)據(jù)入手,進行客觀分組,然后比較所得的分組是否與實際相吻合。對學生的客觀分組就可采用聚類分析方法。,2020/7/22,第10章 SPSS的聚類分析,5,聚類分析中,個體之間的“親
3、疏程度”是極為重要的,它將直接影響最終的聚類結果。對“親疏”程度的測度一般有兩個角度:第一,個體間的相似程度;第二,個體間的差異程度。衡量個體間的相似程度通??刹捎煤唵蜗嚓P系數(shù)等,個體間的差異程度通常通過某種距離來測度。 為定義個體間的距離應先將每個樣本數(shù)據(jù)看成k維空間的一個點,通常,點與點之間的距離越小,意味著他們越“親密”,越有可能聚成一類,點與點之間的距離越大,意味著他們越“疏遠”,越有可能分別屬于不同的類。,10.1.2 聚類分析中“親疏程度”的度量方法,2020/7/22,第10章 SPSS的聚類分析,6,例:下表是同一批客戶對經(jīng)常光顧的五座商場在購物環(huán)境和服務質量兩方面的平均得分,
4、現(xiàn)希望根據(jù)這批數(shù)據(jù)將五座商場分類。,2020/7/22,第10章 SPSS的聚類分析,7,歐式距離(Euclidean distance) 平方歐式距離(Squared Euclidean distance ) 切比雪夫(Chebychev)距離 Block距離,1、定距型變量個體間距離的計算方式,2020/7/22,第10章 SPSS的聚類分析,8,2、計數(shù)變量個體間距離的計算方式 卡方(Chi-Square measure)距離 Phi方(Phi-Square measure)距離,2020/7/22,第10章 SPSS的聚類分析,9,3、二值(Binary)變量個體間距離的計算方式 簡單
5、匹配系數(shù)(Simple Matching) 雅科比系數(shù)(Jaccard),個體j,個體i,a為個體i與個體j在所有變量上同時取1的個數(shù);d為同時取0的個數(shù) 特點:排除同時擁有或同時不擁有某特征的情況;取0和1地位等價,編碼方案的變化不會引起系數(shù)的變化。,2020/7/22,第10章 SPSS的聚類分析,10,姓名 授課方式 上機時間 選某門課程 張三 1 1 1 李四 1 1 0 王五 0 0 1 (張三,李四):a=2 b=1 c=0 d=0 d(x,y)=1/(1+2)=1/3 (張三,王五):a=1 b=2 c=0 d=0 d(x,y)=2/(1+2)=2/3 張三距李四近,2020/7
6、/22,第10章 SPSS的聚類分析,11,品質型個體間的距離 根據(jù)臨床表現(xiàn)研究病人是否有類似的病,姓名 性別 發(fā)燒 咳嗽 檢查1 檢查2 檢查3 檢查4 張三 男 1 0 1 0 0 0 李四 女 1 0 1 0 1 0 王五 男 1 1 0 0 0 0 .,2020/7/22,第10章 SPSS的聚類分析,12,雅科比(Jaccard)系數(shù):適用二值變量,個體j,個體i,a為個體i與個體j在所有變量上同時取1的個數(shù);d為同時取0的個數(shù) 特點:排除同時不擁有某特征的情況;取1的狀態(tài)比取0更有意義(如:臨床檢驗中的陽性特征);編碼方案會引起系數(shù)的變化,2020/7/22,第10章 SPSS的聚
7、類分析,13,品質型個體間的距離 雅科比(Jaccard)系數(shù):適用二值變量,姓名 授課方式 上機時間 選某門課程 張三 1 (0) 1(0) 1(0) 李四 1 (0) 1(0) 0(1) 王五 0 (1) 0(1) 1(0) (張三,李四) 1: a=2 b=1 c=0 d=0 d(x,y)=1/(1+2)=1/3 (張三,李四) 2: a=0 b=0 c=1 d=2 d(x,y)=1/(1+2)=1/3 (相同) (張三,李四) 1: a=2 b=1 c=0 d=0 J(x,y)=1/(1+2)=1/3 (張三,李四) 2: a=0 b=0 c=1 d=2 J(x,y)=1/1=1 (不
8、相同),2020/7/22,第10章 SPSS的聚類分析,14,品質型個體間的距離 Jaccard系數(shù)舉例:根據(jù)臨床表現(xiàn)研究病人是否有類似的病,姓名 性別 發(fā)燒 咳嗽 檢查1 檢查2 檢查3 檢查4 張三 男 1 0 1 0 0 0 李四 女 1 0 1 0 1 0 王五 男 1 1 0 0 0 0 .,結論:張三和李四最有可能得類似的病;李四和王五不太有可能,2020/7/22,第10章 SPSS的聚類分析,15,注:聚類分析的幾點說明 所選擇的變量應符合聚類的要求:所選變量應能夠從不同的側面反映我們研究的目的; 各變量的變量值不應有數(shù)量級上的差異(對數(shù)據(jù)進行標準化處理):聚類分析是以各種距
9、離來度量個體間的“親疏”程度的,從上述各種距離的定義看,數(shù)量級將對距離產(chǎn)生較大的影響,并影響最終的聚類結果。 各變量間不應有較強的線性相關關系,2020/7/22,第10章 SPSS的聚類分析,16,10.2 層次聚類,10.2.1 層次聚類的兩種類型和兩種方式 層次聚類又稱系統(tǒng)聚類,簡單地講是指聚類過程是按照一定層次進行的。層次聚類有兩種類型,分別是Q型聚類和R型聚類;層次聚類的聚類方式又有兩種,分別是凝聚方式聚類和分解方式聚類。,2020/7/22,第10章 SPSS的聚類分析,17,Q型聚類:對樣本進行聚類,使具有相似特征的樣本聚集在一起,差異性大的樣本分離開來 R型聚類:對變量進行聚類
10、,使具有相似性的變量聚集在一起,差異性大的變量分離開來,可在相似變量中選擇少數(shù)具有代表性的變量參與其他分析,實現(xiàn)減少變量個數(shù),達到變量降維的目的。,2020/7/22,第10章 SPSS的聚類分析,18,凝聚方式聚類: 首先,每個個體自成一類; 然后,按照某種方法度量所有個體間的親疏程度,并將其中最“親密”的個體聚成一小類,形成n-1個類; 接下來,再次度量剩余個體和小類間的親疏程度,并將當前最親密的個體或小類再聚到一類; 重復上述過程,直到所有個體聚成一個大類為止??梢姡@種聚類方式對n個個體通過n-1步可凝聚成一大類。,2020/7/22,第10章 SPSS的聚類分析,19,分解方式聚類:
11、 首先,所有個體都屬一大類; 然后,按照某種方法度量所有個體間的親疏程度,將大類中彼此間最“疏遠”的個體分離出去,形成兩類; 接下來,再次度量類中剩余個體間的親疏程度,并將最疏遠的個體再分離出去; 重復上述過程,不斷進行類分解,直到所有個體自成一類為止??梢姡@種聚類方式對包含n個個體的大類通過n-1步可分解成n個個體。,2020/7/22,第10章 SPSS的聚類分析,20,10.2.2 個體與小類、小類與小類間“親疏程度”的度量方法,SPSS中提供了多種度量個體與小類、小類與小類間“親疏程度”的方法。與個體間“親疏程度”的測度方法類似,應首先定義個體與小類、小類與小類的距離。距離小的關系親
12、密,距離大的關系疏遠。這里的距離是在個體間距離的基礎上定義的,常見的距離有:,2020/7/22,第10章 SPSS的聚類分析,21,最近鄰居(Nearest Neighbor)距離:個體與小類中每個個體距離的最小值。 最遠鄰居(Furthest Neighbor )距離:個體與小類中每個個體距離的最大值。 組間平均鏈鎖(Between-groups linkage)距離:個體與小類中每個個體距離的平均值。 組內平均鏈鎖(Within-groups linkage)距離:個體與小類中每個個體距離以及小類內各個體間距離的平均值。 重心(Centroid clustering)距離:個體與小類的重
13、心點的距離。重心點通常是由小類中所有樣本在各變量上的均值所確定的點。 離差平方和法(Wards method):聚類過程中使小類內離差平方和增加最小的兩小類應首先合并為一類。,2020/7/22,第10章 SPSS的聚類分析,22,2020/7/22,第10章 SPSS的聚類分析,23,10.2.3 層次聚類的基本操作 1、選擇菜單AnalyzeClassifyHierarchical Cluster,出現(xiàn)窗口:,2020/7/22,第10章 SPSS的聚類分析,24,2、把參與層次聚類分析的變量選到Variable(s)框中。 3、把一個字符型變量作為標記變量選到Label Cases by
14、框中,它將大大增強聚類分析結果的可讀性。 4、在Cluster框中選擇聚類類型。其中Cases表示進行Q型聚類(默認類型);Variables表示進行R型聚類。 5、在Display框中選擇輸出內容。其中Statistics表示輸出聚類分析的相關統(tǒng)計量;Plot表示輸出聚類分析的相關圖形。,2020/7/22,第10章 SPSS的聚類分析,25,6、單擊Method按鈕指定距離的計算方法。,2020/7/22,第10章 SPSS的聚類分析,26,Measure框中給出的是不同變量類型下的個體距離的計算方法。其中Interval框中的方法適用于連續(xù)型定距變量;Counts框中的方法適用于品質型變
15、量;Binary框中的方法適用于二值變量。Cluster Method框中給出的是計算個體與小類、小類與小類間距離的方法。 7、如果參與聚類分析的變量存在數(shù)量級上的差異,應在Transform Values框中的Standardize選項中選擇消除數(shù)量級差的方法。并指定處理是針對變量的還是針對樣本的。By variable表示針對變量,適于 Q 型聚類分析;By case 表示針對樣本,適于R型聚類分析。,2020/7/22,第10章 SPSS的聚類分析,27,8、單擊Statistics按鈕指定輸出哪些統(tǒng)計量,2020/7/22,第10章 SPSS的聚類分析,28,Agglomeration
16、 schedule表示輸出聚類分析的凝聚狀態(tài)表;Proximity matrix表示輸出個體間的距離矩陣;Cluster Membership框中,None表示不輸出樣本所屬類,Single Solution表示指定輸出當分成n類時各樣本所屬類,是單一解。Range of solution表示指定輸出當分成m至n類(m小于等于n)時各樣本所屬類,是多個解。,2020/7/22,第10章 SPSS的聚類分析,29,上表中,第一列表示聚類分析的第幾步;第二、三列表示本步聚類中哪兩個樣本或小類聚成一類;第四列式個體距離或小類距離;第五、六列表示本步聚類中參與聚類的是個體還是小類,0表示樣本,非0表示
17、由第n步聚類生成的小類參與本步聚類;第七列表示本步聚類的結果將在以下第幾步中用到。,2020/7/22,第10章 SPSS的聚類分析,30,2020/7/22,第10章 SPSS的聚類分析,31,9、單擊Plot按鈕指定輸出哪種聚類分析圖。,2020/7/22,第10章 SPSS的聚類分析,32,Dendrogram選項表示輸出聚類分析樹形圖;在Icicle框中指定輸出冰掛圖,其中,All clusters表示輸出聚類分析每個階段的冰掛圖,Specified range of clusters表示只輸出某個階段的冰掛圖,輸入從第幾步開始,到第幾步結束,中間間隔幾步;在Orientation框中
18、指定如何顯示冰掛圖,其中,Vertical表示縱向顯示,Horizontal表示橫向水平顯示。 樹形圖以躺倒樹的形式展現(xiàn)了聚類分析中的每一次類合并的情況。SPSS自動將各類間的距離映射到025之間,并將凝聚過程近似地表示在圖上。,2020/7/22,第10章 SPSS的聚類分析,33,2020/7/22,第10章 SPSS的聚類分析,34,10、單擊Save按鈕可以將聚類分析的結果以變量的形式保存到數(shù)據(jù)編輯窗口中。生成的變量名為clun_m(如clu2_1),其中n表示類數(shù)(如2),m表示是第m次分析(如1)。 由于不同的距離計算方法會產(chǎn)生不同的聚類分析結果,即使聚成n類,同一樣本的類歸屬也會
19、因計算方法的不同而不同。因此實際分析中應反復嘗試以最終得到符合實際的合理解,并保存于SPSS變量中。,2020/7/22,第10章 SPSS的聚類分析,35,10.2.4 層次聚類的應用舉例 1、利用31個省市自治區(qū)小康和現(xiàn)代化指數(shù)數(shù)據(jù)進行層次聚類分析。 利用SPSS層次聚類Q型聚類對31個省市自治區(qū)進行分類分析。其中個體距離采用平方歐式距離,類間距離采用平均組間鏈鎖距離,由于數(shù)據(jù)不存在數(shù)量級上的差異,因此無需進行進行標準化處理。 2、利用裁判打分數(shù)據(jù)進行聚類分析。,2020/7/22,第10章 SPSS的聚類分析,36,10.3 K-Means聚類,10.3.1 K-Means聚類分析的核心
20、步驟 K-Means聚類也稱快速聚類,仍將數(shù)據(jù)看成k維空間上的點,仍以距離作為測度個體“親疏程度”的指標,并通過犧牲多個解為代價換得高的執(zhí)行效率,其核心步驟是: 第一,指定聚類數(shù)目K 第二,確定K個初始類中心 SPSS中初始類中心的指定方式有兩種:一是用戶指定方式;二是系統(tǒng)指定方式。,2020/7/22,第10章 SPSS的聚類分析,37,第三,根據(jù)距離最近原則進行分類 依次計算每個樣本數(shù)據(jù)點到K個類中心點的歐式距離,并按距K個類中心點距離最短的原則將所有樣本分成K類。 第四,重新確定K個類中心 中心點的確定原則是,依次計算各類中k個變量的均值,并以均值點作為K個類的中心點。 第五,判斷是否已
21、滿足中止聚類分析的條件 條件有兩個:一是迭代次數(shù)(SPSS默認為10);二是類中心點偏移程度,即新確定的類中心點距上個類中心點的最大偏移量小于指定的量(SPSS默認為0.02)時中止聚類。,2020/7/22,第10章 SPSS的聚類分析,38,10.3.2 K-Means聚類分析的操作步驟 1.選擇選項AnalyzeClassifyK-Means Cluster,打開主窗口。,2020/7/22,第10章 SPSS的聚類分析,39,2.選定參與K-Means聚類的變量放入Variables框中。 3.選擇一個字符型變量作為標記變量放入Label Cases框中,增加分析結果的可讀性。 4.在
22、Number of Clusters框中輸入聚類數(shù)目,該數(shù)應小于樣本數(shù)。 5.如果用戶自行指定初始類中心點,則單擊Centers按鈕,并在Read initial from框后給出存放初始類中心的SPSS數(shù)據(jù)文件名;否則本步可略去。,2020/7/22,第10章 SPSS的聚類分析,40,6.在Method框中指定聚類過程是否調整類中心點。其中,Iterate and classify表示在聚類分析的每一步都重新確定類中心點(SPSS默認);Classify only表示聚類分析過程中類中心點始終為初始類中心點,此時僅進行一次迭代。 7.單擊Iterate按鈕確定中止聚類的條件。在Maximu
23、m iterations框后輸入最大迭代次數(shù),在Convergence criterion框后輸入類中心的偏移量。另外,Use running means選項,選中表示每當一個樣本被分配到一類時便立即重新計算新的類中心點,此時類中心點與樣本分配的前后順序有關;不選該項表示只有當完成了所有樣本的類分配后再計算類中心,該方式可節(jié)省運算時間,通常不選中該選項。,2020/7/22,第10章 SPSS的聚類分析,41,8.單擊Save按鈕將聚類分析的部分結果以SPSS變量的形式保存到數(shù)據(jù)編輯窗口中,其中Cluster membership表示保存樣本所屬類的類號;Distance from clust
24、er center表示保存樣本距各自類中心點的距離。 9.單擊Option按鈕確定輸出哪些相關分析結果和缺失值的處理方式。Statistics框中,Initial cluster centers表示輸出初始類中心點;ANOVA table表示以聚類分析產(chǎn)生的類為控制變量,以k個變量為觀測變量進行單因素方差分析,并輸出各個變量的方差分析表;Cluster information for each case表示輸出樣本分類信息及距所屬類中心點的距離。 至此完成了K-Means聚類分析的全部操作。,2020/7/22,第10章 SPSS的聚類分析,42,10.3.3 K-Means聚類分析應用舉例,
25、用2001年全國31個省市自治區(qū)各類小康好人現(xiàn)代化指數(shù)的數(shù)據(jù),對地區(qū)進行K-Means聚類分析,要求分成3類,初始類中心點由SPSS自行確定。,2020/7/22,第10章 SPSS的聚類分析,43,聚類分析概述,概念: 聚類分析是統(tǒng)計學中研究“物以類聚”的一種方法,屬多元統(tǒng)計分析方法. 例如:細分市場、消費行為劃分 聚類分析是建立一種分類,是將一批樣本(或變量)按照在性質上的“親疏”程度,在沒有先驗知識的情況下自動進行分類的方法.其中:類內個體具有較高的相似性,類間的差異性較大.,2020/7/22,第10章 SPSS的聚類分析,44,聚類分析概述,兩類: (A B) (C D E) 三類:
26、 (A B) (C) (D E),依據(jù)平均得分的差距,差距較小的為一類. 分類過程中,沒有事先指定分類的標準.完全根據(jù)樣本數(shù)據(jù)客觀產(chǎn)生分類結果.,2020/7/22,第10章 SPSS的聚類分析,45,親疏遠程度的衡量指標 相似性:數(shù)據(jù)間相似程度的度量 距離: 數(shù)據(jù)間差異程度的度量.距離越近,越“親密”,聚成一類;距離越遠,越“疏遠”,分別屬于不同的類 定距型個體間的距離: 把每個個案數(shù)據(jù)看成是n維空間上的點,在點和點之間定義某種距離.一般適用于定距數(shù)據(jù) 歐氏距離(EUCLID) 平方歐氏距離(SEUCLID),聚類分析概述,2020/7/22,第10章 SPSS的聚類分析,46,品質型個體間
27、的距離,姓名 授課方式 上機時間 選某門課程 張三 1 1 1 李四 1 1 0 王五 0 0 1,聚類分析概述,2020/7/22,第10章 SPSS的聚類分析,47,品質型個體間的距離 卡方距離:計數(shù)變量,聚類分析概述,2020/7/22,第10章 SPSS的聚類分析,48,說明 聚類過程中如果數(shù)據(jù)在數(shù)量級上存在差異時,應進行標準化處理。 例如: 樣本的歐氏距離 元 萬元 (1,2) 26500081.623 (1,3) 218000193.700 (2,3) 47000254.897,聚類分析概述,2020/7/22,第10章 SPSS的聚類分析,49,聚類分析概述,說明 聚類分析中的變
28、量選擇問題 變量應和聚類分析的目標密切相關 聚類結果僅是所選定變量所具數(shù)據(jù)特點的反應. 變量之間不應具有高度相關性,否則相當于給這些變量進行了加權 聚類分析包括:個案聚類和變量聚類兩種。 聚類分析包括:分層聚類和快速聚類,2020/7/22,第10章 SPSS的聚類分析,50,分層聚類,思路:聚類過程具有一定的層次性 以合并(凝聚)的方式聚類(SPSS采用) 首先,每個個體自成一類 其次,將最“親密”的個體聚成一小類 然后,將最“親密”的小類或個體再聚成一類 重復上述過程,即:把所有的個體和小類聚集成越來越大的類,直到所有的個體都到一起(一大類)為止 可見,隨著聚類的進行,類內的“親密”性在逐
29、漸減低,2020/7/22,第10章 SPSS的聚類分析,51,分層聚類,思路 以分解的方式聚類 首先,所有個體都屬于一類 其次,將大類中最“疏遠”的小類或個體分離出去 然后,分別將小類中最“疏遠”的小類或個體再分離出去 重復上述過程,即:把類分解成越來越小的小類,直到所有的個體自成一類為止 可見,隨著聚類的進行,類內的親密性在逐漸增強,2020/7/22,第10章 SPSS的聚類分析,52,分層聚類,“親疏”程度的衡量對象 個體間距離 個體和小類間、小類和小類間的距離,2020/7/22,第10章 SPSS的聚類分析,53,分層聚類,個體和小類、類和類間的距離 最短距離法(nearest n
30、eighbor): 兩類間的距離定義為兩類中距離最近的兩個個案之間的距離 最長距離法(furthest neighbor): 兩類間的距離定義為兩類中距離最遠的兩個個案之間的距離 平均鏈鎖法(within-groups linkage) 兩類之間的距離定義為兩類個案之間距離的平均值。包括: 組間平均鏈鎖法(between-groups linkage):只考慮兩類間個案的距離 組內平均鏈鎖法(With-groups linage):考慮所有個案間的距離,2020/7/22,第10章 SPSS的聚類分析,54,分層聚類,基本操作步驟 1.基本操作 A.菜單選項: analyze-classify
31、-hierachical cluster B.選擇參與聚類分析的變量入variables框 C.選擇一字符型變量作為個案的標記變量(label cases) D.選擇個案聚類還是變量聚類,2020/7/22,第10章 SPSS的聚類分析,55,分層聚類,基本操作步驟 2. 選擇距離計算方法(method選項) cluster method:計算類間距離的方法 measure:計算樣本距離的方法 transform values:對數(shù)據(jù)進行標準化處理 by variable:以變量為單位標準化,適于個案聚類 by case:對個案為單位標準化,適于變量聚類,2020/7/22,第10章 SPSS
32、的聚類分析,56,分層聚類,進一步的工作 1.數(shù)據(jù)輸出(statistics選項) agglomeration schedule:凝聚狀態(tài)表(默認) distance matrix:樣本的距離矩陣 cluster membership:類成員 none:不輸出類成員(默認) single solution:聚成n類時各樣本的歸屬 range of solutions:聚成mn類時各樣本的歸屬(mn總樣本數(shù)),2020/7/22,第10章 SPSS的聚類分析,57,分層聚類,進一步的工作 2. 圖形輸出(plot選項) dendrogram:樹型圖 icicle:冰柱圖 all cluster:
33、聚類的每一步均在冰柱圖中體現(xiàn) specified range of clusters:將聚類的第n1類開始到第n2類結束,間隔n3類的聚類分析過程在冰柱圖中體現(xiàn) orientation:冰柱圖的方向 vertical:縱向; horizontal:橫向,2020/7/22,第10章 SPSS的聚類分析,58,分層聚類,進一步的工作 3. 結果保存(save選項) single solution:生成一新變量存儲在聚成n類時各樣本屬于哪一類(cluN_M: N為聚類數(shù),M為第幾次做的) range of solutions:生成若干個變量分別存放聚成nm類時各樣本的歸屬情況,2020/7/22,
34、第10章 SPSS的聚類分析,59,分層聚類,聚類數(shù)目的確定 聚類數(shù)目確定尚無統(tǒng)一標準,一般原則: 各類所包含的元素都不應過多 分類數(shù)目應符合分析的目的 分層聚類中可以將類間距離作為確定類數(shù)目的輔助工具 SPSS中,聚類過程中,類間距離呈增加趨勢 類間距離小,類的相似性大;距離大,相似性小 繪制碎石圖(X軸為類距離,Y軸為類數(shù)),2020/7/22,第10章 SPSS的聚類分析,60,K-means快速聚類,(一)出發(fā)點 希望: 克服分層聚類在大樣本時產(chǎn)生的困難,提高聚類效率 做法: 通過用戶事先指定聚類數(shù)目的方式提高效率 因此,分層聚類可以對不同的聚類數(shù)而產(chǎn)生一系列的聚類解,而快速聚類只能產(chǎn)生單一的聚類解,2020/7/22,第10章 SPSS的聚類分析,61,K-means快速聚類,(二)思路 1.指定最后要聚成K類 2.用戶指定k個樣本作為初始類中心或系統(tǒng)自動確定k個樣本作為初始類中心 3.系統(tǒng)按照距k個中心距離最近的原則把每個樣本分派到各中心所在的類中去,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年寧麓置地(寧波)有限公司招聘備考題庫及一套完整答案詳解
- 2026年哈爾濱市第三十九中學校臨聘教師招聘備考題庫及1套參考答案詳解
- 2026年蘭州泰基離子技術有限公司招聘備考題庫及參考答案詳解1套
- 2026年中色地科礦產(chǎn)勘查股份有限公司招聘備考題庫及完整答案詳解一套
- 2026年中華聯(lián)合財產(chǎn)保險股份有限公司錫林郭勒中心支公司招聘2人備考題庫完整參考答案詳解
- 2026年關于內江市部分市本級事業(yè)單位公開選調工作人員14人的備考題庫參考答案詳解
- 2026年塔河鎮(zhèn)社區(qū)衛(wèi)生服務中心招聘備考題庫及答案詳解1套
- 2026年勞務派遣人員招聘(派遣至浙江大學醫(yī)學院)備考題庫及參考答案詳解1套
- 2026年七臺河七煤醫(yī)院關于公開招聘財務專業(yè)人員的備考題庫及參考答案詳解
- 2026年華中智庫校內招聘職員備考題庫及完整答案詳解1套
- 寶馬購車合同
- 安措費清單完整版本
- 食品安全管理制度打印版
- 多聯(lián)機安裝施工方案
- 神經(jīng)內科品管圈成果匯報-提高腦卒中偏癱患者早期自我肢體功能鍛煉規(guī)范執(zhí)行率
- 缺血性腦卒中靜脈溶栓護理
- 電子電路基礎-電子科技大學中國大學mooc課后章節(jié)答案期末考試題庫2023年
- 四年級科學上冊期末試卷及答案-蘇教版
- DB51T 2875-2022彩燈(自貢)工藝燈規(guī)范
- 小學數(shù)學人教版六年級上冊全冊電子教案
- 主要負責人重大危險源安全檢查表
評論
0/150
提交評論