《多元統(tǒng)計分析》(第6版)課件 第3章 聚類分析_第1頁
《多元統(tǒng)計分析》(第6版)課件 第3章 聚類分析_第2頁
《多元統(tǒng)計分析》(第6版)課件 第3章 聚類分析_第3頁
《多元統(tǒng)計分析》(第6版)課件 第3章 聚類分析_第4頁
《多元統(tǒng)計分析》(第6版)課件 第3章 聚類分析_第5頁
已閱讀5頁,還剩168頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

§3.7計算步驟與上機實現(xiàn)2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心第3章聚類分析§3.1聚類分析的基本思想§3.2相似性度量§3.3類和類的特征§3.4系統(tǒng)聚類法§3.5K-均值聚類和有序樣本聚類§3.6

模糊聚類分析§3.8社會經(jīng)濟案例研究2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心2第3章聚類分析聚類分析將個體或?qū)ο蠓诸悾沟猛活愔械膶ο笾g的相似性比與其他類的對象的相似性更強。目的在于使類間對象的同質(zhì)性最大化和類與類間對象的異質(zhì)性最大化。

本章將介紹聚類分析的性質(zhì)和目的,并且引導研究者使用各種聚類分析方法。目錄上頁下頁返回結(jié)束2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心3§3.1聚類分析的基本思想3.1.1導言目錄上頁下頁返回結(jié)束在古老的分類學中,人們主要靠經(jīng)驗和專業(yè)知識,很少利用統(tǒng)計方法。隨著生產(chǎn)技術(shù)和科學的發(fā)展,分類越來越細,以致有時僅憑經(jīng)驗和專業(yè)知識還不能進行確切分類,于是統(tǒng)計這個有用的工具逐漸被引進到分類學中,形成了數(shù)值分類學。近些年來,數(shù)理統(tǒng)計的多元分析方法有了迅速的發(fā)展,多元分析的技術(shù)自然被引用到分類學中,于是從數(shù)值分類學中逐漸的分離出聚類分析這個新的分支。數(shù)據(jù)挖掘、大數(shù)據(jù)中數(shù)據(jù)處理方法更是有聚類方法。2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心4目錄上頁下頁返回結(jié)束我們認為,所研究的樣品或指標(變量)之間是存在著程度不同的相似性(親疏關(guān)系)。于是根據(jù)一批樣品的多個觀測指標,具體找出一些能夠度量樣品或指標之間的相似程度的統(tǒng)計量,以這些統(tǒng)計量為劃分類型的依據(jù),把一些相似程度較大的樣品(或指標)聚合為一類,把另外一些彼此之間相似程度較大的樣品(或指標)又聚合為另外一類,…。關(guān)系密切的聚合到一個小的分類單位,§3.1聚類分析的基本思想2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心5目錄上頁下頁返回結(jié)束關(guān)系疏遠的聚合到一個大的分類單位,直到把所有的樣品(或指標)都聚合完畢,把不同的類型一一劃分出來,形成一個由小到大的分類系統(tǒng)。最后再把整個分類系統(tǒng)畫成一張分群圖(又稱譜系圖),用它把所有的樣品(或指標)間的親疏關(guān)系表示出來。§3.1聚類分析的基本思想2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心6§3.1聚類分析的思想目錄上頁下頁返回結(jié)束聚類分析可以用來對樣品進行分類,也可以用來對變量進行分類。對樣品的分類常稱為Q型聚類分析,對變量的分類常稱為R型聚類分析。2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心7§3.1聚類分析的思想目錄上頁下頁返回結(jié)束與多元分析的其他方法相比,聚類分析的方法是很粗糙的,理論上還不完善,但由于它能解決許多實際問題,很受人們的重視,和回歸分析、判別分析一起被稱為多元分析的三大方法。

2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心8目錄上頁下頁返回結(jié)束3.1.2聚類的目的§3.1聚類分析的思想在一些社會、經(jīng)濟問題中,我們面臨的往往是比較復雜的研究對象,如果能把相似的樣品(或指標)歸成類,處理起來就大為方便,聚類分析就是根據(jù)“物以類聚”的原則,對樣品或指標進行分類的一種多元統(tǒng)計分析方法,目的就是把相似的研究對象歸成類。2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心9目錄上頁下頁返回結(jié)束例3-1:本例收集了2022年北上廣和江浙地區(qū)批發(fā)零售、交通運輸、住宿餐飲、金融、房地產(chǎn)、水利環(huán)境這6個服務業(yè)的就業(yè)人員年平均工資數(shù)據(jù)(數(shù)據(jù)來源于2023年《中國勞動統(tǒng)計年鑒》),如表3-1所示。依據(jù)這6個主要服務行業(yè)就業(yè)人員的平均工資、單位所屬地區(qū)和單位類型對其進行分類,以分析我國經(jīng)濟發(fā)達地區(qū)(北上廣、江浙地區(qū))的城鎮(zhèn)服務業(yè)單位就業(yè)人員的平均工資水平?!?.1聚類分析的思想3.1.2聚類的目的2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心10§3.1聚類分析的思想2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心11目錄上頁下頁返回結(jié)束§3.1聚類分析的思想例3-1中的8個指標,前6個是定量的,后2個是定性的。如果分得更細一些,指標的類型有三種尺度間隔(比例)尺度:變量用連續(xù)的量來表示。有序尺度:指標用有序的等級來表示,有次序關(guān)系,但沒有數(shù)量表示。名義尺度:指標用一些類來表示,這些類之間沒有等級關(guān)系也沒有數(shù)量關(guān)系。2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心12目錄上頁下頁返回結(jié)束不同類型的指標,在聚類分析中,處理的方式是大不一樣的?!?.1聚類分析的思想總的來說,提供給間隔尺度的指標的方法較多,對另兩種尺度的變量處理的方法不多。聚類分析根據(jù)實際的需要可能有兩個方向,一是對樣品,一是對指標聚類2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心13目錄上頁下頁返回結(jié)束第一位重要的問題是“什么是類”?簡單地講,相似樣品(或指標)的集合稱作類?!?.1聚類分析的思想由于實際問題的復雜性,欲給類下一個嚴格的定義是困難的,在§3.3中,我們將給類一些待探討的定義。

2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心14目錄上頁下頁返回結(jié)束§3.1聚類分析的思想將例3-1抽象化,就得到如表3-2所示的數(shù)據(jù)矩陣,其中xij表示第i個樣品的第j個指標的值。我們的目的是從這些數(shù)據(jù)出發(fā),對樣品(或指標)進行分類。2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心15目錄上頁下頁返回結(jié)束聚類分析給人們提供了豐富多采的方法進行分類,這些方法大致可歸納為:§3.1聚類分析的思想(4)有序樣品的聚類(2)模糊聚類法(3)K-均值法(5)分解法(6)加入法系統(tǒng)聚類法2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心16§3.2相似性度量目錄上頁下頁返回結(jié)束從一組復雜數(shù)據(jù)產(chǎn)生一個相當簡單的類結(jié)構(gòu),必然要求進行“相關(guān)性”或“相似性“度量。在相似性度量的選擇中,常常包含許多主觀上的考慮,但是最重要的考慮是指標(包括離散的、連續(xù)的)性質(zhì)或觀測的尺度(名義的、次序的、間隔的和比率的)以及有關(guān)的知識。2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心17§3.2相似性度量目錄上頁下頁返回結(jié)束當對樣品進行聚類時,“靠近”往往由某種距離來刻畫。

當對指標聚類時,根據(jù)相關(guān)系數(shù)或某種關(guān)聯(lián)性度量來聚類。

2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心18§3.2相似性度量目錄上頁下頁返回結(jié)束

在表3-2中,每個樣品有p個指標,故每個樣品可以看成p維空間中的一個點,n個樣品就組成p維空間中的n個點,此時自然想用距離來度量樣品之間的接近程度。2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心19§3.2相似性度量目錄上頁下頁返回結(jié)束

2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心20§3.2相似性度量目錄上頁下頁返回結(jié)束2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心21§3.2相似性度量目錄上頁下頁返回結(jié)束2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心22§3.2相似性度量目錄上頁下頁返回結(jié)束(1)當各指標的測量值相差懸殊時,先對數(shù)據(jù)標準化,然后用標準化后的數(shù)據(jù)計算距離,即蘭氏距離。(2)一種改進的距離就是在前面曾討論過的馬氏距離,它對一切線性變換是不變的,不受指標量綱的影響。它對指標的相關(guān)性也作了考慮,我們僅用一個例子來說明。

2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心23§3.2相似性度量目錄上頁下頁返回結(jié)束2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心24§3.2相似性度量目錄上頁下頁返回結(jié)束2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心25§3.2相似性度量目錄上頁下頁返回結(jié)束2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心26§3.2相似性度量目錄上頁下頁返回結(jié)束以上幾種距離均是適用于間隔尺度的變量,如果指標是有序尺度或名義尺度時也有一些定義距離的方法。2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心27§3.2相似性度量目錄上頁下頁返回結(jié)束【例3.3】歐洲各國的語言有許多相似之處,有的十分相似。為了研究這些語言的歷史關(guān)系,也許通過比較它們數(shù)字的表達比較恰當。表3.3列舉了英語、挪威語、丹麥語、荷蘭語、德語、法語、西班牙語、意大利語、波蘭語、匈牙利語和芬蘭語的1,2,…,10的拼法,希望計算這11種語言之間的距離。定義距離的較靈活的思想方法。2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心28§3.2相似性度量目錄上頁下頁返回結(jié)束2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心29§3.2相似性度量目錄上頁下頁返回結(jié)束2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心30§3.2相似性度量目錄上頁下頁返回結(jié)束

顯然,此例無法直接用上述公式來計算距離。仔細觀察表3-3,發(fā)現(xiàn)前三種語言(英、挪、丹)很相似,尤其每個單詞的第一個字母,于是產(chǎn)生一種定義距離的辦法:用兩種語言的10個數(shù)詞中的第一個字母不相同的個數(shù)來定義兩種語言之間的距離,例如英語和挪威語中只有1和8的第一個字母不同,故它們之間的距離為2。11種語言兩兩之間的距離如表3-4所示。2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心31§3.2相似性度量目錄上頁下頁返回結(jié)束2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心32§3.2相似性度量目錄上頁下頁返回結(jié)束2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心33§3.2相似性度量目錄上頁下頁返回結(jié)束2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心34§3.2相似性度量目錄上頁下頁返回結(jié)束對于間隔尺度,常用的相似系數(shù)有:(1)夾角余弦。這是受相似形的啟發(fā)而來,圖3.1中的曲線AB和CD盡管長度不一,但形狀相似,當長度不是主要矛盾時,應定義一種相似系數(shù)使AB和CD呈現(xiàn)出比較密切的關(guān)系。而夾角余弦適合這一要求。2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心35§3.2相似性度量目錄上頁下頁返回結(jié)束2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心36§3.2相似性度量目錄上頁下頁返回結(jié)束

(2)相關(guān)系數(shù)。這是大家最熟悉的統(tǒng)計量,它是將數(shù)據(jù)標準化后的夾角余弦。相關(guān)系數(shù)常用rij表示,為了和其他相似系數(shù)記號統(tǒng)一,這里記為Cij(2)。它的定義是:2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心37§3.2相似性度量目錄上頁下頁返回結(jié)束

有時指標之間也可用距離來描述它們的接近程度。實際上距離和相似系數(shù)之間可以互相轉(zhuǎn)化,2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心38§3.3類和類的特征目錄上頁下頁返回結(jié)束目的是聚類,那么什么叫類呢?由于客觀事物的千差萬別,在不同的問題中類的含義是不盡相同的。給類下一個嚴格的定義,決非易事。下面給出類的適用于不同的場合幾個定義。2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心39§3.3類和類的特征目錄上頁下頁返回結(jié)束2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心40§3.3類和類的特征目錄上頁下頁返回結(jié)束2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心41§3.3類和類的特征目錄上頁下頁返回結(jié)束易見,定義3.1的要求是最高的,凡符合它的類,一定也是后三種定義的類。此外,凡符合定義3.2的類,也一定是定義3.3的類。2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心42§3.3類和類的特征目錄上頁下頁返回結(jié)束2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心43§3.3類和類的特征目錄上頁下頁返回結(jié)束2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心44§3.3類和類的特征目錄上頁下頁返回結(jié)束在聚類分析中,不僅要考慮各個類的特征,而且要計算類與類之間的距離。由于類的形狀是多種多樣的,所以類與類之間的距離也有多種計算方法。

2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心45§3.3類和類的特征目錄上頁下頁返回結(jié)束(1)最短距離法。(nearestneighbor或singlelinkagemethod)

2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心46§3.3類和類的特征目錄上頁下頁返回結(jié)束(2)最長距離法(farthestneighbor或completelinkagemethod)。2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心47§3.3類和類的特征目錄上頁下頁返回結(jié)束(3)類平均法(groupaveragemethod)。

2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心48§3.3類和類的特征目錄上頁下頁返回結(jié)束(4)重心法(Centroidmethod)。

(5)離差平方和法(SumofSquaresmethod)。

2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心49§3.3類和類的特征目錄上頁下頁返回結(jié)束

用離差平方和法定義Gp和Gq之間的距離平方為:

2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心50§3.3類和類的特征目錄上頁下頁返回結(jié)束

可以證明這種定義是有意義的。證明參見參考文獻[7]。如果樣品間的距離采用歐氏距離,同樣可以證明下式成立:

這表明,離差平方和法定義的類間距離Dw(p,q)與重心法定義的距離Dc(p,q)只差一個常數(shù)倍,這個倍數(shù)與兩類的樣品數(shù)有關(guān)。2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心51§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束系統(tǒng)聚類法(hierarchicalclusteringmethod)在聚類分析中諸方法中用的最多,包含下列步驟:

圖3-5系統(tǒng)聚類法的過程2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心52§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束不同的距離定義方式用到系統(tǒng)聚類程序中,得到不同的系統(tǒng)聚類法。我們現(xiàn)在通過一個簡單的例子,來說明各種系統(tǒng)聚類法。【例3.4】為了研究遼寧省、浙江省等5個省份2022年城鎮(zhèn)居民消費支出的結(jié)構(gòu)和水平,并根據(jù)消費支出的結(jié)構(gòu)和水平對省份進行聚類,現(xiàn)收集這5個省份城鎮(zhèn)居民在食品、衣著、居住等8個方面的人均消費支出數(shù)據(jù)(數(shù)據(jù)來源于2023年《中國統(tǒng)計年鑒》),具體如表3-5所示。。2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心53§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心54目錄上頁下頁返回結(jié)束

現(xiàn)將表3-5中的每個省份看成一個樣品,先計算5個省份之間的歐氏距離,用D0表示相應的矩陣(由于矩陣對稱,故只寫出下三角部分)?!?.4系統(tǒng)聚類法2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心55目錄上頁下頁返回結(jié)束§3.4系統(tǒng)聚類法

距離矩陣D0中的各元素數(shù)值的大小就反映了5個省份間消費水平的接近程度。例如遼寧省和甘肅省之間的歐氏距離最小,為1133.633,反映了這兩個省份城鎮(zhèn)居民的消費水平最接近。2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心56§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束3.4.1最短距離法和最長距離法

最短距離法就是類與類之間的距離采用(3.12)的系統(tǒng)聚類方法。

2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心57§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束我們發(fā)現(xiàn)D0中最小的元素是D(1,4)=1133.633,故將類G1和類G4合并成一個新類G6={1,4},然后計算G6與G2,G3,G5之間的距離。利用

D(6,i)=min{D(1,i),D(4,i)},

i=2,3,5d(1,4)2=min{d12,d42}=min{8351.772,8602.938}=8351.772d(1,4)3=min{d13,d43}=min{1837.613,1181.725}=1181.725d(1,4)5=min{d15,d45}=min{2187.24,1909.555}=1909.555其最近相鄰的距離是:2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心58§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束

在距離矩陣D0中消去1,4所對應的行和列,并加入{1,4}這一新類對應的一行一列,得到新的距離矩陣為:

然后,在D1中發(fā)現(xiàn)類間最小距離是d63=d(1,4)3=1181.725,合并類{1,4}和G3得到新類G7={1,3,4}。再利用D(7,i)=min{D(3,i),D(6,i)},

i=2,52025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心59§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束計算得

d(1,4,3)2=min{d32,d62}=min{9644.393,8351.772}=8351.772

d(1,4,3)5=min{d35,d65}=min{1519.417,1909.555}=1519.417故得下一層次聚類的距離矩陣為:2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心60§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束

類間最小距離是d57=1519.417,合并類G5和類G7得到新類G8={1,3,4,5}。此時,我們有兩個不同的類G8={1,3,4,5}和G2。最后,合并類G8和G2形成一個大的聚類系統(tǒng),上述合并類的過程所對應的譜系圖見圖3-6。2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心61§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束

最后,決定類的個數(shù)與類。若用類的定義3.1,分兩類較為合適,這時,閾值T=1519.417,這等價于在圖3-6上距離為10處切一刀,得到兩類分別為{甘肅,青海,河南,遼寧}與{浙江}。圖3-6最短距離法的譜系聚類圖(歐氏距離)2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心62§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束所謂最長距離法是類與類之間的距離采用(3.13)的系統(tǒng)聚類法。選擇最大的距離作為新類與其他類之間的距離,然后將類間距離最小的兩類進行合并,一直合并到只有一類為止。上述兩方法中,主要的不同是計算新類與其他類的距離的遞推公式不同。2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心63§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束

設(shè)某步將類Gp和Gq合并為Gr,則Gr與其他類Gl間的距離為:Dk(r,l)=min{Dk(p,l),Dk(q,l)} (3.18)Ds(r,l)=max{Ds(p,l),Ds(q,l)}(3.19)

也就是說,在最長距離法中,選擇最大的距離作為新類與其他類之間的距離,然后將類間距離最小的兩類進行合并,一直合并到只有一類為止。

最短距離法也可用于對指標的分類,分類時可以用距離,也可以用相似系數(shù)。但用相似系數(shù)時應找最大的元素并類,計算新類與其他類間的距離應使用式(3.19)。2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心64§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束

最短距離法的主要缺點是它有鏈接聚合的趨勢,因為類與類之間的距離為所有距離中的最短者,兩類合并以后,它與其他類的距離縮小了,這樣容易形成一個比較大的類,大部分樣品都被聚在一類中,在樹狀聚類圖中會看到一個延伸的鏈狀結(jié)構(gòu),所以最短距離法的聚類效果并不好,實踐中不提倡使用。

最長距離法克服了最短距離法鏈接聚合的缺陷,兩類合并以后與其他類的距離是原來兩個類中的距離最大者,加大了合并后的類與其他類間的距離(見圖3-7)。2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心65§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束圖3-7最長距離法的譜系聚類圖(歐氏距離)我們看到,本例中最短距離法與最長距離法得到的結(jié)果是相同的。2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心66§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束3.4.2重心法和類平均法

從物理的觀點看,一個類用它的重心(該類樣品的均值做代表比較合理,類與類之間的距離就用重心之間)的距離來代表。

2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心67§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束3.4.2重心法和類平均法

2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心68§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束重心法雖有很好的代表性,但并未充分利用各樣本的信息,有人建議將兩類之間的距離平方定義為這兩類元素兩兩之間的平均平方距離,即類平均法。

2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心69§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束

這就是類平均法的遞推公式。類平均法是聚類效果較好、應用比較廣泛的一種聚類方法。它有兩種形式:一種是組間聯(lián)結(jié)法(between-groupslinkage);另一種是組內(nèi)聯(lián)結(jié)法(within-groupslinkage)。組間聯(lián)結(jié)法在計算距離時只考慮兩類之間樣品距離的平均;組內(nèi)聯(lián)結(jié)法在計算距離時把兩組所有個案之間的距離都考慮在內(nèi)。2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心70§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束

可變類平均法的分類效果與β的選擇關(guān)系極大,有一定的人為性,因此在實踐中使用尚不多。如果β接近1,分類效果一般不好,故β常取負值。2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心71§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束重心法的譜系聚類圖如圖3-8所示。類平均法(組內(nèi)聯(lián)結(jié)法)的譜系聚類圖(歐氏距離)如圖3-9所示。圖3-8重心法的譜系聚類圖(平方歐氏距離)2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心72§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束圖3-9類平均法(組內(nèi)聯(lián)結(jié)法)的譜系聚類圖(歐氏距離)2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心73§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束3.4.3離差平方和法(或稱Ward方法)

離差平方和方法是由Ward提出來的,許多資料上稱做Ward法。他的思想是來于方差分析,如果類分得正確,同類樣品的離差平方和應當較小,類與類之間的離差平方和應當較大。

2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心74§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束

2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心75§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束(3.26)式的證明見參考文獻[6]。例如,當n=21,k=2時,R(21,2)=221-1=2097151。當n,k更大時,R(n,k)就達到了天文數(shù)字。因此,要比較這么多分類來選擇最小的L,即使高速計算機也難以完成。于是,只好放棄在一切分類中求L的極小值的要求,而是設(shè)計出某種規(guī)格:找到一個局部最優(yōu)解。Ward法就是尋找局部最優(yōu)解的一種方法。其思想是先讓n個樣品各自成一類,然后每次縮小一類,每縮小一類,離差平方和就要增大,選擇使L增加最小的兩類合并,直到所有的樣品歸為一類為止。2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心76§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束

2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心77§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束圖3-10離差平方和法的譜系聚類圖(平方歐氏距離)2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心78§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束3.4.4分類數(shù)的確定如何選擇分類數(shù)是各種聚類方法中的主要問題之一。在K均值聚類法中聚類之前需要指定分類數(shù),譜系聚類法(系統(tǒng)聚類法)中我們最終得到的只是一個樹狀結(jié)構(gòu)圖,從圖中可以看出存在很多類,但問題是如何確定類的最佳個數(shù)。2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心79§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束確定分類數(shù)的問題是聚類分析中迄今為止尚未完全解決的問題之一,主要的障礙是對類的結(jié)構(gòu)和內(nèi)容很難給出一個統(tǒng)一的定義,這樣就給不出從理論上和實踐中都可行的虛無假設(shè)。實際應用中人們主要根據(jù)研究的目的,從實用的角度出發(fā),選擇合適的分類數(shù)。Demir-men曾提出了根據(jù)樹狀結(jié)構(gòu)圖來分類的準則:2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心80§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束準則1:任何類都必須在鄰近各類中是突出的,即各類重心之間距離必須大。準則2:各類所包含的元素都不要過分地多。準則3:分類的數(shù)目應該符合使用的目的。準則4:若采用幾種不同的聚類方法處理,則在各自的聚類圖上應發(fā)現(xiàn)相同的類。2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心81§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束系統(tǒng)聚類中每次合并的類與類之間的距離也可以作為確定類數(shù)的一個輔助工具。首先把離得近的類合并,在并類過程中聚合系數(shù)呈增加趨勢,聚合系數(shù)小,表示合并的兩類的相似程度較大,兩個差異很大的類合到一起,會使該系數(shù)很大。

如果以y軸為聚合系數(shù),x軸表示分類數(shù),畫出聚合系數(shù)隨分類數(shù)的變化曲線,會得到類似于因子分析中的碎石圖,可以在曲線開始變得平緩的點選擇合適的分類數(shù)。

2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心823.4.5系統(tǒng)聚類法的統(tǒng)一

上面介紹的五種系統(tǒng)聚類法,并類的原則和步驟是完全一樣的,所不同的是類與類之間的距離有不同的定義,從而得到不同的遞推公式。如果能將它們統(tǒng)一為一個公式,將大大有利于編制計算機程序。蘭斯和威廉姆斯于1967年給出了一個統(tǒng)一的公式:

式中,αp,αq,β,γ對于不同的方法有不同的取值,表3-6列出了不同方法中這四個參數(shù)的取值。表中除了上述五種方法外,還列舉了另外三種系統(tǒng)聚類法,由于它們用得較少,這里不再詳述,可參見參考文獻[6]。2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心833.4.5系統(tǒng)聚類法的統(tǒng)一一般而言,不同的方法聚類的結(jié)果不完全相同。最短距離法適用于條形的類。最長距離法、重心法、類平均法、離差平方和法適用于橢圓形的類。.2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心84§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束由于上述的聚類方法得到的結(jié)果是不完全相同的。于是產(chǎn)生一個問題:我們應當選擇哪一個結(jié)果為好?為了解決這個問題,需要研究系統(tǒng)聚類法的性質(zhì),現(xiàn)簡要介紹如下。

(1)單調(diào)性

令Dr為系統(tǒng)聚類法中第r次并類時的距離,如例3-4,用最短距離時,有D1=1133.633,D2=1181.725,D3=1519.417,D4=8351.772,此時D1<D2<D3<…。一種系統(tǒng)聚類法若能保證{Dr}是嚴格單調(diào)上升的,則稱它具有單調(diào)性。2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心85§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束

由單調(diào)性畫出的聚類圖符合系統(tǒng)聚類的思想,先結(jié)合的類關(guān)系較近,后結(jié)合的類關(guān)系較疏遠。

顯然,最短距離法和最長距離法具有并類距離的單調(diào)性。

可以證明,類平均法、離差平方和法、可變法和可變類平均法都具有單調(diào)性,只有重心法和中間距離法不具有單調(diào)性(證明見參考文獻[6])。2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心86§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束(2)空間的濃縮與擴張

對同一問題作聚類圖時,橫坐標(并類距離)的范圍相差很大。最短距離法的范圍較小,最長距離法的范圍較大,類平均法則介于二者之間。

范圍小的方法區(qū)分類的靈敏度差,而范圍太大的方法靈敏度又過高,會使支流淹沒主流,這與收音機的靈敏度有相似之處。靈敏度太低的收音機接收的臺少,靈敏度太高,臺與臺之間容易干擾,適中為好。

按這一直觀的想法引進如下的概念。2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心87§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束

定義3.5設(shè)兩個同階矩陣A=(aij)和B=(bij)的元素非負,如果A的每一個元素不小于B相應的元素,即aij≥bij(?i,j),則記作A≥B(請勿與非負定陣A≥的意義相混淆,這個記號僅在本節(jié)中使用)。由定義推知,A≥0,表示A的元素非負。

設(shè)有A,B兩種系統(tǒng)聚類法,第k步的距離陣記作Ak和Bk(k=0,1,…,n-1),若Ak≥Bk(k=1,2,…,n-1),則稱A比B擴張或者B比A濃縮。對系統(tǒng)聚類法有如下的結(jié)論(參見參考文獻[6]):2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心88§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束

(K)≤(G)≤(S)

(C)≤(G)≤(W)

式中,(K)是最短距離法;(S)是最長距離法;(C)是重心法;(W)是離差平方和法;(G)是類平均法。歸納起來說,與類平均法相比,最短距離法、重心法使空間濃縮;最長距離法、離差平方和法使空間擴張。太濃縮的方法不夠靈敏,太擴張的方法在樣本大時容易失真。

類平均法比較適中,相比其他方法,類平均法不太濃縮也不太擴張,故許多書籍推薦這種方法。2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心89§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束

有關(guān)系統(tǒng)聚類法的性質(zhì),學者們還從其他角度提出了比較優(yōu)劣的原則。

欲將n個樣品分為k類,有人定義一個分類函數(shù)(或叫損失函數(shù)),然后尋找這個函數(shù)的最優(yōu)解,在某些條件下,最短距離法的解是最優(yōu)的,而系統(tǒng)聚類法的其他方法都不具有這個性質(zhì)(參見參考文獻[6][7]),故最短距離法在實踐中也很受推崇。系統(tǒng)聚類法的各種方法的比較仍是一個值得研究的課題,例如,有學者用隨機模擬做了研究,發(fā)現(xiàn)最長距離法并不可取。2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心90§3.5K-均值聚類和有序樣品的聚類目錄上頁下頁返回結(jié)束3.5.1K-均值法(快速聚類法)非譜系聚類法是把樣品(而不是變量)聚集成K個類的集合。類的個數(shù)K可以預先給定,或者在聚類過程中確定。非譜系方法可應用于比系統(tǒng)聚類法大得多的數(shù)據(jù)組。非譜系聚類法或者一開始就對元素分組,或者從一個構(gòu)成各類核心的“種子”集合開始。選擇好的初始構(gòu)形,將能免除系統(tǒng)的偏差。一種方法是從所有項目中隨機地選擇“種子”點或者隨機地把元素分成若干個初始類。2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心91§3.5K-均值聚類和有序樣品的聚類目錄上頁下頁返回結(jié)束K-均值法,又叫快速聚類法:是Macqueen于1967年提出的,其思想是把每個樣品聚集到其最近形心(均值)類中去。在它的最簡單說明中,這個過程由下列三步所組成:(1)把樣品粗略分成K個初始類;(2)進行修改,逐個分派樣品到其最近均值的類中去(通常用標準化數(shù)據(jù)或非標準化數(shù)據(jù)計算歐氏距離)。重新計算接受新樣品的類和失去樣品的類的形心(均值);(3)重復第2步,直到各類無元素進出。2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心92§3.5K-均值聚類和有序樣品的聚類目錄上頁下頁返回結(jié)束若不在一開始就粗略地把樣品分到K個預先指定的類(第1步),那我們也可以指定K個最初形心(種子點),然后進行第2步。樣品的最終聚類在某種程度上依賴于最初的劃分,或種子點的選擇。為了檢驗聚類的穩(wěn)定性,可用一個新的初始分類重新檢驗整個聚類算法。如最終分類與原來一樣,則不必再行計算;否則,須另行考慮聚類算法。見[10]

2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心93§3.5K-均值聚類和有序樣品的聚類目錄上頁下頁返回結(jié)束關(guān)于K-均值法,對其預先不固定類數(shù)K這一點有很大的爭論,其中包括下面幾點:(1)如果有兩個或多個“種子”點無意中跑到一個類內(nèi),則其聚類結(jié)果將很難區(qū)分。(2)局外干擾的存在將至少產(chǎn)生一個樣品非常分散的類。(3)即使已知總體由K個類組成,抽樣方法也可造成屬于最稀疏類的數(shù)據(jù)不出現(xiàn)在樣本中。強行把這些數(shù)據(jù)分成K個類會導致無意義的聚類。

許多聚類算法都要求給定K,而選擇幾種算法進行反復檢驗,對于結(jié)果的分析也許是有好處的。其他非譜系聚類過程的討論可參見參考文獻[11]。2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心94§3.5K-均值聚類和有序樣品的聚類目錄上頁下頁返回結(jié)束3.5.2有序樣品的聚類在前幾節(jié)的討論中,分類的樣品是相互獨立的,分類時彼此是平等的。但在有些實際問題中,要研究的現(xiàn)象與時間的順序密切相關(guān)。例如我們想要研究,從1949年到2024年以來,國民收入可以劃分為幾個階段,階段的劃分必須以年份順序為依據(jù),總的想法是要將國民收入接近的年份劃分到一個段內(nèi),要完成類似這樣的問題的研究,用前幾節(jié)分類的方法顯然是不行了。2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心95§3.5K-均值聚類和有序樣品的聚類目錄上頁下頁返回結(jié)束對于這類有序樣品的分類,實質(zhì)上是需要找出一些分點,將它們劃分成幾個分段,每個分段看作一類,稱這種分類為分割。顯然,分點在不同位置可以得到不同的分割。這樣就存在一個如何決定分點,使達到所謂最優(yōu)分割的問題。即要求一個分割能使各段內(nèi)部樣品間的差異最小,而各段之間樣品的差異最大。這就是決定分割點的依據(jù)。

假設(shè)用x1,x2,…,xn表示n個有順序的樣品,有序樣品的分類結(jié)果要求每一類必須呈:{xi,xi+1,…,xi+j}(i≥1,j≥0)。增加了有序這個約束條件,會給分類帶來哪些影響呢?2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心96§3.5K-均值聚類和有序樣品的聚類目錄上頁下頁返回結(jié)束1、可能的分類數(shù)目

n個樣品分成k類,如果樣品是彼此平等的,則一切可能的分法有:

故有序樣品的聚類問題要簡單一些。2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心97§3.5K-均值聚類和有序樣品的聚類目錄上頁下頁返回結(jié)束2、最優(yōu)分割法

這種方法的分類依據(jù)是離差平方和,但由于R'(n,k)比R(n,k)小得多,因此與系統(tǒng)聚類法中的離差平方和法又有所不同,前者可以求得精確最優(yōu)解,而后者只能求得局部最優(yōu)解。這種方法首先是由費歇(Fisher)提出的,又稱為Fisher算法。

設(shè)樣品依次是x1,x2,…,xn(每個是m維向量),最優(yōu)分割法的步驟大致如下:2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心98§3.5K-均值聚類和有序樣品的聚類目錄上頁下頁返回結(jié)束

2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心99§3.5K-均值聚類和有序樣品的聚類目錄上頁下頁返回結(jié)束

定義這種分類的目標函數(shù)為:

2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心100§3.5K-均值聚類和有序樣品的聚類目錄上頁下頁返回結(jié)束

當n,k固定時,e[P(n,k)]越小表示各類的離差平方和越小,分類是合理的。因此要尋找一種分法P(n,k)使目標函數(shù)達到極小,以下P(i,j)一般表示使e[P(n,k)]達到極小的分類。

2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心101§3.5K-均值聚類和有序樣品的聚類目錄上頁下頁返回結(jié)束

2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心102§3.6模糊聚類分析目錄上頁下頁返回結(jié)束模糊集的理論是二十世紀六十年代中期美國的自動控制專家查德(L.A.Zadeh)教授首先提出的。模糊集的理論已廣泛應用于許多領(lǐng)域,將模糊集概念用到聚類分析中便產(chǎn)生了模糊聚類分析。3.6.1模糊聚類的幾個基本概念1.特征函數(shù)

對于一個普通集合A,空間中任一元素x,要么x∈A,要么x∈/A,二者必居其一,這一特征用一個函數(shù)表示為:2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心103§3.6模糊聚類分析目錄上頁下頁返回結(jié)束

2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心104§3.6模糊聚類分析目錄上頁下頁返回結(jié)束2.隸屬函數(shù)當我們要了解某企業(yè)完成年計劃利潤程度的大小時,僅用特征函數(shù)就不夠了。模糊數(shù)學把它推廣到[0,1]閉區(qū)間,即用0和1之間的一個數(shù)去度量它。這個數(shù)就叫隸屬度。當用函數(shù)來表示隸屬度的變化規(guī)律時,就叫做隸屬函數(shù)。即:0≤A(x)≤1

如果某企業(yè)完成年計劃利潤的90%,可以說,這個企業(yè)完成年計劃利潤的隸屬度是0.9。顯然,隸屬度概念是2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心105§3.6模糊聚類分析目錄上頁下頁返回結(jié)束特征函數(shù)概念的拓廣。特征函數(shù)描述空間的元素之間是否有關(guān)聯(lián),而隸屬度描述了元素之間的關(guān)聯(lián)是多少。

用集合語言來描述隸屬函數(shù)的概念就是:設(shè)x為全域,若A為x上取值[0,1]的一個函數(shù),則稱A為模糊集。若一個矩陣元素取值于[0,1]范圍內(nèi),則稱該矩陣為模糊矩陣。2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心106§3.6模糊聚類分析目錄上頁下頁返回結(jié)束3.模糊矩陣的運算法則。

2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心1073.6.2

FCM聚類方法假設(shè)將n個樣本{x1,x2,…,xn}劃分為c類,其中xi=(xi1,xi2,…,xip)'

(i=1,2,…,n)記樣本xi屬于g類的模糊隸屬度為uig,由隸屬度構(gòu)成的矩陣記作U=(uig)n×c,將各類的類中心記作V=(v1,v2,…,vc)∈Rp,其中矩陣U需要滿足條件:FCM聚類方法的核心是求解如下優(yōu)化問題:§3.6模糊聚類分析2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心108§3.6模糊聚類分析

以求得使目標函數(shù)達到最小的U和V。當m=2時,上式為鄧恩提出的模糊聚類方法,而貝茲德克將m的取值范圍予以擴展并進行理論推導和證明,使其更一般化為m≥1。

鄧恩和貝茲德克均使用交替優(yōu)化(alternatingoptimization,AO)方法求解上述優(yōu)化問題,AO方法是一種迭代的算法。貝茲德克在1981年給出了具體的FCM算法(參見參考文獻[14]),具體如下所示:2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心109§3.6模糊聚類分析

2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心110§3.6模糊聚類分析2)由Ut計算Vt=(v1,t,v2,t,…,vc,t):

2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心111§3.7計算步驟與上機實踐目錄上頁下頁返回結(jié)束本書以SPSS和R兩種軟件來說明前面講述的幾種聚類法的實現(xiàn)過程。具體步驟如下:

(1)分析所需要研究的問題,確定聚類分析所需要的多元變量;

(2)選擇對樣品聚類還是對指標聚類;

(3)選擇合適的聚類方法;

(4)選擇所需的輸出結(jié)果。我們將實現(xiàn)過程用邏輯框圖表示為圖3-11。2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心112目錄上頁下頁返回結(jié)束圖3-11聚類分析流程圖2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心113§3.7計算步驟與上機實踐目錄上頁下頁返回結(jié)束3.7.1系統(tǒng)聚類法

為了研究亞洲部分國家和地區(qū)的經(jīng)濟水平及相應的人口狀況,并對亞洲部分國家和地區(qū)進行聚類分析,現(xiàn)選取人均國內(nèi)生產(chǎn)總值、粗死亡率、粗出生率、城鎮(zhèn)人口比重、平均預期壽命和65歲及以上人口比重作為衡量亞洲部分國家和地區(qū)經(jīng)濟水平及人口狀況的指標,原始數(shù)據(jù)如表3-7所示(數(shù)據(jù)來源于世界銀行)。2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心114表3-7

2015年15個亞洲國家和地區(qū)經(jīng)濟水平及人口狀況國家和地區(qū)人均國內(nèi)生產(chǎn)總值(國際元/人)粗死亡率(‰)粗出生率(‰)城鎮(zhèn)人口比重(%)平均預期壽命(歲)65歲及以上人口比重(%)阿富汗1925.178.0333.3126.760.722.47中國14246.867.1112.0755.6175.259.68中國香港56923.496.308.20100.0084.2815.06印度6104.587.3119.6632.7568.355.62印度尼西亞11057.567.1719.5853.7469.075.17以色列36575.945.3021.3092.1482.0511.24日本40763.4010.207.9093.5083.8426.34老撾5691.266.6326.2738.6166.543.81中國澳門111496.604.8211.68100.0080.778.99馬來西亞26950.344.9816.7974.7174.885.89菲律賓7387.326.7723.3244.3768.414.58沙特阿拉伯53538.793.4219.6983.1374.492.86新加坡85382.304.809.70100.0082.6011.68韓國34647.075.408.6082.4782.1613.13泰國16340.038.0310.5350.3774.6010.472025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心115在SPSS數(shù)據(jù)窗口中錄入上表中的數(shù)據(jù),然后選擇Analyze→Classify命令。Classify命令下有兩個常用的聚類分析命令:一是K-MeansCluster(K-均值聚類);二是HierarchicalCluster(系統(tǒng)聚類法)。此處我們選擇系統(tǒng)聚類法,并打開相應的對話框,然后將6個指標變量選入Variable(s)框中,將表示國家和地區(qū)的變量選入LabelCasesby框中。在下面的Cluster中有兩個選項,分別是Cases(表示對樣品聚類或Q型聚類)和Variables(表示對變量聚類或R型聚類)。這里,我們點選Cases,選擇對樣品進行聚類。Display部分也有兩個選項,分別是Statistics(統(tǒng)計量)和Plots(圖),即可以選擇輸出統(tǒng)計量或圖形,或二者均輸出,此處選擇二者均輸出。2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心116在對話框的最右側(cè)有Statistics,Plots,Method,Save四個按鈕:(1)Statistics中有Agglomerationschedule(每一階段聚類的結(jié)果)、Proximitymatrix(樣品間相似性矩陣),還有ClusterMembership。ClusterMembership框架下可以指定聚類的個數(shù),None選項為不指定聚類個數(shù),Singlesolution為指定一個確定的聚類個數(shù)(如3),Rangeofsolutions為指定聚類個數(shù)的范圍(如2~4)。此處,我們選擇Agglo-merationschedule和Proximitymatrix,不指定類的個數(shù),點擊Continue繼續(xù)。2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心117(2)Plots中有Dendrogram(譜系聚類圖或樹狀聚類圖)、Icicle(冰柱圖)、Orientation(冰柱圖的方向,Horizontal為水平方向,Vertical為垂直方向)。此處我們選擇Dendrogram,點擊Continue繼續(xù)。(3)Method中,ClusterMethod可以選擇聚類的方法(如最短距離法或離差平方和方法等),Measure可以選擇距離的計算方法(如歐氏距離或明考斯基距離等),TransformValues可以選擇是否對數(shù)據(jù)進行處理及相應的處理方法。此處我們選擇Within-groupslinkage(組內(nèi)聯(lián)結(jié)法)和平方歐氏距離,并選擇Zscores(對數(shù)據(jù)進行標準化處理),點擊Continue繼續(xù)。2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心118(4)Save中可以選擇保存樣本的聚類結(jié)果,此處我們選擇保存樣本被聚為3類的結(jié)果。點擊Save,在彈出對話框中點選Singlesolution,然后在其下方Numberofclusters右側(cè)的框中填入3,點擊Continue繼續(xù),點擊OK運行。運行結(jié)束后,數(shù)據(jù)窗口(DataView)中將會多出一個變量名為CLU3_1的新變量,此變量的取值即為將所有樣品聚為3類時應得的分類結(jié)果。

選定聚類的方法和需要輸出的圖表后,點擊OK運行,則可得到一系列輸出結(jié)果,見輸出結(jié)果3-1、圖3-13和圖3-14。2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心119

輸出結(jié)果3-1ProximityMatrixCaseSquaredEuclideanDistance1:阿富汗2:中國3:中國香港4:印度5:印度尼西亞6:以色列7:日本8:老撾9:中國澳門10:馬來西亞11:菲律賓12:沙特阿拉伯13:新加坡14:韓國15:泰國1:阿富汗.00014.74837.0964.8246.13822.86345.6162.43739.79115.9173.97521.33638.95830.01915.2642:中國14.748.0007.3693.1412.2395.93915.0596.37714.5473.0334.0159.60510.8693.869.4053:中國香港37.0967.369.00018.68314.5044.2998.99222.8335.1117.54018.43811.3051.9781.3958.5694:印度4.8243.14118.683.000.67411.71727.5221.11623.8315.772.55712.02821.30112.7483.5175:印度尼西亞6.1382.23914.504.674.0008.11424.5511.40018.9343.328.4548.61416.6669.7603.0306:以色列22.8635.9394.29911.7178.114.00017.59411.9897.4712.6219.5394.5904.8683.0328.5547:日本45.61615.0598.99227.52224.55117.594.00034.73823.46424.09429.66434.94017.96412.92313.2238:老撾2.4376.37722.8331.1161.40011.98934.738.00025.7106.218.28810.63323.98316.3287.6659:中國澳門39.79114.5475.11123.83118.9347.47123.46425.710.0009.31722.1237.237.9937.03016.82810:馬來西亞15.9173.0337.5405.7723.3282.62124.0946.2189.317.0004.3712.0397.1503.7335.4422025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心120

輸出結(jié)果3-1ProximityMatrixCaseSquaredEuclideanDistance1:阿富汗2:中國3:中國香港4:印度5:印度尼西亞6:以色列7:日本8:老撾9:中國澳門10:馬來西亞11:菲律賓12:沙特阿拉伯13:新加坡14:韓國15:泰國11:菲律賓3.9754.01518.438.557.4549.53929.664.28822.1234.371.0009.15820.04712.6495.14712:沙特阿拉伯21.3369.60511.30512.0288.6144.59034.94010.6337.2372.0399.158.0007.0717.72613.30613:新加坡38.95810.8691.97821.30116.6664.86817.96423.983.9937.15020.0477.071.0003.18213.09714:韓國30.0193.8691.39512.7489.7603.03212.92316.3287.0303.73312.6497.7263.182.0005.52915:泰國15.264.4058.5693.5173.0308.55413.2237.66516.8285.4425.14713.30613.0975.529.000Thisisadissimilaritymatrix2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心121StageClusterCombinedCoefficientsStageClusterFirstAppearsNextStageCluster1Cluster2Cluster1Cluster21811.2880032215.4050011348.654014445.7483085913.993001063141.395009710122.03900128142909601010393.936951211124.1628214123105.2231071313378.91612014141312.00011130AgglomerationSchedule2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心122

輸出結(jié)果3-1中第1張表表示接近度矩陣,即樣品間的距離矩陣,是反映樣品之間相似性或者相異性的矩陣。本例中由于計算距離使用的是平方歐氏距離,因此樣品間距離越大,樣品差異越大。如果我們計算距離的方法選擇的是Pearson相關(guān)系數(shù),則接近度矩陣是相似性矩陣。由表中數(shù)據(jù)可看出,老撾和菲律賓之間的距離最小,因此它們會最先聚為一類。輸出結(jié)果3-1中第2張表是對每一階段聚類結(jié)果的展示,其中Coefficients表示聚合系數(shù),表中第2列和第3列表示聚合的類。比如第一階段(Stage=1)時,第8個樣品和第11個樣品聚為2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心123為一類,注意此時有14類(15-1=14)。因此,某階段的分類數(shù)等于總的樣品數(shù)減去這個階段的序號。另外,使用Excel作出表3-9中的聚合系數(shù)隨分類數(shù)變化的曲線,如圖3-12所示。由圖3-12可知,當分類數(shù)大于3時,曲線的變化趨勢較為平緩,同時此分類數(shù)也較符合分類的目的。2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心124圖3-12聚合系數(shù)隨分類數(shù)變化的曲線2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心125圖3-13冰柱圖2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心126圖3-14樹狀聚類圖2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心127

圖3-13為冰柱圖,是反映樣品聚類情況的圖形,冰柱圖形象地展示了聚類的動態(tài)過程。對于縱向的冰柱圖,可以自下而上看出聚類的過程。從最下面看,代表老撾和菲律賓的兩條冰柱之間的冰柱最長,它對應的類數(shù)是14,表示老撾和菲律賓先被聚為一類。其次是泰國與中國之間的冰柱長度,對應的類數(shù)是13,則第二步泰國與中國被聚為一類。同理,第三步印度與老撾被聚為一類,即印度、老撾和菲律賓被聚為一類,此時共有12類。依此類推,直至冰柱長度對應的類數(shù)為1時,將中國香港所在的類與泰國所在的類聚在一起成為一個類。另外,對于給定的類數(shù),若要從冰柱2025/12/15中國人民大學六西格瑪質(zhì)量管理研究中心128圖中得到每類所包含的樣本,只需找到長度小于對應該給定類數(shù)的冰柱。然后,以這些冰柱為分隔點,從左起至第一個分隔點之間的樣品為一類,第一個與第二個分隔點之間的樣品為第二類,依此類推,直至最后一個分隔點至最右邊為最后一類。例如,對于圖3-13,若設(shè)定類數(shù)為3,則需要找到冰柱長度對應類數(shù)小于3的冰柱,它們是日本與沙特之間的冰柱和中國香港與泰國之間的冰柱,因此樣品被分為3類的結(jié)果是:日本為第一類;沙特阿拉伯、馬來西亞、新加坡、中國澳門、以色列、韓國和中國香港為第

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論