版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
統(tǒng)計學─從數(shù)據(jù)到結論統(tǒng)計學─從數(shù)據(jù)到結論1第十一章聚類分析
第十一章聚類分析2分類物以類聚、人以群分;但根據(jù)什么分類呢?如要想把中國的縣分類,就有多種方法可以按照自然條件來分,比如考慮降水、土地、日照、濕度等,也可考慮收入、教育水準、醫(yī)療條件、基礎設施等指標;既可以用某一項來分類,也可以同時考慮多項指標來分類。分類物以類聚、人以群分;3聚類分析對一個數(shù)據(jù),既可以對變量(指標)進行分類(相當于對數(shù)據(jù)中的列分類),也可以對觀測值(事件,樣品)來分類(相當于對數(shù)據(jù)中的行分類)。當然,不一定事先假定有多少類,完全可以按照數(shù)據(jù)本身的規(guī)律來分類。本章要介紹的分類的方法稱為聚類分析(clusteranalysis)。對變量的聚類稱為R型聚類,而對觀測值聚類稱為Q型聚類。它們在數(shù)學上是無區(qū)別的。聚類分析對一個數(shù)據(jù),既可以對變量(指標)進行分類(相當于對數(shù)4飲料數(shù)據(jù)(drink.txt)16種飲料的熱量、咖啡因、鈉及價格四種變量飲料數(shù)據(jù)(drink.txt)16種飲料的熱量、咖啡因、鈉511.1如何度量距離遠近?如果想要對100個學生進行分類,而僅知道他們的數(shù)學成績,則只好按照數(shù)學成績分類;這些成績在直線上形成100個點。這樣就可以把接近的點放到一類。如果還知道他們的物理成績,這樣數(shù)學和物理成績就形成二維平面上的100個點,也可以按照距離遠近來分類。11.1如何度量距離遠近?如果想要對100個學生進行分類,而611.1如何度量距離遠近?三維或者更高維的情況也是類似;只不過三維以上的圖形無法直觀地畫出來而已。在飲料數(shù)據(jù)中,每種飲料都有四個變量值。這就是四維空間點的問題了。11.1如何度量距離遠近?三維或者更高維的情況也是類似;只不7兩個距離概念按照遠近程度來聚類需要明確兩個概念:一個是點和點之間的距離,一個是類和類之間的距離。點間距離有很多定義方式。最簡單的是歐氏距離。當然還有一些和距離相反但起同樣作用的概念,比如相似性等,兩點越相似度越大,就相當于距離越短。兩個距離概念按照遠近程度來聚類需要明確兩個概念:一個是點和點8兩個距離概念由一個點組成的類是最基本的類;如果每一類都由一個點組成,那么點間的距離就是類間距離。但是如果某一類包含不止一個點,那么就要確定類間距離,類間距離是基于點間距離定義的:比如兩類之間最近點之間的距離可以作為這兩類之間的距離,也可以用兩類中最遠點之間的距離或各類的中心之間的距離來作為類間距離。兩個距離概念由一個點組成的類是最基本的類;如果每一類都由一個9兩個距離概念在計算時,各種點間距離和類間距離的選擇是通過統(tǒng)計軟件的選項實現(xiàn)的。不同的選擇的結果會不同,但一般不會差太多。兩個距離概念在計算時,各種點間距離和類間距離的選擇是通過統(tǒng)計10向量x=(x1,…,xp)與y=(y1,…,yp)之間的距離或相似系數(shù):歐氏距離:Euclidean平方歐氏距離:SquaredEuclidean夾角余弦(相似系數(shù)1):cosinePearsoncorrelation(相似系數(shù)2):Chebychev:Maxi|xi-yi|Block(絕對距離):Si|xi-yi|Minkowski:當變量的測量值相差懸殊時,要先進行標準化.如R為極差,s為標準差,則標準化的數(shù)據(jù)為每個觀測值減去均值后再除以R或s.當觀測值大于0時,有人采用Lance和Williams的距離向量x=(x1,…,xp)與y=(y1,…,yp)之間的11類Gp與類Gq之間的距離Dpq
(d(xi,xj)表示點xi∈Gp和xj∈Gq之間的距離)最短距離法:最長距離法:重心法:離差平方和:(Wald)類平均法:(中間距離,可變平均法,可變法等可參考各書).在用歐氏距離時,有統(tǒng)一的遞推公式類Gp與類Gq之間的距離Dpq
(d(xi,xj)表示點xi12有了上面的點間距離和類間距離的概念,就可以介紹聚類的方法了。這里介紹兩個簡單的方法。有了上面的點間距離和類間距離的概念,就可以介紹聚類的方法了。1311.2事先要確定分多少類:k-均值聚類前面說過,聚類可以走著瞧,不一定事先確定有多少類;但是這里的k-均值聚類(k-meanscluster,也叫快速聚類,quickcluster)卻要求你先說好要分多少類??雌饋碛行┲饔^,是吧!假定你說分3類,這個方法還進一步要求你事先確定3個點為“聚類種子”(SPSS軟件自動為你選種子);也就是說,把這3個點作為三類中每一類的基石。11.2事先要確定分多少類:k-均值聚類前面說過,聚類可1411.2事先要確定分多少類:k-均值聚類然后,根據(jù)和這三個點的距離遠近,把所有點分成三類。再把這三類的中心(均值)作為新的基石或種子(原來“種子”就沒用了),再重新按照距離分類。如此疊代下去,直到達到停止疊代的要求(比如,各類最后變化不大了,或者疊代次數(shù)太多了)。顯然,前面的聚類種子的選擇并不必太認真,它們很可能最后還會分到同一類中呢。下面用飲料例的數(shù)據(jù)來做k-均值聚類。11.2事先要確定分多少類:k-均值聚類然后,根據(jù)和這三15假定要把這16種飲料分成3類。利用SPSS,只疊代了三次就達到目標了(計算機選的種子還可以)。這樣就可以得到最后的三類的中心以及每類有多少點
假定要把這16種飲料分成3類。利用SPSS,只疊代了三次就達16根據(jù)需要,可以輸出哪些點分在一起。結果是:第一類為飲料1、10;第二類為飲料2、4、8、11、12、13、14;第三類為剩下的飲料3、5、6、7、9、15、16。根據(jù)需要,可以輸出哪些點分在一起。結果是:第一類為飲料1、117SPSS實現(xiàn)(聚類分析)K-均值聚類以數(shù)據(jù)drink.sav為例,在SPSS中選擇Analyze-Classify-K-MenasCluster,然后把calorie(熱量)、caffeine(咖啡因)、sodium(鈉)、price(價格)選入Variables,在NumberofClusters處選擇3(想要分的類數(shù)),如果想要知道哪種飲料分到哪類,則選Save,再選ClusterMembership等。注意k-均值聚類只能做Q型聚類,如要做R型聚類,需要把數(shù)據(jù)陣進行轉置。SPSS實現(xiàn)(聚類分析)K-均值聚類1811.2事先不用確定分多少類:分層聚類另一種聚類稱為分層聚類或系統(tǒng)聚類(hierarchicalcluster)。開始時,有多少點就是多少類。它第一步先把最近的兩類(點)合并成一類,然后再把剩下的最近的兩類合并成一類;這樣下去,每次都少一類,直到最后只有一大類為止。越是后來合并的類,距離就越遠。11.2事先不用確定分多少類:分層聚類另一種聚類稱為分層19對于飲料聚類。SPSS輸出為對于飲料聚類。SPSS輸出為20MBA統(tǒng)計學11聚類分析課件21“冰柱圖”(icicle)“冰柱圖”(icicle)22例:5個樣品距離陣
令Dk為系統(tǒng)聚類法種第k次合并時的距離,如{Dk}為單調的,則稱具有單調性.前面只有重心和中間距離法不具有單調性.步驟: 最短距離法
最長距離法階段 bk(第k階段類的集合) Dk DkD(0) (1)(2)(3)(4)(5) 0 0D(1)
(1,3)(2)(4)(5) 1 1D(2) (1,3)(2,4)(5) 3 3D(3) (1,3)(2,4,5) 4 5D(4)
(1,3,2,4,5) 6 9注:最短和最長距離法結果一樣(一般不一定一樣)例:5個樣品距離陣
令Dk為系統(tǒng)聚類法種第k次合并時的距離,23聚類要注意的問題聚類結果主要受所選擇的變量影響。如果去掉一些變量,或者增加一些變量,結果會很不同。相比之下,聚類方法的選擇則不那么重要了。因此,聚類之前一定要目標明確。
聚類要注意的問題聚類結果主要受所選擇的變量影響。如果去掉一24聚類要注意的問題另外就分成多少類來說,也要有道理。只要你高興,從分層聚類的計算機結果可以得到任何可能數(shù)量的類。但是,聚類的目的是要使各類之間的距離盡可能地遠,而類中點的距離盡可能的近,并且分類結果還要有令人信服的解釋。這一點就不是數(shù)學可以解決的了。聚類要注意的問題另外就分成多少類來說,也要有道理。只要你高25SPSS實現(xiàn)(聚類分析)分層聚類對drink.sav數(shù)據(jù)在SPSS中選擇Analyze-Classify-HierarchicalCluster,然后把calorie(熱量)、caffeine(咖啡因)、sodium(鈉)、price(價格)選入Variables,在Cluster選Cases(這是Q型聚類:對觀測值聚類),如果要對變量聚類(R型聚類)則選Variables,為了畫出樹狀圖,選Plots,再點Dendrogram等。SPSS實現(xiàn)(聚類分析)分層聚類26附錄附錄27Lance和Williams給出(對歐氏距離)統(tǒng)一遞推公式:D2(k,r)=apD2(k,p)+aqD2(k,q)+bD2(p,q) +g|D2(k,p)-D2(k,q)|前面方法的遞推公式可選擇參數(shù)而得:方法 ai(i=p,q) b
g最短距離 ? 0 -1/2最長距離 ? 0 1/2重心 ni/nr -apaq 0類平均 ni/nr 0
0
離差平方和(ni+nk)/(nr+nk)
-nk/(nr+nk)
0
中間距離 1/2
-1/4
0
可變法 (1-b)/2
b(<1)
0
可變平均 (1-b)ni/nr
b(<1)
0
返回Lance和Williams給出(對歐氏距離)統(tǒng)一遞推公式:28演講完畢,謝謝觀看!演講完畢,謝謝觀看!29統(tǒng)計學─從數(shù)據(jù)到結論統(tǒng)計學─從數(shù)據(jù)到結論30第十一章聚類分析
第十一章聚類分析31分類物以類聚、人以群分;但根據(jù)什么分類呢?如要想把中國的縣分類,就有多種方法可以按照自然條件來分,比如考慮降水、土地、日照、濕度等,也可考慮收入、教育水準、醫(yī)療條件、基礎設施等指標;既可以用某一項來分類,也可以同時考慮多項指標來分類。分類物以類聚、人以群分;32聚類分析對一個數(shù)據(jù),既可以對變量(指標)進行分類(相當于對數(shù)據(jù)中的列分類),也可以對觀測值(事件,樣品)來分類(相當于對數(shù)據(jù)中的行分類)。當然,不一定事先假定有多少類,完全可以按照數(shù)據(jù)本身的規(guī)律來分類。本章要介紹的分類的方法稱為聚類分析(clusteranalysis)。對變量的聚類稱為R型聚類,而對觀測值聚類稱為Q型聚類。它們在數(shù)學上是無區(qū)別的。聚類分析對一個數(shù)據(jù),既可以對變量(指標)進行分類(相當于對數(shù)33飲料數(shù)據(jù)(drink.txt)16種飲料的熱量、咖啡因、鈉及價格四種變量飲料數(shù)據(jù)(drink.txt)16種飲料的熱量、咖啡因、鈉3411.1如何度量距離遠近?如果想要對100個學生進行分類,而僅知道他們的數(shù)學成績,則只好按照數(shù)學成績分類;這些成績在直線上形成100個點。這樣就可以把接近的點放到一類。如果還知道他們的物理成績,這樣數(shù)學和物理成績就形成二維平面上的100個點,也可以按照距離遠近來分類。11.1如何度量距離遠近?如果想要對100個學生進行分類,而3511.1如何度量距離遠近?三維或者更高維的情況也是類似;只不過三維以上的圖形無法直觀地畫出來而已。在飲料數(shù)據(jù)中,每種飲料都有四個變量值。這就是四維空間點的問題了。11.1如何度量距離遠近?三維或者更高維的情況也是類似;只不36兩個距離概念按照遠近程度來聚類需要明確兩個概念:一個是點和點之間的距離,一個是類和類之間的距離。點間距離有很多定義方式。最簡單的是歐氏距離。當然還有一些和距離相反但起同樣作用的概念,比如相似性等,兩點越相似度越大,就相當于距離越短。兩個距離概念按照遠近程度來聚類需要明確兩個概念:一個是點和點37兩個距離概念由一個點組成的類是最基本的類;如果每一類都由一個點組成,那么點間的距離就是類間距離。但是如果某一類包含不止一個點,那么就要確定類間距離,類間距離是基于點間距離定義的:比如兩類之間最近點之間的距離可以作為這兩類之間的距離,也可以用兩類中最遠點之間的距離或各類的中心之間的距離來作為類間距離。兩個距離概念由一個點組成的類是最基本的類;如果每一類都由一個38兩個距離概念在計算時,各種點間距離和類間距離的選擇是通過統(tǒng)計軟件的選項實現(xiàn)的。不同的選擇的結果會不同,但一般不會差太多。兩個距離概念在計算時,各種點間距離和類間距離的選擇是通過統(tǒng)計39向量x=(x1,…,xp)與y=(y1,…,yp)之間的距離或相似系數(shù):歐氏距離:Euclidean平方歐氏距離:SquaredEuclidean夾角余弦(相似系數(shù)1):cosinePearsoncorrelation(相似系數(shù)2):Chebychev:Maxi|xi-yi|Block(絕對距離):Si|xi-yi|Minkowski:當變量的測量值相差懸殊時,要先進行標準化.如R為極差,s為標準差,則標準化的數(shù)據(jù)為每個觀測值減去均值后再除以R或s.當觀測值大于0時,有人采用Lance和Williams的距離向量x=(x1,…,xp)與y=(y1,…,yp)之間的40類Gp與類Gq之間的距離Dpq
(d(xi,xj)表示點xi∈Gp和xj∈Gq之間的距離)最短距離法:最長距離法:重心法:離差平方和:(Wald)類平均法:(中間距離,可變平均法,可變法等可參考各書).在用歐氏距離時,有統(tǒng)一的遞推公式類Gp與類Gq之間的距離Dpq
(d(xi,xj)表示點xi41有了上面的點間距離和類間距離的概念,就可以介紹聚類的方法了。這里介紹兩個簡單的方法。有了上面的點間距離和類間距離的概念,就可以介紹聚類的方法了。4211.2事先要確定分多少類:k-均值聚類前面說過,聚類可以走著瞧,不一定事先確定有多少類;但是這里的k-均值聚類(k-meanscluster,也叫快速聚類,quickcluster)卻要求你先說好要分多少類??雌饋碛行┲饔^,是吧!假定你說分3類,這個方法還進一步要求你事先確定3個點為“聚類種子”(SPSS軟件自動為你選種子);也就是說,把這3個點作為三類中每一類的基石。11.2事先要確定分多少類:k-均值聚類前面說過,聚類可4311.2事先要確定分多少類:k-均值聚類然后,根據(jù)和這三個點的距離遠近,把所有點分成三類。再把這三類的中心(均值)作為新的基石或種子(原來“種子”就沒用了),再重新按照距離分類。如此疊代下去,直到達到停止疊代的要求(比如,各類最后變化不大了,或者疊代次數(shù)太多了)。顯然,前面的聚類種子的選擇并不必太認真,它們很可能最后還會分到同一類中呢。下面用飲料例的數(shù)據(jù)來做k-均值聚類。11.2事先要確定分多少類:k-均值聚類然后,根據(jù)和這三44假定要把這16種飲料分成3類。利用SPSS,只疊代了三次就達到目標了(計算機選的種子還可以)。這樣就可以得到最后的三類的中心以及每類有多少點
假定要把這16種飲料分成3類。利用SPSS,只疊代了三次就達45根據(jù)需要,可以輸出哪些點分在一起。結果是:第一類為飲料1、10;第二類為飲料2、4、8、11、12、13、14;第三類為剩下的飲料3、5、6、7、9、15、16。根據(jù)需要,可以輸出哪些點分在一起。結果是:第一類為飲料1、146SPSS實現(xiàn)(聚類分析)K-均值聚類以數(shù)據(jù)drink.sav為例,在SPSS中選擇Analyze-Classify-K-MenasCluster,然后把calorie(熱量)、caffeine(咖啡因)、sodium(鈉)、price(價格)選入Variables,在NumberofClusters處選擇3(想要分的類數(shù)),如果想要知道哪種飲料分到哪類,則選Save,再選ClusterMembership等。注意k-均值聚類只能做Q型聚類,如要做R型聚類,需要把數(shù)據(jù)陣進行轉置。SPSS實現(xiàn)(聚類分析)K-均值聚類4711.2事先不用確定分多少類:分層聚類另一種聚類稱為分層聚類或系統(tǒng)聚類(hierarchicalcluster)。開始時,有多少點就是多少類。它第一步先把最近的兩類(點)合并成一類,然后再把剩下的最近的兩類合并成一類;這樣下去,每次都少一類,直到最后只有一大類為止。越是后來合并的類,距離就越遠。11.2事先不用確定分多少類:分層聚類另一種聚類稱為分層48對于飲料聚類。SPSS輸出為對于飲料聚類。SPSS輸出為49MBA統(tǒng)計學11聚類分析課件50“冰柱圖”(icicle)“冰柱圖”(icicle)51例:5個樣品距離陣
令Dk為系統(tǒng)聚類法種第k次合并時的距離,如{Dk}為單調的,則稱具有單調性.前面只有重心和中間距離法不具有單調性.步驟: 最短距離法
最長距離法階段 bk(第k階段類的集合) Dk DkD(0) (1)(2)(3)(4)(5) 0 0D(1)
(1,3)(2)(4)(5) 1 1D(2) (1,3)(2,4)(5) 3 3D(3) (1,3)(2,4,5) 4 5D(4)
(1,3,2,4,5) 6 9注:最短和最長距離法結果一樣(一般不一定一樣)例:5個樣品距離陣
令Dk為系統(tǒng)聚類法種第k次合并時的距離,52聚類要注意的問題聚類結果主要受所選擇的變量影響。如果去掉一些變量,或者增加一些變量,結果會很不同。相比之下,聚類方法的選擇則不那么重要了。因此,聚類之前一定要目標明確。
聚類要注意的問題聚類結果主要受所選擇的變量影響。如果去掉一53聚類要注意的問題另外就分成多少類來說,也要有道理。只要你高興,從分層聚類的計算機結果可以得到任何可能數(shù)量的類。但是,聚類的目的是要使各
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 高密度脂蛋白膽固醇與藥物轉運系統(tǒng)的協(xié)同效應分析-洞察及研究
- 2026年太平洋保險客服部考核標準及執(zhí)行
- 邊緣計算中的光子學適配器應用-洞察及研究
- 跨國項目管控-洞察及研究
- 教育體系與產業(yè)需求對接研究-洞察及研究
- 肛提肌損傷基因治療-洞察及研究
- 未來五年城市道路路面工程市場需求變化趨勢與商業(yè)創(chuàng)新機遇分析研究報告
- 未來五年廣播影視節(jié)目的播映服務企業(yè)數(shù)字化轉型與智慧升級戰(zhàn)略分析研究報告
- 2025貴州貴陽市烏當區(qū)新天九年制學校秋季招聘第十六批臨聘教師2人備考題庫帶答案詳解
- 2026廣東深圳市龍華區(qū)統(tǒng)計局下屬事業(yè)單位面向市內選調職員1人備考題庫含答案詳解
- 04S519小型排水構筑物1
- 光纖激光打標機說明書
- 勞動者個人職業(yè)健康監(jiān)護檔案
- 《兩角和與差的正弦、余弦、正切公式》示范公開課教學PPT課件【高中數(shù)學人教版】
- 治理現(xiàn)代化下的高校合同管理
- 境外宗教滲透與云南邊疆民族地區(qū)意識形態(tài)安全研究
- GB/T 28920-2012教學實驗用危險固體、液體的使用與保管
- GB/T 26389-2011衡器產品型號編制方法
- GB/T 16588-2009帶傳動工業(yè)用多楔帶與帶輪PH、PJ、PK、PL和PM型:尺寸
- 人大企業(yè)經(jīng)濟學考研真題-802經(jīng)濟學綜合歷年真題重點
- 建筑抗震鑒定標準課件
評論
0/150
提交評論