第十九章 聚類分析_第1頁
第十九章 聚類分析_第2頁
第十九章 聚類分析_第3頁
第十九章 聚類分析_第4頁
第十九章 聚類分析_第5頁
已閱讀5頁,還剩41頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

371第十九章聚類分析

(clusteringanalysis)

372判別分析:在已知分為若干個(gè)類的前提下,獲得判別模型,并用來判定觀察對(duì)象的歸屬。

聚類分析:將隨機(jī)現(xiàn)象歸類的統(tǒng)計(jì)學(xué)方法,在不知道應(yīng)分多少類合適的情況下,試圖借助數(shù)理統(tǒng)計(jì)的方法用已收集到的資料找出研究對(duì)象的適當(dāng)歸類方法。已成為發(fā)掘海量基因信息的首選工具。

二者都是研究分類問題的多元統(tǒng)計(jì)分析方法。373聚類分析屬于探索性統(tǒng)計(jì)分析方法,按照分類目的可分為兩大類。

例如測量了n個(gè)病例(樣品)的m個(gè)變量(指標(biāo)),可進(jìn)行:

(1)R型聚類:又稱指標(biāo)聚類,是指將m個(gè)指標(biāo)歸類的方法,其目的是將指標(biāo)降維從而選擇有代表性的指標(biāo)。

(2)Q型聚類:又稱樣品聚類,是指將n個(gè)樣品歸類的方法,其目的是找出樣品間的共性。374指標(biāo)聚類目的:把多個(gè)指標(biāo)按相似程度聚成幾類,每類找一個(gè)典型指標(biāo)來代表原來的多個(gè)指標(biāo)。資料要求:指標(biāo)是定量的,理論上也可以全部是定性的或等級(jí)的(要少用)效果不好。用途:1.分類找典型指標(biāo)2.可與回歸分析合用找典型自變量;可與判別分析合用找典型指標(biāo)。375樣品聚類目的:把多個(gè)樣品按照相近樣品聚成幾類,作分類比較研究。需要時(shí)也可每類找一個(gè)典型樣品來代表各類樣品。資料要求:描述樣品的指標(biāo)全部定量。用途:分類376無論是R型聚類或是Q型聚類的關(guān)鍵是如何定義相似性,即如何把相似性數(shù)量化。聚類的第一步需要給出兩個(gè)指標(biāo)或兩個(gè)樣品間相似性的度量——相似系數(shù)(similaritycoefficient)的定義。377聚類統(tǒng)計(jì)量指標(biāo)聚類(R型聚類)的聚類統(tǒng)計(jì)量:指標(biāo)間的相似系數(shù)。0≤C≤1;C越大越相似。大則同類,小則異類。(1)定量指標(biāo):用簡單相關(guān)系數(shù)定義為相似系數(shù)。(定量指標(biāo)包含定性指標(biāo)轉(zhuǎn)化成0,1變量和等級(jí)指標(biāo)轉(zhuǎn)化成的1,2,…變量)(2)定性指標(biāo)或等級(jí)指標(biāo)(包括含有定量指標(biāo)轉(zhuǎn)換成的等級(jí)指標(biāo)),可用列聯(lián)系數(shù)定義為和指標(biāo)的相似系數(shù):378R型(指標(biāo))聚類的相似系數(shù)

X1,X2,…,Xm表示m個(gè)變量,R型聚類常用簡單相關(guān)系數(shù)的絕對(duì)值定義變量與間的相似系數(shù):

絕對(duì)值越大表明兩變量間相似程度越高。

同樣也可考慮用Spearman秩相關(guān)系數(shù)定義非正態(tài)變量之間的相似系數(shù)。當(dāng)變量均為定性變量時(shí),最好用列聯(lián)系數(shù)定義類間的相似系數(shù)。

379樣品聚類(Q型聚類)的聚類統(tǒng)計(jì)量(相似系數(shù)):2個(gè)樣品間距離,越短越接近,短則同類,長則異類。樣品聚類的基本原則:把距離短的樣品歸在相同類,距離長的樣品歸在不同類。3710Q型(樣品)聚類常用相似系數(shù)

將n例(樣品)看成是m維空間的n個(gè)點(diǎn),用兩點(diǎn)間的距離定義相似系數(shù),距離越小表明兩樣品間相似程度越高。

(1)歐氏距離:歐氏距離(Euclideandistance)

(2)絕對(duì)距離:絕對(duì)距離(Manhattandistance)

(3)Minkowski距離:

絕對(duì)距離是q=1時(shí)的Minkowski距離;歐氏距離是q=2時(shí)的Minkowski距離。Minkowski距離的優(yōu)點(diǎn)是定義直觀,計(jì)算簡單;缺點(diǎn)是沒有考慮到變量間的相關(guān)關(guān)系?;诖艘M(jìn)馬氏距離。

3711(4)馬氏距離:用S表示m個(gè)變量間的樣本協(xié)方差矩陣,馬氏距離(Mahalanobisdistance)的計(jì)算公式為

其中向量。不難看出,當(dāng)(單位矩陣)時(shí),馬氏距離就是歐氏距離的平方。

以上定義的4種距離適用于定量變量,對(duì)于定性變量和有序變量必須在數(shù)量化后方能應(yīng)用。3712說明:當(dāng)樣品各指標(biāo)的單位不同時(shí),或各指標(biāo)單位雖相同(包括各指標(biāo)都無單位),但數(shù)量級(jí)相差大時(shí),應(yīng)先將各指標(biāo)標(biāo)準(zhǔn)化,在計(jì)算距離。標(biāo)準(zhǔn)化方法:3713

第二節(jié)系統(tǒng)聚類

系統(tǒng)聚類(hierarchicalclusteringanalysis)是將相似的樣品或

變量歸類的最常用方法,聚類過程如下:

1)開始將各個(gè)樣品(或變量)獨(dú)自視為一類,即各類只含一個(gè)樣品(或變量),計(jì)算類間相似系數(shù)矩陣,其中的元素是樣品(或變量)間的相似系數(shù)。相似系數(shù)矩陣是對(duì)稱矩陣;

2)將相似系數(shù)最大(距離最小或相關(guān)系數(shù)最大)的兩類合并成新類,計(jì)算新類與其余類間相似系數(shù);

重復(fù)第二步,直至全部樣品(或變量)被并為一類。3714一、類間相似系數(shù)的計(jì)算

系統(tǒng)聚類的每一步都要計(jì)算類間相似系數(shù)(即:新形成的類別與其他類之間的類間相似系數(shù)的確定),當(dāng)兩類各自僅含一個(gè)樣品或變量時(shí),兩類間的相似系數(shù)即是兩樣品或變量間的相似系數(shù)或,按第一節(jié)的定義計(jì)算。3715當(dāng)類內(nèi)含有兩個(gè)或兩個(gè)以上樣品或變量時(shí),計(jì)算類間相似系數(shù)有多種方法可供選擇,下面列出5種計(jì)算方法。用Gp,Gq分別表示兩類,各自含有np,nq個(gè)樣品或變量。3716

1.最大相似系數(shù)法

Gp類中的np個(gè)樣品或變量與Gq類中的nq個(gè)樣品或變量兩兩間共有npnq個(gè)相似系數(shù),以其中最大者定義為Gp與Gq的類間相似系數(shù)。

注意距離最小即相似系數(shù)最大。

2.最小相似系數(shù)法類間相似系數(shù)計(jì)算公式為

3.重心法(僅用于樣品聚類)用,分別表示的均值向量(重心),其分量是各個(gè)指標(biāo)類內(nèi)均數(shù),類間相似系數(shù)計(jì)算公式為

3717

4.類平均法(僅用于樣品聚類)對(duì)Gp類中的np個(gè)樣品與Gq類中的nq個(gè)樣品兩兩間的npnq個(gè)平方距離求平均,得到兩類間的相似系數(shù)

類平均法是系統(tǒng)聚類方法中較好的方法之一,它充分反映了類內(nèi)樣品的個(gè)體信息。

37185.離差平方和法又稱Ward法,僅用于樣品聚類。此法效仿方差分析的基本思想,即合理的分類使得類內(nèi)離差平方和較小,而類間離差平方和較大。3719例19-1測量了3454名成年女子身高(X1)、下肢長(X2)、腰圍(X3)和胸圍(X4),計(jì)算得相關(guān)矩陣:

試用系統(tǒng)聚類法將這4個(gè)指標(biāo)聚類。

本例是R型(指標(biāo))聚類,相似系數(shù)選用簡單相關(guān)系數(shù),類間相似系數(shù)采用最大相似系數(shù)法計(jì)算。3720聚類過程如下:

(1)各個(gè)指標(biāo)獨(dú)自成一類G1={X1},G2={X2},G3={X3},G4={X4},共4類。

(2)將相似系數(shù)最大的兩類合并成新類,由于G1和G2類間相似系數(shù)最大,等于0.852,將兩類合并成G5={X1,X2},形成3類。計(jì)算G5與G3、G4間的類間相似系數(shù)

G3,G4,G5的類間相似矩陣

3721

(3)由于G3和G4類間相似系數(shù)最大,等于0.732,將兩類合并成G6={G3,G4},形成兩類。計(jì)算G6與G5間的類間相似系數(shù)。

(4)最終將G5,G6合并成G7={G5,G6},所有指標(biāo)形成一大類。

3722根據(jù)聚類過程,繪制出系統(tǒng)聚類圖(見圖19-1)。圖中顯示分成兩類較好:{X1,X2},{X3,X4},即長度指標(biāo)歸為一類,圍度指標(biāo)歸為另一類。

身高下肢長腰圍胸圍

G1G2G3G4圖19-14個(gè)指標(biāo)聚類的系統(tǒng)聚類圖0.8520.7320.2343723如何判斷聚為幾類對(duì)于指標(biāo)聚類而言:M個(gè)指標(biāo)究竟聚幾類為好,即聚成幾類后停止并類,可分析聚類過程表和聚類過程圖,還可以結(jié)合專業(yè)知識(shí)和實(shí)際需要確定。例:指定1個(gè)相似系數(shù)值(比如0.6),規(guī)定類那個(gè)指標(biāo)間的相似系數(shù)值入小于該值,則停止并類。特別是當(dāng)某步驟類使相似系數(shù)值的變化發(fā)生大的跳躍時(shí),更是停止并類的訊號(hào)。3724如何找典型指標(biāo)對(duì)指標(biāo)聚類而言:為選擇每類的典型指標(biāo),計(jì)算每類的每個(gè)指標(biāo)與同類其他指標(biāo)的相關(guān)指數(shù)(相關(guān)系數(shù)的平方)的均數(shù),即式中為指標(biāo)所在類的指標(biāo)個(gè)數(shù),在各類挑選值最大的作為該類的典型指標(biāo)3725

X1X2X20.89X30.670.84第一類3726例19-2今測得6名運(yùn)動(dòng)員4個(gè)運(yùn)動(dòng)項(xiàng)目(樣品)的能耗、糖耗的均數(shù)見表19-1,欲對(duì)運(yùn)動(dòng)項(xiàng)目歸類,以便提供相應(yīng)的膳食標(biāo)準(zhǔn),提高運(yùn)動(dòng)成績。試用樣品系統(tǒng)聚類法將運(yùn)動(dòng)項(xiàng)目歸類。

表19-14個(gè)運(yùn)動(dòng)項(xiàng)目的測定值運(yùn)動(dòng)項(xiàng)目名稱能耗

X1(焦耳/分、m2)糖耗X2(%)負(fù)重下蹲G127.89261.421.3150.688引體向上G223.47556.830.1740.088俯臥撐G318.92445.13-1.001-1.441仰臥起坐G420.91361.25-0.4880.665變量的標(biāo)準(zhǔn)化X1‘

X2’3727本例選用歐氏距離,類間距離選用最小相似系數(shù)法。為了克服變量量綱的影響,分析前先將變量標(biāo)準(zhǔn)化,分別是Xi的樣本均數(shù)與標(biāo)準(zhǔn)差。變換后的數(shù)據(jù)列在表19-1的,列。3728聚類過程如下:

(1)計(jì)算4個(gè)樣品間的相似系數(shù)矩陣,樣品聚類中又稱為距離矩陣。負(fù)重下蹲與引體向上之間的距離按公式(19-3)計(jì)算得

同樣負(fù)重下蹲與俯臥撐之間的距離

同理,計(jì)算出距離矩陣

3729(2)G2,G4間距離最小,將G2,G4并成一新類G5={G2,G4}。應(yīng)用最小相似系數(shù)法,按公式(19-8)計(jì)算G5與其他各類之間的距離

G1,G3,G5的距離矩陣

(3)G1,G5間距離最小,將G1,G5并成一新類G6={G1,G5}。計(jì)算G6與G3之間的距離

(4)最終將G1,G6合并成G7={G1,G6},所有指標(biāo)形成一大類。d15=Max(d12,d14)=Max(1.289,1.803)=1.803d35=Max(d23,d34)=Max(1.928,2.168)=2.1683730根據(jù)聚類過程,繪制出系統(tǒng)聚類圖(見圖19-2)。結(jié)合系統(tǒng)聚類圖和專業(yè)知識(shí)認(rèn)為分成兩類較好:{G1,G2,G4},{G3}。負(fù)重下蹲、引體向上、仰臥起坐三個(gè)運(yùn)動(dòng)項(xiàng)目體能消耗較大,訓(xùn)練時(shí)應(yīng)提高膳食標(biāo)準(zhǔn)。

圖19-24個(gè)運(yùn)動(dòng)項(xiàng)目樣品聚類的系統(tǒng)聚類圖G2

G4

G1G3

G5G6G73731例19-3調(diào)查了27名瀝青工和焦?fàn)t工的年齡、工齡、吸煙情況,檢測了血清P21、P53、外周血淋巴細(xì)胞SCE、染色體畸變數(shù)和染色體畸變細(xì)胞數(shù)。數(shù)據(jù)列于表19-3,其中P21倍數(shù)=P21檢測值/對(duì)照組P21均數(shù)。試用系統(tǒng)聚類法將27名工人歸類。

3732表19-3瀝青工和焦?fàn)t工的生物標(biāo)志物檢測及聚類分析結(jié)果工人編號(hào)(樣品號(hào))年齡工齡吸煙支/d血清P21P21倍數(shù)P53SCE染色體畸變數(shù)染色體畸變細(xì)胞數(shù)聚類結(jié)680.358.11441235122035102.761.436.84331352252027842.190.544.1133143272024511.930.4711.4596153822032472.560.8011.68551651313037102.920.3711.6022174091031942.510.4011.40551834172046583.670.4611.3533195029050193.950.4713.4510811042202074825.890.1213.110021157301538002.990.1910.762211236152024781.950.2510.00001133712038273.010.8210.50441145232029842.350.1611.153311552321037492.950.7211.45111011642273049413.89

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論