第十九章聚類分析

上傳人：小*** IP屬地：江蘇上傳時(shí)間：2023-10-15 格式：PPT 頁數(shù)：46 大小：2.47MB 積分：28 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩41頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

371第十九章聚類分析

（clusteringanalysis）

372判別分析:在已知分為若干個(gè)類的前提下，獲得判別模型，并用來判定觀察對(duì)象的歸屬。

聚類分析:將隨機(jī)現(xiàn)象歸類的統(tǒng)計(jì)學(xué)方法，在不知道應(yīng)分多少類合適的情況下，試圖借助數(shù)理統(tǒng)計(jì)的方法用已收集到的資料找出研究對(duì)象的適當(dāng)歸類方法。已成為發(fā)掘海量基因信息的首選工具。

二者都是研究分類問題的多元統(tǒng)計(jì)分析方法。373聚類分析屬于探索性統(tǒng)計(jì)分析方法，按照分類目的可分為兩大類。

例如測量了n個(gè)病例（樣品）的m個(gè)變量（指標(biāo)），可進(jìn)行：

（1）R型聚類:又稱指標(biāo)聚類，是指將m個(gè)指標(biāo)歸類的方法，其目的是將指標(biāo)降維從而選擇有代表性的指標(biāo)。

（2）Q型聚類:又稱樣品聚類，是指將n個(gè)樣品歸類的方法，其目的是找出樣品間的共性。374指標(biāo)聚類目的：把多個(gè)指標(biāo)按相似程度聚成幾類，每類找一個(gè)典型指標(biāo)來代表原來的多個(gè)指標(biāo)。資料要求：指標(biāo)是定量的，理論上也可以全部是定性的或等級(jí)的（要少用）效果不好。用途：1.分類找典型指標(biāo)2.可與回歸分析合用找典型自變量；可與判別分析合用找典型指標(biāo)。375樣品聚類目的：把多個(gè)樣品按照相近樣品聚成幾類，作分類比較研究。需要時(shí)也可每類找一個(gè)典型樣品來代表各類樣品。資料要求：描述樣品的指標(biāo)全部定量。用途：分類376無論是R型聚類或是Q型聚類的關(guān)鍵是如何定義相似性，即如何把相似性數(shù)量化。聚類的第一步需要給出兩個(gè)指標(biāo)或兩個(gè)樣品間相似性的度量——相似系數(shù)（similaritycoefficient）的定義。377聚類統(tǒng)計(jì)量指標(biāo)聚類（R型聚類）的聚類統(tǒng)計(jì)量：指標(biāo)間的相似系數(shù)。0≤C≤1;C越大越相似。大則同類，小則異類。（1）定量指標(biāo)：用簡單相關(guān)系數(shù)定義為相似系數(shù)。（定量指標(biāo)包含定性指標(biāo)轉(zhuǎn)化成0，1變量和等級(jí)指標(biāo)轉(zhuǎn)化成的1，2，…變量）（2）定性指標(biāo)或等級(jí)指標(biāo)（包括含有定量指標(biāo)轉(zhuǎn)換成的等級(jí)指標(biāo)），可用列聯(lián)系數(shù)定義為和指標(biāo)的相似系數(shù)：378R型（指標(biāo)）聚類的相似系數(shù)

X1，X2，…，Xm表示m個(gè)變量，R型聚類常用簡單相關(guān)系數(shù)的絕對(duì)值定義變量與間的相似系數(shù)：

絕對(duì)值越大表明兩變量間相似程度越高。

同樣也可考慮用Spearman秩相關(guān)系數(shù)定義非正態(tài)變量之間的相似系數(shù)。當(dāng)變量均為定性變量時(shí)，最好用列聯(lián)系數(shù)定義類間的相似系數(shù)。

379樣品聚類（Q型聚類）的聚類統(tǒng)計(jì)量（相似系數(shù)）：2個(gè)樣品間距離，越短越接近，短則同類，長則異類。樣品聚類的基本原則：把距離短的樣品歸在相同類，距離長的樣品歸在不同類。3710Q型（樣品）聚類常用相似系數(shù)

將n例（樣品）看成是m維空間的n個(gè)點(diǎn)，用兩點(diǎn)間的距離定義相似系數(shù)，距離越小表明兩樣品間相似程度越高。

（1）歐氏距離:歐氏距離（Euclideandistance）

（2）絕對(duì)距離：絕對(duì)距離（Manhattandistance）

（3）Minkowski距離：

絕對(duì)距離是q=1時(shí)的Minkowski距離；歐氏距離是q=2時(shí)的Minkowski距離。Minkowski距離的優(yōu)點(diǎn)是定義直觀，計(jì)算簡單；缺點(diǎn)是沒有考慮到變量間的相關(guān)關(guān)系?；诖艘M(jìn)馬氏距離。

3711（4）馬氏距離：用S表示m個(gè)變量間的樣本協(xié)方差矩陣，馬氏距離（Mahalanobisdistance）的計(jì)算公式為

其中向量。不難看出，當(dāng)（單位矩陣）時(shí)，馬氏距離就是歐氏距離的平方。

以上定義的4種距離適用于定量變量，對(duì)于定性變量和有序變量必須在數(shù)量化后方能應(yīng)用。3712說明：當(dāng)樣品各指標(biāo)的單位不同時(shí)，或各指標(biāo)單位雖相同（包括各指標(biāo)都無單位），但數(shù)量級(jí)相差大時(shí)，應(yīng)先將各指標(biāo)標(biāo)準(zhǔn)化，在計(jì)算距離。標(biāo)準(zhǔn)化方法：3713

第二節(jié)系統(tǒng)聚類

系統(tǒng)聚類（hierarchicalclusteringanalysis）是將相似的樣品或

變量歸類的最常用方法，聚類過程如下：

1）開始將各個(gè)樣品（或變量）獨(dú)自視為一類，即各類只含一個(gè)樣品（或變量），計(jì)算類間相似系數(shù)矩陣，其中的元素是樣品（或變量）間的相似系數(shù)。相似系數(shù)矩陣是對(duì)稱矩陣；

2）將相似系數(shù)最大（距離最小或相關(guān)系數(shù)最大）的兩類合并成新類，計(jì)算新類與其余類間相似系數(shù)；

重復(fù)第二步，直至全部樣品（或變量）被并為一類。3714一、類間相似系數(shù)的計(jì)算

系統(tǒng)聚類的每一步都要計(jì)算類間相似系數(shù)（即：新形成的類別與其他類之間的類間相似系數(shù)的確定），當(dāng)兩類各自僅含一個(gè)樣品或變量時(shí)，兩類間的相似系數(shù)即是兩樣品或變量間的相似系數(shù)或，按第一節(jié)的定義計(jì)算。3715當(dāng)類內(nèi)含有兩個(gè)或兩個(gè)以上樣品或變量時(shí)，計(jì)算類間相似系數(shù)有多種方法可供選擇，下面列出5種計(jì)算方法。用Gp，Gq分別表示兩類，各自含有np，nq個(gè)樣品或變量。3716

1．最大相似系數(shù)法

Gp類中的np個(gè)樣品或變量與Gq類中的nq個(gè)樣品或變量兩兩間共有npnq個(gè)相似系數(shù)，以其中最大者定義為Gp與Gq的類間相似系數(shù)。

注意距離最小即相似系數(shù)最大。

2．最小相似系數(shù)法類間相似系數(shù)計(jì)算公式為

3．重心法（僅用于樣品聚類）用，分別表示的均值向量（重心），其分量是各個(gè)指標(biāo)類內(nèi)均數(shù)，類間相似系數(shù)計(jì)算公式為

3717

4．類平均法（僅用于樣品聚類）對(duì)Gp類中的np個(gè)樣品與Gq類中的nq個(gè)樣品兩兩間的npnq個(gè)平方距離求平均，得到兩類間的相似系數(shù)

類平均法是系統(tǒng)聚類方法中較好的方法之一，它充分反映了類內(nèi)樣品的個(gè)體信息。

37185．離差平方和法又稱Ward法，僅用于樣品聚類。此法效仿方差分析的基本思想，即合理的分類使得類內(nèi)離差平方和較小，而類間離差平方和較大。3719例19-1測量了3454名成年女子身高（X1）、下肢長（X2）、腰圍（X3）和胸圍（X4），計(jì)算得相關(guān)矩陣：

試用系統(tǒng)聚類法將這4個(gè)指標(biāo)聚類。

本例是R型（指標(biāo)）聚類，相似系數(shù)選用簡單相關(guān)系數(shù)，類間相似系數(shù)采用最大相似系數(shù)法計(jì)算。3720聚類過程如下：

（1）各個(gè)指標(biāo)獨(dú)自成一類G1={X1}，G2={X2}，G3={X3}，G4={X4}，共4類。

（2）將相似系數(shù)最大的兩類合并成新類，由于G1和G2類間相似系數(shù)最大，等于0.852，將兩類合并成G5={X1,X2}，形成3類。計(jì)算G5與G3、G4間的類間相似系數(shù)

G3，G4，G5的類間相似矩陣

3721

（3）由于G3和G4類間相似系數(shù)最大，等于0.732，將兩類合并成G6={G3,G4}，形成兩類。計(jì)算G6與G5間的類間相似系數(shù)。

（4）最終將G5,G6合并成G7={G5,G6},所有指標(biāo)形成一大類。

3722根據(jù)聚類過程，繪制出系統(tǒng)聚類圖（見圖19-1）。圖中顯示分成兩類較好：{X1，X2}，{X3，X4}，即長度指標(biāo)歸為一類，圍度指標(biāo)歸為另一類。

身高下肢長腰圍胸圍

G1G2G3G4圖19-14個(gè)指標(biāo)聚類的系統(tǒng)聚類圖0.8520.7320.2343723如何判斷聚為幾類對(duì)于指標(biāo)聚類而言：M個(gè)指標(biāo)究竟聚幾類為好，即聚成幾類后停止并類，可分析聚類過程表和聚類過程圖，還可以結(jié)合專業(yè)知識(shí)和實(shí)際需要確定。例：指定1個(gè)相似系數(shù)值（比如0.6），規(guī)定類那個(gè)指標(biāo)間的相似系數(shù)值入小于該值，則停止并類。特別是當(dāng)某步驟類使相似系數(shù)值的變化發(fā)生大的跳躍時(shí)，更是停止并類的訊號(hào)。3724如何找典型指標(biāo)對(duì)指標(biāo)聚類而言：為選擇每類的典型指標(biāo)，計(jì)算每類的每個(gè)指標(biāo)與同類其他指標(biāo)的相關(guān)指數(shù)（相關(guān)系數(shù)的平方）的均數(shù)，即式中為指標(biāo)所在類的指標(biāo)個(gè)數(shù)，在各類挑選值最大的作為該類的典型指標(biāo)3725

X1X2X20.89X30.670.84第一類3726例19-2今測得6名運(yùn)動(dòng)員4個(gè)運(yùn)動(dòng)項(xiàng)目（樣品）的能耗、糖耗的均數(shù)見表19-1，欲對(duì)運(yùn)動(dòng)項(xiàng)目歸類，以便提供相應(yīng)的膳食標(biāo)準(zhǔn)，提高運(yùn)動(dòng)成績。試用樣品系統(tǒng)聚類法將運(yùn)動(dòng)項(xiàng)目歸類。

表19-14個(gè)運(yùn)動(dòng)項(xiàng)目的測定值運(yùn)動(dòng)項(xiàng)目名稱能耗

X1（焦耳/分、m2）糖耗X2（%）負(fù)重下蹲G127.89261.421.3150.688引體向上G223.47556.830.1740.088俯臥撐G318.92445.13-1.001-1.441仰臥起坐G420.91361.25-0.4880.665變量的標(biāo)準(zhǔn)化X1‘

X2’3727本例選用歐氏距離，類間距離選用最小相似系數(shù)法。為了克服變量量綱的影響，分析前先將變量標(biāo)準(zhǔn)化，分別是Xi的樣本均數(shù)與標(biāo)準(zhǔn)差。變換后的數(shù)據(jù)列在表19-1的，列。3728聚類過程如下：

（1）計(jì)算4個(gè)樣品間的相似系數(shù)矩陣，樣品聚類中又稱為距離矩陣。負(fù)重下蹲與引體向上之間的距離按公式（19-3）計(jì)算得

同樣負(fù)重下蹲與俯臥撐之間的距離

同理，計(jì)算出距離矩陣

3729（2）G2，G4間距離最小，將G2，G4并成一新類G5={G2，G4}。應(yīng)用最小相似系數(shù)法，按公式（19-8）計(jì)算G5與其他各類之間的距離

G1，G3，G5的距離矩陣

（3）G1，G5間距離最小，將G1，G5并成一新類G6={G1，G5}。計(jì)算G6與G3之間的距離

（4）最終將G1,G6合并成G7={G1,G6},所有指標(biāo)形成一大類。d15=Max（d12，d14）=Max（1.289，1.803）=1.803d35=Max（d23，d34）=Max（1.928，2.168）=2.1683730根據(jù)聚類過程，繪制出系統(tǒng)聚類圖（見圖19-2）。結(jié)合系統(tǒng)聚類圖和專業(yè)知識(shí)認(rèn)為分成兩類較好：{G1，G2，G4}，{G3}。負(fù)重下蹲、引體向上、仰臥起坐三個(gè)運(yùn)動(dòng)項(xiàng)目體能消耗較大，訓(xùn)練時(shí)應(yīng)提高膳食標(biāo)準(zhǔn)。

圖19-24個(gè)運(yùn)動(dòng)項(xiàng)目樣品聚類的系統(tǒng)聚類圖G2

G1G3

G5G6G73731例19-3調(diào)查了27名瀝青工和焦?fàn)t工的年齡、工齡、吸煙情況，檢測了血清P21、P53、外周血淋巴細(xì)胞SCE、染色體畸變數(shù)和染色體畸變細(xì)胞數(shù)。數(shù)據(jù)列于表19-3，其中P21倍數(shù)=P21檢測值/對(duì)照組P21均數(shù)。試用系統(tǒng)聚類法將27名工人歸類。

3732表19-3瀝青工和焦?fàn)t工的生物標(biāo)志物檢測及聚類分析結(jié)果工人編號(hào)(樣品號(hào))年齡工齡吸煙支/d血清P21P21倍數(shù)P53SCE染色體畸變數(shù)染色體畸變細(xì)胞數(shù)聚類結(jié)680.358.11441235122035102.761.436.84331352252027842.190.544.1133143272024511.930.4711.4596153822032472.560.8011.68551651313037102.920.3711.6022174091031942.510.4011.40551834172046583.670.4611.3533195029050193.950.4713.4510811042202074825.890.1213.110021157301538002.990.1910.762211236152024781.950.2510.00001133712038273.010.8210.50441145232029842.350.1611.153311552321037492.950.7211.45111011642273049413.89

人人文庫> 全部分類> 專業(yè)文獻(xiàn) > 醫(yī)學(xué)資料

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

第十九章聚類分析

文檔簡介

溫馨提示

最新文檔

評(píng)論

第十九章 聚類分析

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

第十九章聚類分析