版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第十三講聚類分析ClusterAnalysis(2)
2025/6/181第13講聚類分析-25.5快速聚類法
(quickclustermethodk-meansmodel
)
也叫動態(tài)聚類、逐步聚類、迭代聚類)
樣本量很大,用系統聚類法計算的工作量極大,作出的樹狀圖也十分復雜,不便于分析2025/6/182第13講聚類分析-2原理選擇初始凝聚點根據歐氏距離將每個樣品歸類各類的重心代替初始凝聚點根據歐氏距離將每個樣品歸類,……直至分類達到穩(wěn)定2025/6/183第13講聚類分析-2初始凝聚點
initialclusterseeds
;clustercenters自動選擇
必須給出允許分類的最大個數k(
SAS中用MAXCLUSTERS=k(或MAXC=k))憑經驗選擇
以初始凝聚點建立一個數據文件,在SAS的FASTCLUS過程的SEED=選擇項中輸入該數據文件2025/6/184第13講聚類分析-25.6變量聚類法
原理與以上聚類法類似,只是將標準化后的變量視為“個體”,變量間的相關系數描述“個體”間的相似程度。
SAS中采用VARCLUS過程。2025/6/185第13講聚類分析-25.7用VARCLUS過程實現變量聚類分析2025/6/186第13講聚類分析-2[例5.1]為研究人腦老化的嚴重程度,有人測定了不同年齡的60名正常男性10項有關指標的數據,各變量的含義如下:AGE為年齡、TJ為圖片記憶、SG為數字廣度記憶、TS為圖形順序記憶、XX為心算位數、XS為心算時間、CK為規(guī)定時間內穿孔數、BJ為步距、JJ為步行時雙下肢夾角、BS步速。試對這些指標作變量聚類分析。SAS程序:2025/6/187第13講聚類分析-2DATAd6p5;INPUTagetjsgxxxstsckbjjjbs@@;CARDS;16179145.14495435.323.924820835.005123724.703.7318128143.575114630.663.304918851.875103422.544.7719118211.673125337.013.085013843.205114533.472.782018957.04594730.103.9051167143.58524026.274.382115966.575105737.142.7252178142.86573423.935.1022198143.295114630.663.2453108143.43344126.014.042416953.502104327.644.415411886.18523725.453.802519963.57194226.544.4955118142.15404229.682.6126179143.86395229.243.545687922.10154529.806.672715816.00494232.304.3857121074.50582415.957.2928187143.98595133.943.035810699.50244328.963.50292010141.93584330.794.51591110128.690124431.152.89301410142.93574532.674.456012788.78281812.927.43
2025/6/188第13講聚類分析-2
31198103.735103319.915.716110526.3550158.9611572124431.924.1262128717.00583221.834.7133159143.36564228.615.396314949.402124228.964.0134157143.945104330.264.316412953.005123022.185.4135179142.642112727.794.45667738.49512920.625.6736189123.235103825.834.686715863.43563724.655.503719873.00593825.383.736814568.00084028.064.343816874.384113523.344.99696728.34222917.024.6939208141.435114630.303.4170139114.94413825.833.704017872.052123724.564.4971159144.50564128.015.0641179113.705113523.764.337210723.33573824.803.884216983.33591232.112.63730765.77103121.275.734320832.502103925.903.777420884.11573927.695.6044149142.574104327.033.7175128148.14342819.236.264518822.67583927.513.94766736.75352416.637.5646208102.825104027.063.54789748.2024139.448.9147189141.93594327.955.017913519.50063825.533.24;2025/6/189第13講聚類分析-2PROCVARCLUSCENTROIDMAXC=4;VARagetjsgxxxstsckbjjjbs;RUN;PROCVARCLUS;VARagetjsgxxxstsckbjjjbs;RUN;PROCVARCLUSCENTROID;VARagetjsgxxxstsckbjjjbs;RUN;PROCVARCLUSHIMAXC=4;VARagetjsgxxxstsckbjjjbs;RUN;2025/6/1810第13講聚類分析-2第2個過程語句中用了選擇項CENTROID,其聚類方法為重心分量聚類法。這2個過程步最終會聚成多少類,將由軟件中隱含的臨界值來決定;[程序說明]
第1個過程語句中沒有任何選擇項,其聚類方法為主成分聚類法;2025/6/1811第13講聚類分析-2第3個過程語句中加了HI(要求在不同水平上的聚類保持系統結構,但與無此選則項時的區(qū)別并不明顯),MAXC=4要求從1類聚到4類,此選擇項的最大值為變量的個數。第4個過程語句要求用重心分量法從1類聚到4類。對于一批給定的資料,究竟應聚成幾類合適,沒有統一的規(guī)則。可先將資料聚成各只同的類,然后結合專業(yè)知識和各類能解釋總方差的百分比來權衡。2025/6/1812第13講聚類分析-2何時需選用重心分量聚類方法呢?當用戶想讓類分量或成分(ClusterComponents)代表標準化變量(未加權的,是軟件缺省值)或未標準化變量(若指定用COV,即用協方差矩陣)的均數時,應加CENTROID。當操作的數據對象是樣本相關矩陣(缺省值)時,視各變量的重要性相同;當操作的數據對象是樣本協方差矩陣(需在過程語句中加COV)時,使具有較大方差的變量起的作用大些。2025/6/1813第13講聚類分析-2[輸出結果及其解釋]Totalvariationexplained=4.290718Proportion=0.4291
Cluster1willbesplit.這是用分解法思想進行斜交主成分聚類的第1步,把全部10個變量聚成一類,能解釋的方差為4.290718,占總方差10的42.91%,并預告這一類將被分裂。2025/6/1814第13講聚類分析-2Totalvariationexplained=5.654444Proportion=0.5654
1類分裂成2類,各含5個指標,此時能解釋的方差為5.65444,占總方差10的56.54%。2025/6/1815第13講聚類分析-2這是每個指標與類成分之間相關系數的平方,如:指標AGE在第1類中,它與第1類成分(相當于因子分析中的第1公因子)之間相關系數的平方是0.5843(稱為R-SquaredWithOwnCluster)。2025/6/1816第13講聚類分析-2同理可理解該列中的其他相關系數的含義;第1類中的某個指標與相鄰類(此處為第2類)的類成分之間的相關系數的平方,稱為R-squaredwithNextclosest,如:AGE與第2類成分之間的相關系數的平方為0.2958,該值越小,說明分類越合理。最后一列的比值由同一橫行的數據求得,如:(1-0.5843)/(1-0.2958)=0.5903,此值越小,表明分類越合理。從最后一列可看出,很多比值較大,說明這10個變量分成2類是不太合適的。2025/6/1817第13講聚類分析-2這是從標準化變量預測類成分的標準回歸系數,若設C1、C2分別為第1和第2類成分,
即:C1=-0.233329AGE+0.193211CK+0.262837BJ+0.282748JJ-0.253864BS
C2=0.314445TJ+0.284992SG+0.253402XX-0.321956XS+0.269220TS2025/6/1818第13講聚類分析-2類結構相當于因子分析中的因子模型,即每個標準化變量可以表示成全部類成分的線性組合。如:
AGE=-0.764387C1-0.543839C2。2025/6/1819第13講聚類分析-2Noclustermeetsthecriterionforsplitting.類內相關就是類成分之間的相關系數。此時已達到隱含的停止分裂的臨界值,停止分裂。2025/6/1820第13講聚類分析-2第①列表示分成一類與兩類時分別能解釋的總方差量;第②列表示分成一類與兩類時分別能解釋的方差占全部10個變量的總方差的百分比;第③列表示分成一類與兩類時由1個類成分能解釋的方差占全部10個變量的總方差的最小百分比。2025/6/1821第13講聚類分析-2第①列為各類中最大的第2特征值;第②列為各類中1個變量與其所在類成分的最小相關系數的平R2;第③列為各類中(1-R2)own/(1-R2)next的最大比值。參見前面關于“R-squaredwithowncluster、nextcluster”部分輸出結果及其解釋。2025/6/1822第13講聚類分析-2上述主要結果是由第2個過程步輸出的。2025/6/1823第13講聚類分析-2這是第3個過程步輸出的主要結果。2025/6/1824第13講聚類分析-2這是第4個過程步輸出的主要結果。2025/6/1825第13講聚類分析-2結合專業(yè)知識發(fā)現:由第3個過程聚類的結果比較合理,即第1類中含BJ(步距)、JJ(步行時雙下肢夾角)、BS(步速)這三個與走步有關的變量;第2類中含TJ(圖片記憶)、XS(心算時間)、TS(圖形順序記憶)這三個與記憶、計算有關的指標;第3類中含SG(數字廣度記憶)、XX(心算位數)這兩個與記憶、計算有關的指標;第4類中含AGE(年齡)、CK(穿孔)這兩個與視力和協調能力有關的指標。分類的結果將有助于研究者對影響人腦老化本質的認識,為進一步從事這方面的研究提供了一些線索。專業(yè)結論2025/6/1826第13講聚類分析-25.8用CLUSTER過程實現樣品聚類分析[例5.2]某研究者收集了24種菌株,其中17~22號為已知的標準菌株,它們分別取自牛、羊、犬、豬、鼠、綿羊,其他為未知菌株。測得各菌株的16種脂肪酸百分含量,試作樣品聚類分析,以便了解哪些未知菌株與已知的標準菌株在全部指標上最為接近。2025/6/1827第13講聚類分析-22025/6/1828第13講聚類分析-2在SAS中用系統聚類法對樣品進行聚類時提供了11只同的聚類形式(即距離的定義方法不同),指定的方法是在METHOD=后面填入1個相應的選擇項,它們是:
AVERAGE(平均法)
CENTROID(重心分量法)
COMPLETE(最長距離法)
DENSITY(非參數概率密度估計法)
EML(最大似然法)
FLEXIBLE(flexible-beta法)
MCQUITTY(Mcquitty的相似分析法)
MEDIAN(中位數法)
SINGLE(最短距離法)
TWOSTAGE(兩階段密度法)
WARD(Ward最小方差法)程序說明
2025/6/1829第13講聚類分析-2計算新類與其他類之間的距離的遞推公式不同,一旦任何兩類之間的距離算出來后,仍按距離最小者先合并。用不同的聚類形式對同一批資料進行聚類,其聚類結果不完全相同,需結合專業(yè)知識從各種聚類結果中選擇最合適的。這11種方法所對應的遞推公式從略,感興趣的讀者可參閱有關專著。不同的聚類形式之間的主要區(qū)別在于:2025/6/1830第13講聚類分析-2第1個過程步是調用CLUSTER過程進行樣品聚類分析。選用的聚類形式是平均法(AVERAGE);對變量實施標準化(STANDARD);在選用多數聚類形式時,NONORM阻止距離被正態(tài)化成均數為1或均方根為1;當METHOD=WARD時,NONORM阻止類間平方總平和正態(tài)化而產生半偏相關平方;當METHOD=DENSITY,EML,或TWOSTAGE時,選擇項NONORM無效;當METHOD=CENTROID,MEDIAN或WARD時,NOSQUARE阻止距離被平方。2025/6/1831第13講聚類分析-2選擇項CCC、PSEUDO都是為了計算一些統計量用以判別全部樣品究竟聚成幾類合適。CCC要求打印出聚類判別據的立方(即判斷資料聚成幾類合適的一種統計量)及在一致無效假設下近似期望值R2。PSEUDO要求打印偽F(標志PSF)和t2(標志PST2)統計量。當分類數目不同時,它們就有不同的取值,CCC和PSF出現峰值所對應的分類數較合適、PST2出現峰值的前一行所對應的分類數較合適。2025/6/1832第13講聚類分析-2OUT=TREE產生1個名為TREE的輸出數據集,它可被TREE過程用來輸出聚類結果的樹狀圖。HORIZONTAL要求將樹狀圖水平置,SPACES=1要求置各樣品之間的間隔為1。所輸出的圖看上去并不直觀(從略)。輸出結果及其解釋:2025/6/1833第13講聚類分析-2這是用平均距離法進行樣品聚類分析的結果,首先給出的是①相關矩陣的特征值、②兩相鄰特征值之差、③各特征值占總方差的百分比和④累計百分比。①②③④2025/6/1834第13講聚類分析-22025/6/1835第13講聚類分析-2給出了將24個樣品依次聚成23~1類的結果。NCL為聚類數;(ClustersJoined)為每次聚成1個新類的2個樣品(標有OB)或舊類(標有CL);FREQ為新類中所含的樣品數;SPRSQ為半偏R2,它表示每一次合并對信息的損失程度,看這1列的數值可知:從3類合并成2類時損失最多,此統計量表明聚成3類較合適;RSQ為R2,它反映的是累計聚類結果,上一次的R2減去本次半偏R2等于本次R2,從3類合并成2類R2減少了很多,它也支持分3類;2025/6/1836第13講聚類分析-2ERSQ為在一致無效假設下近似期望的R2;再結合CCC、PSF、PST2這3個統計量的值,看看究竟分幾類較合適。CCC在NCL=3時達到唯一的峰值1.18;PSF在NCL=16、NCL=8和NCL=3時3次達峰值,但在NCL=3時峰更陡些;PST2在多處出現峰值,但從NCL=3到NCL=2比從NCL=5到NCL=4時峰值增加的幅度更大一些。綜合這3個統計量的結果可知:將24個樣品分為3類較合適。AverDist為兩樣品或類間的平均距離。2025/6/1837第13講聚類分析-2開始24個樣品各自成1類,共有24類。經過1次運算后,將第10號與第11號樣品合并成1個新類,記為CL23,因為此時共有23類。經過第2次運算后,將第3號與第4號樣品合并成另1個新類,記為CL22,因為此時共有22類;依次類推。下面詳細看看樣品聚類的過程:2025/6/1838第13講聚類分析-2IIIIII2025/6/1839第13講聚類分析-2從圖上可清楚地看出:聚成3類是較合適的。按圖中縱軸方向由上往下樣品排列的順序號,若聚成3類,各類所包含的樣品分別為:(10~22)、(21~8)、(20)。由此可看出:第20號樣品與其他樣品相似程度較小。專業(yè)結論
因17~22號樣品是已知菌株,故得知:24號與21號最接近、16號與22號最接近、23號與19號最接近、(10,11,3,4,5,9,2)號與18號最接近。2025/6/1840第13講聚類分析-25.9用FASTCLUS過程進行大樣本樣品聚類分析2025/6/1841第13講聚類分析-2如果在[例5.2]中的樣品數不是24,而是成千上萬,甚至更多,用CLUSTER過程就需要計算很長時間,況且,在實際問題中,常希望將樣品聚成較少的幾類更有實用價值。此時,用SAS中提供的FASTCLUS過程能很好地將資料聚成兩類或三類。程序會自動給每個樣標上所屬類別的標記,于是,可對每類樣品作進一步地分析。2025/6/1842第13講聚類分析-2[例5.3]在[例7.1]中進行了人腦老化資料的變量聚類分析,資料中含有10個指標60個樣品,但此資料實際上有8
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年武漢大學中南醫(yī)院門診部勞務派遣制導醫(yī)招聘備考題庫及完整答案詳解一套
- 2026年普定縣梓涵明德學校教師招聘備考題庫(9名)及參考答案詳解
- 會議室開會制度
- 2026年重慶醫(yī)科大學附屬康復醫(yī)院關于黨政辦公室黨建、宣傳干事、醫(yī)保辦工作人員招聘備考題庫參考答案詳解
- 2026年深圳市龍華區(qū)第三實驗學校附屬善德幼兒園招聘備考題庫完整參考答案詳解
- 中學教學質量保證措施制度
- 2026年西安交通大學附屬小學招聘備考題庫附答案詳解
- 2026年漯河市城鄉(xiāng)一體化示范區(qū)事業(yè)單位人才引進備考題庫及參考答案詳解1套
- 2026年重慶護理職業(yè)學院(第一批)公開招聘工作人員備考題庫及一套完整答案詳解
- 中國人民銀行所屬企業(yè)網聯清算有限公司2026年度校園招聘26人備考題庫及完整答案詳解一套
- 無人機UOM考試試題及答案
- D二聚體診斷肺動脈栓塞
- 湖南省永州市祁陽縣2024-2025學年數學七年級第一學期期末聯考試題含解析
- 中國大麻種植行業(yè)市場發(fā)展現狀及投資前景展望報告
- 非常規(guī)油氣藏超分子壓裂液體系研發(fā)與性能評價
- 檢驗試劑冷庫管理制度
- 運用PDCA提高全院感染性休克集束化治療達標率
- 第1講 數學建模簡介課件
- 《臨床生物化學檢驗》考試復習題庫(含答案)
- DB36T-葉類蔬菜機械收獲作業(yè)技術規(guī)程
- 2024年全國體育單獨統一招生考試語文試卷附答案
評論
0/150
提交評論