版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第十四聚類分析第1頁,課件共30頁,創(chuàng)作于2023年2月聚類分析是一種重要的分類技術(shù)。與多元分析的其他方法相比,該方法較為粗糙,理論上還不完善,但應(yīng)用方面取得了很大成功。與回歸分析、判別分析一起被稱為多元分析的三大方法。第2頁,課件共30頁,創(chuàng)作于2023年2月1.聚類的目的
根據(jù)已知數(shù)據(jù),計算各觀察個體或變量之間親疏關(guān)系的統(tǒng)計量(距離或相關(guān)系數(shù))。根據(jù)某種準(zhǔn)則(最短距離法、最長距離法、中間距離法、重心法等),使同一類內(nèi)的差別較小,而類與類之間的差別較大,最終將觀察個體或變量分為若干類。第3頁,課件共30頁,創(chuàng)作于2023年2月2.聚類分析的應(yīng)用例子同一種疾?。ㄈ绺窝祝鶕?jù)臨床表現(xiàn)等將病人分成若干類(甲、乙、丙、丁、戊型肝炎)根據(jù)疾病的若干臨床表現(xiàn),將病人分成輕、中、重三型在兒童生長發(fā)育研究中,把以形態(tài)學(xué)為主的指標(biāo)歸于一類,以機能為主的指標(biāo)歸于另一類第4頁,課件共30頁,創(chuàng)作于2023年2月3.聚類的種類根據(jù)分類的原理可將聚類分析分為:
K-meansCluster過程(快速聚類法)
HierarchicalCluster過程(系統(tǒng)聚類法)根據(jù)分類的對象可將聚類分析分為:系統(tǒng)Q型(即樣品聚類clusteringforindividuals)系統(tǒng)R型(即指標(biāo)聚類clusteringforvariables)第5頁,課件共30頁,創(chuàng)作于2023年2月4.聚類分析與判別分析間的聯(lián)系
先采用聚類分析獲得各個個體的類別(classification);然后采用判別分析建立判別函數(shù),對新個體進行類型識別(identification)第6頁,課件共30頁,創(chuàng)作于2023年2月5、距離與相似系數(shù)(P418)(1)距離
假使每個樣品有p個變量,則每個樣品都可以看成p維空間中的一個點,n個樣品就是p維空間中的n個點,則第i樣品與第j樣品之間的距離記為dij。第7頁,課件共30頁,創(chuàng)作于2023年2月(2)相似系數(shù)
研究樣品間的關(guān)系常用距離,研究指標(biāo)間的關(guān)系常用相似系數(shù)。相似系數(shù)常用的有:夾角余弦與相關(guān)系數(shù)第8頁,課件共30頁,創(chuàng)作于2023年2月5、方法原理按距離的遠近劃分類別6、用途細分市場消費行為劃分設(shè)計抽樣方案等第9頁,課件共30頁,創(chuàng)作于2023年2月7、操作時距離測量方法建議使用默認值即可(Q型分類)8、變量選擇無關(guān)變量有時會引起嚴重的錯分應(yīng)當(dāng)只引入在不同類間有顯著差別的變量盡量只使用相同類型的變量進行分析第10頁,課件共30頁,創(chuàng)作于2023年2月9、共線性問題對紀(jì)錄聚類結(jié)果有較大的影響最好先進行預(yù)處理10、變量的標(biāo)準(zhǔn)化變量變異程度相差非常大時需要進行標(biāo)準(zhǔn)化后會削弱有用變量的作用第11頁,課件共30頁,創(chuàng)作于2023年2月11、異常值影響較大還沒有比較好的解決辦法應(yīng)盡力避免12、分類數(shù)從實用角度講,2~8類比較合適13、專業(yè)意義一定要結(jié)合專業(yè)知識進行分析第12頁,課件共30頁,創(chuàng)作于2023年2月二、K-meansCluster過程屬于非系統(tǒng)聚類法的一種也叫快速聚類\動態(tài)聚類、逐步聚類、迭代聚類)(quickclustermethod、k-meansmodel)適用于樣本量很大的情形,用系統(tǒng)聚類法計算的工作量極大,作出的樹狀圖也十分復(fù)雜,不便于分析
第13頁,課件共30頁,創(chuàng)作于2023年2月1、原理選擇初始凝聚點根據(jù)歐氏距離將每個樣品歸類各類的重心代替初始凝聚點根據(jù)歐氏距離將每個樣品歸類,……
直至達到指定的迭代次數(shù)或達到終止迭代的判據(jù)要求第14頁,課件共30頁,創(chuàng)作于2023年2月2、初始凝聚點
initialclusterseeds;clustercenters自動選擇必須給出允許分類的最大個數(shù)k憑經(jīng)驗選擇以初始凝聚點建立一個數(shù)據(jù)文件,在SPSS的CETERS過程的READINITIALFROM選擇項中輸入該數(shù)據(jù)文件第15頁,課件共30頁,創(chuàng)作于2023年2月3、方法特點要求已知類別數(shù)可人為指定初始位置節(jié)省運算時間樣本量大于100時有必要考慮只能使用連續(xù)性變量第16頁,課件共30頁,創(chuàng)作于2023年2月4、菜單:Analyze-classify-KmeansCluster5、分析實例(P416data13-02)
第17頁,課件共30頁,創(chuàng)作于2023年2月三、HierarchicalCluster過程
1、系統(tǒng)聚類的基本思想相近的聚為一類(以距離表示,樣品聚類)相似的聚為一類(以相似系數(shù)表示,變量聚類)第18頁,課件共30頁,創(chuàng)作于2023年2月2、方法原理先將所有n個變量/觀測量看成不同的n類;然后將性質(zhì)最接近(距離最近)的兩類合并為一類;再從這n-1類中找到最接近的兩類加以合并;依此類推,直到所有的變量/觀測量被合為一類;使用者最后再根據(jù)具體的問題和聚類結(jié)果來決定應(yīng)當(dāng)分為幾類。第19頁,課件共30頁,創(chuàng)作于2023年2月3、類與類之間的距離1.最短距離法(singlelinkage)2.最長距離法(completelinkage)3.中間距離法(medianmethod)4.類平均法(averagelinkage)5.可變類平均法(flexible-betamethod)6.重心法(centroidmethod)7.Ward離差平方和法(Ward'sminimum-variancemethod)第20頁,課件共30頁,創(chuàng)作于2023年2月8.Mcquitty的相似分析法(Mcquitty'ssimilarityanalysis)9.最大似然估計法(EML)10.密度估計(densitylinkage)11.兩階段密度估計法(two-stagedensitylinkage)等。第21頁,課件共30頁,創(chuàng)作于2023年2月4、系統(tǒng)聚類法的性質(zhì)
單調(diào)性
中間距離法、重心法不具有單調(diào)性空間的濃縮與擴張
不同聚類法作圖,橫坐標(biāo)的范圍可相差很大。最短距離法與重心法比較濃縮;可變類平均比較擴張;類平均法比較適中。第22頁,課件共30頁,創(chuàng)作于2023年2月5、有關(guān)問題
幾種聚類方法獲得的結(jié)果不一定相同指標(biāo)聚類采用相似系數(shù),相似系數(shù)大或距離小則表示類間關(guān)系密切,為了統(tǒng)一,可采用以下公式變換。
第23頁,課件共30頁,創(chuàng)作于2023年2月6、特點一旦觀測/變量被劃定類別,其分類結(jié)果就不會再進行更改;可以對變量或記錄進行聚類;變量可以為連續(xù)或分類變量;提供的距離測量方法非常豐富;運算速度較慢。第24頁,課件共30頁,創(chuàng)作于2023年2月
7、變量聚類法
原理與觀測量聚類法類似,只是將標(biāo)準(zhǔn)化后的變量視為“個體”,變量間的相關(guān)系數(shù)描述“個體”間的相似程度。
第25頁,課件共30頁,創(chuàng)作于2023年2月8、路徑:Analyze-Classify-HierarchicalCluster9、分析實例(P428/P437data13-03/data11-03)
第26頁,課件共30頁,創(chuàng)作于2023年2月SPSS自帶數(shù)據(jù)集judges.sav是中、美、法等七個國家的裁判和未經(jīng)嚴格訓(xùn)練體育愛好者在評判體育比賽中對選手的評分情況。請根據(jù)在評分上的差異將它們分為適當(dāng)?shù)念?。?7頁,課件共30頁,創(chuàng)作于2023年2月解題思路?
應(yīng)當(dāng)選用變量聚類?
具體的分類數(shù)不明,需要輸出全部結(jié)果?
方差和均數(shù)相差不大,無需進行標(biāo)準(zhǔn)化?
測量距離使用PEARSON相關(guān)系數(shù)即可第28頁,課件共30頁,創(chuàng)作于2023年2
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 長度計量員節(jié)假日后復(fù)工安全考核試卷含答案
- 項目管理考試題及答案
- 線性代數(shù)真題及答案
- 風(fēng)險管理實務(wù)與控制指導(dǎo)(標(biāo)準(zhǔn)版)
- 裝配鉗工春節(jié)假期安全告知書
- 2025年物流倉儲設(shè)備操作與維護手冊
- 風(fēng)險評估與應(yīng)對措施手冊
- 大學(xué)VF考試題及答案
- 2025年醫(yī)學(xué)影像技師專業(yè)資格及水平考核試題及答案解析
- 毒麻藥處方權(quán)試題及答案
- 新能源光伏發(fā)電系統(tǒng)設(shè)計與安裝手冊
- 會下金蛋的鵝課件
- GB/T 11880-2024模鍛錘和大型機械鍛壓機用模塊
- GB/T 43934-2024煤礦土地復(fù)墾與生態(tài)修復(fù)技術(shù)規(guī)范
- GB/T 13077-2024鋁合金無縫氣瓶定期檢驗與評定
- GB/T 10739-2023紙、紙板和紙漿試樣處理和試驗的標(biāo)準(zhǔn)大氣條件
- 神經(jīng)內(nèi)科練習(xí)題庫及答案
- GB/T 42973-2023半導(dǎo)體集成電路數(shù)字模擬(DA)轉(zhuǎn)換器
- 肝性腦病教學(xué)查房課件
- 膜式壁制造及檢驗工藝演示文稿
- 紅壤區(qū)貧瘠農(nóng)田土壤快速培肥技術(shù)規(guī)程
評論
0/150
提交評論