版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
關(guān)于聚類(lèi)分析在中的實(shí)現(xiàn)第1頁(yè),共31頁(yè),2023年,2月20日,星期五概述定義聚類(lèi)分析是根據(jù)“物以類(lèi)聚”的道理,對(duì)樣品或指標(biāo)進(jìn)行分類(lèi)的一種多元統(tǒng)計(jì)分析方法,它們討論的對(duì)象是大量的樣品,要求能合理地按各自的特性來(lái)進(jìn)行合理的分類(lèi),沒(méi)有任何模式可供參考或依循,即是在沒(méi)有先驗(yàn)知識(shí)的情況下進(jìn)行的。第2頁(yè),共31頁(yè),2023年,2月20日,星期五基本思想
樣本(或變量)間存在著相似性,根據(jù)多個(gè)觀測(cè)指標(biāo),找出能度量樣本之間相似程度的統(tǒng)計(jì)量,以其為依據(jù),把相似程度較大的樣本聚合為一類(lèi),關(guān)系密切的聚合到一個(gè)小的分類(lèi)單位,關(guān)系疏遠(yuǎn)的聚合到一個(gè)大的分類(lèi)單位,直到把所有的樣本都聚合完畢,把不同的類(lèi)型一一劃分出來(lái),形成一個(gè)由小到大的分類(lèi)系統(tǒng)。聚類(lèi)原則是同一類(lèi)中的個(gè)體有較大的相似性,不同類(lèi)中的個(gè)體差異很大。第3頁(yè),共31頁(yè),2023年,2月20日,星期五基本程序是根據(jù)一批樣品的多個(gè)觀測(cè)指標(biāo),具體地找出一些能夠度量樣品或指標(biāo)之間相似程度的統(tǒng)計(jì)量,然后利用統(tǒng)計(jì)量將樣品或指標(biāo)進(jìn)行歸類(lèi)。具體進(jìn)行聚類(lèi)時(shí),由于目的、要求不同,因而產(chǎn)生各種不同的聚類(lèi)方法:由小類(lèi)合并到大類(lèi)的方法由大類(lèi)分解為小類(lèi)的方法靜態(tài)聚類(lèi)法、動(dòng)態(tài)聚類(lèi)法按樣本聚類(lèi)(Q)、按指標(biāo)聚類(lèi)(R)第4頁(yè),共31頁(yè),2023年,2月20日,星期五舉例
對(duì)上市公司的經(jīng)營(yíng)業(yè)績(jī)進(jìn)行分類(lèi);據(jù)經(jīng)濟(jì)信息和市場(chǎng)行情,客觀地對(duì)不同商品、不同用戶及時(shí)地進(jìn)行分類(lèi)。又例如當(dāng)我們對(duì)企業(yè)的經(jīng)濟(jì)效益進(jìn)行評(píng)價(jià)時(shí),建立了一個(gè)由多個(gè)指標(biāo)組成的指標(biāo)體系,由于信息的重疊,一些指標(biāo)之間存在很強(qiáng)的相關(guān)性,所以需要將相似的指標(biāo)聚為一類(lèi),從而達(dá)到簡(jiǎn)化指標(biāo)體系的目的。
第5頁(yè),共31頁(yè),2023年,2月20日,星期五按照聚類(lèi)分析分組依據(jù)的原則不同分組按照聚類(lèi)分析的對(duì)象不同分組
聚類(lèi)分析主要方法系統(tǒng)聚類(lèi)分析法動(dòng)態(tài)聚類(lèi)分析法模糊聚類(lèi)法圖論聚類(lèi)法聚類(lèi)預(yù)報(bào)法Q型聚類(lèi)分析法R型聚類(lèi)分析法第6頁(yè),共31頁(yè),2023年,2月20日,星期五系統(tǒng)聚類(lèi)分析法
在樣品距離的基礎(chǔ)上定義類(lèi)與類(lèi)的距離,首先將各個(gè)樣品自成一類(lèi),然后每次將具有最小距離的兩個(gè)類(lèi)合并,合并后再重新計(jì)算類(lèi)與類(lèi)之間的距離,再并類(lèi),這個(gè)過(guò)程一直持續(xù)到所有的樣品都?xì)w為一類(lèi)為止。這種聚類(lèi)方法稱(chēng)為系統(tǒng)聚類(lèi)法。根據(jù)并類(lèi)過(guò)程所做的樣品聚類(lèi)過(guò)程圖稱(chēng)為聚類(lèi)譜系圖。第7頁(yè),共31頁(yè),2023年,2月20日,星期五動(dòng)態(tài)聚類(lèi)分析法
將個(gè)樣品初步分類(lèi),然后根據(jù)分類(lèi)函數(shù)盡可能小的原則,對(duì)初步分類(lèi)進(jìn)行調(diào)整優(yōu)化,直到分類(lèi)合理為止。這種分類(lèi)方法一般稱(chēng)為動(dòng)態(tài)聚類(lèi)法,也稱(chēng)為調(diào)優(yōu)法。模糊聚類(lèi)分析法
利用模糊數(shù)學(xué)中模糊集理論來(lái)處理分類(lèi)問(wèn)題,它對(duì)經(jīng)濟(jì)領(lǐng)域中具有模糊特征的兩態(tài)數(shù)據(jù)或多態(tài)數(shù)據(jù)具有明顯的分類(lèi)效果。第8頁(yè),共31頁(yè),2023年,2月20日,星期五圖論聚類(lèi)法
利用圖論中最小支撐樹(shù)(MST)的概念來(lái)處理分類(lèi)問(wèn)題,是一種獨(dú)具風(fēng)格的方法。聚類(lèi)預(yù)報(bào)法
利用聚類(lèi)方法處理預(yù)報(bào)問(wèn)題,主要是處理一些異常數(shù)據(jù),如氣象中的災(zāi)害性天氣的預(yù)報(bào),這些異常數(shù)據(jù)采用回歸分析或判別分析處理的效果不好,而聚類(lèi)預(yù)報(bào)可以彌補(bǔ)回歸分析及判別分析方法之不足,是一個(gè)很值得重視的方法。第9頁(yè),共31頁(yè),2023年,2月20日,星期五Q型聚類(lèi)分析法
對(duì)樣本進(jìn)行分類(lèi),是具有共同特點(diǎn)的樣本聚在一起,以便對(duì)不同類(lèi)的樣本進(jìn)行分析。作用①綜合利用多個(gè)變量對(duì)樣品進(jìn)行分類(lèi);②分類(lèi)結(jié)果直觀,聚類(lèi)譜系圖清晰;③聚類(lèi)結(jié)果細(xì)致、全面、合理。第10頁(yè),共31頁(yè),2023年,2月20日,星期五R型聚類(lèi)分析法
對(duì)變量進(jìn)行的分類(lèi)處理。作用
①了解變量之間,以及變量組合之間的親疏程度;②根據(jù)變量分類(lèi)的結(jié)果,可以選擇最佳的變量組合進(jìn)行回歸分析或者Q型聚類(lèi)分析。選擇最佳變量,即在聚合的每類(lèi)變量中選出一個(gè)具有代表性的變量作為典型變量。第11頁(yè),共31頁(yè),2023年,2月20日,星期五Q型聚類(lèi)的統(tǒng)計(jì)量
對(duì)樣品進(jìn)行分類(lèi)時(shí),通常采用距離來(lái)表示樣品之間的親疏程度。常用的距離有:(1)明氏距離(明科夫斯基Minkowski)(2)蘭氏距離(Lance和Williams)(3)馬氏距離(Mahalanobis)(4)斜交空間距離聚類(lèi)分析的統(tǒng)計(jì)量第12頁(yè),共31頁(yè),2023年,2月20日,星期五R型聚類(lèi)的統(tǒng)計(jì)量
對(duì)變量進(jìn)行聚分類(lèi)析時(shí),通常采用相似系數(shù)來(lái)表示變量之間的親疏程度。常用的相似系數(shù)有:(1)夾角余弦(2)相關(guān)系數(shù)(3)指數(shù)相似系數(shù)(4)非參數(shù)方法第13頁(yè),共31頁(yè),2023年,2月20日,星期五SAS解決方案CLUSTER過(guò)程FASTCLUS過(guò)程ACECLUS過(guò)程VARCLUS過(guò)程TREE語(yǔ)句格式第14頁(yè),共31頁(yè),2023年,2月20日,星期五CLUSTER語(yǔ)句格式數(shù)據(jù)若為原始數(shù)值形式,CLUSTER過(guò)程以歐式距離為默認(rèn)的距離計(jì)算方法。PROCCLUSTERMETHOD=name<options>;BYvariables;COPYvariable;IDvariable;RMSSTDvariable;VARvariables;RUN;例題1第15頁(yè),共31頁(yè),2023年,2月20日,星期五在CLUSTER語(yǔ)句的“METHOD=”關(guān)鍵字下,可以指定11種系統(tǒng)聚類(lèi)方法。AVERAGE:類(lèi)平均法
CENTROID:重心法
COMPLETE:最長(zhǎng)距離法
DENSITY:密度估計(jì)法
EML:最大似然譜系聚類(lèi)
FLEXIBLE:可變類(lèi)平均法
MCQUITTY:可變法及McQuitty相似分析法
MEDIAN:中間距離法
SINGLE:最短距離法
TWOSTAGE:兩階段密度估計(jì)法
WARD:離差平方和法
第16頁(yè),共31頁(yè),2023年,2月20日,星期五FASTCLUS語(yǔ)句格式研研究事先知道類(lèi)別的個(gè)數(shù),但不知道這些類(lèi)別當(dāng)中的具體樣本,這時(shí)采用快速聚類(lèi)方法。默認(rèn)情況下,fastclus過(guò)程以歐式距離作為分類(lèi)的判斷標(biāo)準(zhǔn)。PROCFASTCLUSMAXCLUSTERS=n|RADIUS=t<options>;VARvariables;IDvariable;FREQvariable;WEIGHTvariable;BYvariables;RUN;例題2第17頁(yè),共31頁(yè),2023年,2月20日,星期五例題1數(shù)據(jù)集drink收集了16種飲料的熱量、咖啡因、鈉及價(jià)格四種變量的值?,F(xiàn)在希望利用這四個(gè)變量對(duì)這些飲料品牌進(jìn)行聚類(lèi)。第18頁(yè),共31頁(yè),2023年,2月20日,星期五例題1【SAS程序】proc
clusterdata=sasuser.drinkmethod=ward;varcaloriecaffeinesodiumprice;proctree;run;第19頁(yè),共31頁(yè),2023年,2月20日,星期五樹(shù)形圖第20頁(yè),共31頁(yè),2023年,2月20日,星期五第21頁(yè),共31頁(yè),2023年,2月20日,星期五例題2假如我們要對(duì)游泳運(yùn)動(dòng)員進(jìn)行分項(xiàng)訓(xùn)練,對(duì)10名運(yùn)動(dòng)員的三項(xiàng)測(cè)試數(shù)據(jù)記錄如下。其中變量xl=肩寬/髖寬×100;x2=胸厚/胸圍×100;x3=腿長(zhǎng)/身長(zhǎng)×100。按泳姿(蝶泳、仰泳、蛙泳、自由泳)對(duì)運(yùn)動(dòng)員進(jìn)行聚類(lèi)。【SAS程序】proc
fastclusdata=sasuser.athletemaxc=4listOuttree=tree;varx1-x3;proc
printdata=tree;run;第22頁(yè),共31頁(yè),2023年,2月20日,星期五第23頁(yè),共31頁(yè),2023年,2月20日,星期五ACECLUS語(yǔ)句格式ACECLUS過(guò)程假設(shè)各類(lèi)別為多元正態(tài)分布且協(xié)方差陣相等,多用于對(duì)大型數(shù)據(jù)聚類(lèi)分析的預(yù)分析。ACECLUS過(guò)程的語(yǔ)句格式:PROCACECLUSPROPOTION=p|THRESHOLD=t<options>;BYvariables;FREQvariable;VARvariables;WEIGHTvariable;RUN;第24頁(yè),共31頁(yè),2023年,2月20日,星期五VARCLUS語(yǔ)句格式對(duì)變量作譜系聚類(lèi)或分離聚類(lèi),即R聚類(lèi)。PROCVARCLUS<options>;VARvariables;SEEDvariables;PARTIALvariables;WEIGHTvariables;FREQvariables;BYvariables;RUN;第25頁(yè),共31頁(yè),2023年,2月20日,星期五TREE語(yǔ)句格式TREE過(guò)程將cluster過(guò)程和varclus過(guò)程輸出的特定數(shù)據(jù)集作為輸入數(shù)據(jù)集,繪制出詳細(xì)的用于描述整個(gè)聚類(lèi)過(guò)程的樹(shù)狀圖。PROCTREE<options>;NAMEvariables;HEIGHTvariables;PARENTvariables;BYvariables;COPYvariables;FREQvariable;IDvariable;RUN第26頁(yè),共31頁(yè),2023年,2月20日,星期五例:100個(gè)學(xué)生的數(shù)學(xué)、物理、化學(xué)、語(yǔ)文、歷史、英語(yǔ)的成績(jī)?nèi)缦卤恚ú糠郑?。?7頁(yè),共31頁(yè),2023年,2月20日,星期五【SAS程序】Proc
VarclusDAT
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- FEC相圖基礎(chǔ)性知識(shí)
- 通遼2025年內(nèi)蒙古通遼經(jīng)濟(jì)技術(shù)開(kāi)發(fā)區(qū)面向公費(fèi)定向師范畢業(yè)生專(zhuān)項(xiàng)招聘筆試歷年參考題庫(kù)附帶答案詳解
- 舟山2025年浙江舟山市教育局直屬初中學(xué)校招聘教師37人筆試歷年參考題庫(kù)附帶答案詳解
- 濟(jì)寧2025年山東濟(jì)寧兗州區(qū)城市社區(qū)專(zhuān)職工作者招錄40人筆試歷年參考題庫(kù)附帶答案詳解
- 張掖2025年甘肅張掖市臨澤縣事業(yè)單位招聘17人筆試歷年參考題庫(kù)附帶答案詳解
- 南通2025年江蘇南通市第三人民醫(yī)院招聘?jìng)浒钢乒ぷ魅藛T25人筆試歷年參考題庫(kù)附帶答案詳解
- 樂(lè)山2025年四川樂(lè)山市發(fā)展和改革委員會(huì)選調(diào)事業(yè)單位工作人員2人筆試歷年參考題庫(kù)附帶答案詳解
- 2026年IT行業(yè)專(zhuān)業(yè)筆試模擬題
- 職業(yè)性粉塵暴露致咳嗽的早期康復(fù)干預(yù)策略
- 2026年會(huì)員運(yùn)營(yíng)中的活動(dòng)策劃與執(zhí)行測(cè)試題
- 2026屆南通市高二數(shù)學(xué)第一學(xué)期期末統(tǒng)考試題含解析
- 寫(xiě)字樓保潔培訓(xùn)課件
- 2026中國(guó)電信四川公用信息產(chǎn)業(yè)有限責(zé)任公司社會(huì)成熟人才招聘?jìng)淇碱}庫(kù)有完整答案詳解
- 計(jì)量宣貫培訓(xùn)制度
- 2026中國(guó)電信四川公用信息產(chǎn)業(yè)有限責(zé)任公司社會(huì)成熟人才招聘?jìng)淇碱}庫(kù)有答案詳解
- 2026.05.01施行的中華人民共和國(guó)漁業(yè)法(2025修訂)課件
- 原始股認(rèn)購(gòu)協(xié)議書(shū)
- 嚴(yán)肅財(cái)經(jīng)紀(jì)律培訓(xùn)班課件
- 新課標(biāo)人教版中考物理專(zhuān)題訓(xùn)練集1-25專(zhuān)題附答案
- 新《治安管理處罰法》考試參考題庫(kù)500題(含各題型)
- 混凝土材料數(shù)據(jù)庫(kù)構(gòu)建-深度研究
評(píng)論
0/150
提交評(píng)論