版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
統(tǒng)計分析聚類分析第一頁,共五十四頁,2022年,8月28日§10聚類分析(ClusterAnalysis)[引例10-1]第二頁,共五十四頁,2022年,8月28日§10聚類分析(ClusterAnalysis)§10.1概述§10.2統(tǒng)計量§10.3系統(tǒng)聚類(層次聚類)§10.4快速聚類第三頁,共五十四頁,2022年,8月28日§10.1概述問題的提出基本思想主要步驟基本原則主要分類§10.1概述第四頁,共五十四頁,2022年,8月28日§10.1概述問題的提出
聚類分析又稱群分析、點(diǎn)群分析、簇群分析等,是研究分類問題(樣本或指標(biāo))的一種多元統(tǒng)計方法。與其它多元統(tǒng)計分析方法相比,聚類分析方法比較粗糙,理論上尚不完善,目前正處于發(fā)展階段。但由于這種方法能解決許多實(shí)際問題,應(yīng)用比較方便,因此越來越受到人們的重視。
第五頁,共五十四頁,2022年,8月28日§10.1概述問題的提出
第六頁,共五十四頁,2022年,8月28日基本思想假定研究對象之間存在不同程度的相似性(親疏程度)。根據(jù)觀測樣本,找出并計算一些能夠度量相似程度的統(tǒng)計量(相似系數(shù)、相關(guān)系數(shù)、距離等)。按照相似性統(tǒng)計量,將相似程度大的聚合到一類,關(guān)系疏遠(yuǎn)的聚合到另一類,直到把所有樣本都聚合完畢,形成一個由小到大的分類系統(tǒng)。最后將分類系統(tǒng)直觀地用圖形表示出來,即譜系圖?!?0.1概述第七頁,共五十四頁,2022年,8月28日主要分類R型聚類分析對變量進(jìn)行聚類分析(比較:主成分、公因子)Q型聚類分析對樣本進(jìn)行聚類分析(比較:主成分得分、因子得分)
§10.1概述第八頁,共五十四頁,2022年,8月28日主要分類系統(tǒng)聚類(hierarchicalcluster)不指定最終的類數(shù),結(jié)論將在聚類過程中尋求,這種聚類稱為系統(tǒng)聚類可以對變量和樣本進(jìn)行聚類分析快速聚類(K-meanscluster)事先指定用于聚類分析的類數(shù)只對樣本進(jìn)行聚類分析,適合大樣本數(shù)據(jù)§10.1概述第九頁,共五十四頁,2022年,8月28日
統(tǒng)計量為了將樣本(或變量)進(jìn)行分類,需要研究其關(guān)系。目前用得最多的方法有兩個:一種方法是用相似系數(shù),比較相似的樣本歸為一類,不怎么相似的樣本歸為不同的類。另一種方法是將一個樣本看作P維空間的一個點(diǎn),并在空間定義距離,距離越近的點(diǎn)歸為一類,距離較遠(yuǎn)的點(diǎn)歸為不同的類。對樣本進(jìn)行聚類(Q型聚類),常用的統(tǒng)計量為距離;對變量進(jìn)行聚類(R型聚類),常用的統(tǒng)計量為相似系數(shù)?!?0.2統(tǒng)計量第十頁,共五十四頁,2022年,8月28日
相似系數(shù)是指衡量全部樣本或全部變量中任何兩部分相似程度的指標(biāo)。主要有內(nèi)積系數(shù)、匹配系數(shù)等幾項(xiàng)指標(biāo),其中內(nèi)積系數(shù)(innerproductcoefficient)是普通應(yīng)用于數(shù)量數(shù)據(jù)的相似性指標(biāo)。兩個同維向量與的各分量依次相乘再相加,稱為兩向量的內(nèi)積(innerproduct)。內(nèi)積的數(shù)值可以作為一種反映兩向量相似程度的指標(biāo),稱為相似系數(shù)。統(tǒng)計量-相似系數(shù)
相似系數(shù)(similaritycoefficient)§10.2統(tǒng)計量第十一頁,共五十四頁,2022年,8月28日為了消除量綱的影響,對內(nèi)積進(jìn)行模標(biāo)準(zhǔn)化處理,經(jīng)過模標(biāo)準(zhǔn)化處理后的內(nèi)積正好是兩個向量在原點(diǎn)處的夾角余弦。
統(tǒng)計量-相似系數(shù)
夾角余弦(Cosine)§10.2統(tǒng)計量第十二頁,共五十四頁,2022年,8月28日為了消除量綱的影響,對原始數(shù)據(jù)進(jìn)行離差標(biāo)準(zhǔn)化處理,經(jīng)過離差標(biāo)準(zhǔn)化處理后的內(nèi)積正好是兩個向量的相關(guān)系數(shù)。
統(tǒng)計量-相似系數(shù)相關(guān)系數(shù)(Correlationcoefficient)§10.2統(tǒng)計量第十三頁,共五十四頁,2022年,8月28日
計算任何兩個樣本(指標(biāo))與之間的相關(guān)系數(shù),其值越大表示樣本(指標(biāo))間接近程度越大,值越小表示接近程度越小。
可以根據(jù)相似系數(shù)矩陣對樣本(指標(biāo))進(jìn)行分類。
統(tǒng)計量-相似系數(shù)
相關(guān)系數(shù)矩陣§10.2統(tǒng)計量第十四頁,共五十四頁,2022年,8月28日統(tǒng)計量-相似系數(shù)§10.2統(tǒng)計量第十五頁,共五十四頁,2022年,8月28日距離實(shí)質(zhì)上反映的是兩個向量相異的指標(biāo),它與相似是互補(bǔ)的概念。距離系數(shù)的種類很多,但都有一個共同的特征,即當(dāng)兩個向量完全相同時取最小值,完全不同時取最大值。統(tǒng)計量-距離
距離§10.2統(tǒng)計量第十六頁,共五十四頁,2022年,8月28日
點(diǎn)與點(diǎn)之間的距離:把每一個樣本視為p維空間中的一個點(diǎn),則兩個樣本之間的距離可以定義為p維空間中兩個點(diǎn)之間的距離。
類與類之間的距離:類間距離是基于點(diǎn)間距離定義的,比如兩類之間最近點(diǎn)之間的距離可以作為這兩類之間的距離,也可以用兩類中最遠(yuǎn)點(diǎn)之間的距離或各類的中心之間的距離來作為類間距離。如果每一類都由一個點(diǎn)組成,那么點(diǎn)間的距離就是類間距離。統(tǒng)計量-距離
距離§10.2統(tǒng)計量第十七頁,共五十四頁,2022年,8月28日統(tǒng)計量-距離
明氏距離(Minkowskidistance)第i個樣本與第j個樣本間的明氏距離為:絕對值距離(absolutevaluedistance)q=1時§10.2統(tǒng)計量第十八頁,共五十四頁,2022年,8月28日統(tǒng)計量-距離
歐氏距離(Eculideandistance)q=2時切比雪夫離(Chebychevdistance)§10.2統(tǒng)計量歐氏距離是應(yīng)用最廣泛的一種距離系數(shù)。第十九頁,共五十四頁,2022年,8月28日統(tǒng)計量-距離
馬氏距離(Mahalanobisdistance)設(shè)樣本的協(xié)差陣為S,其逆陣為S-1,則第i樣本與第j樣本間的馬氏距離為:§10.2統(tǒng)計量第二十頁,共五十四頁,2022年,8月28日統(tǒng)計量-距離§10.2統(tǒng)計量第二十一頁,共五十四頁,2022年,8月28日類與類之間的距離
最短距離設(shè)類Gp與類Gq中兩個元素之間的最短距離為Gp與類Gq之間的距離最長距離設(shè)類Gp與類Gq中兩個元素之間的最長距離為Gp與類Gq之間的距離§10.2統(tǒng)計量第二十二頁,共五十四頁,2022年,8月28日類與類之間的距離
重心距離設(shè)類Gp與類Gq中兩個重心之間的距離為Gp與類Gq之間的距離類平均距離設(shè)類Gp與類Gq中任意兩個元素之間距離的平均值為Gp與類Gq之間的距離§10.2統(tǒng)計量第二十三頁,共五十四頁,2022年,8月28日系統(tǒng)聚類先將每樣本(變量)看成一類,然后定義樣本(變量)間的距離(或相似系數(shù),在SPSS軟件中把相似系數(shù)也看成是一種距離系數(shù))和類與類間的距離。選擇距離最小的兩類將其合并成一新類,再按類間距離的定義計算新類與其它類的距離,再行合并,直至所有樣本都聚為一類為止。根據(jù)一定的標(biāo)準(zhǔn)確定類的個數(shù)?!?0.3系統(tǒng)聚類第二十四頁,共五十四頁,2022年,8月28日聚類方法①“Between-groupslinkage”類間平均法,當(dāng)兩類之間所有樣本之間距離的平均值最小時,這兩類可以合并為一類。②“Within-groupslinkage”類內(nèi)平均法,當(dāng)合并后所有樣本的距離的平均值最小時,這兩類可以合并為一類。③“Nearestneighbor”最短距離法,當(dāng)兩類最近樣本之間的距離最小時,這兩類可以合并為一類。④“Furthestneighbor”最長距離法,當(dāng)兩類最遠(yuǎn)樣本之間的距離最小時,這兩類可以合并為一類。⑤“Centroidclustering”重心法,當(dāng)兩類重心距離最小時,這兩類可以合并為一類。⑥“Medianclustering”中心法,當(dāng)兩類中心距離最小時,這兩類可以合并為一類。⑦“Ward‘smethod”離差平方和法,當(dāng)合并后類內(nèi)部各個樣本距離(歐氏距離)的離差平方和最小時,這兩類可合并為一類?!?0.3系統(tǒng)聚類第二十五頁,共五十四頁,2022年,8月28日聚類方法§10.3系統(tǒng)聚類第二十六頁,共五十四頁,2022年,8月28日類的個數(shù)的確定根據(jù)譜系圖確定分類個數(shù)的準(zhǔn)則:各類間的距離必須較大;類中包含的元素不要太多;類的個數(shù)必須符合實(shí)際應(yīng)用;如果采用幾種不同的聚類方法處理,則在各種聚類圖中應(yīng)該發(fā)現(xiàn)相同的類。
§10.3系統(tǒng)聚類法第二十七頁,共五十四頁,2022年,8月28日SPSS軟件實(shí)現(xiàn)§10.3系統(tǒng)聚類法選擇對變量進(jìn)行聚類第二十八頁,共五十四頁,2022年,8月28日SPSS軟件實(shí)現(xiàn)§10.3系統(tǒng)聚類法對原始數(shù)據(jù)進(jìn)行離差標(biāo)準(zhǔn)化處理;采用相關(guān)系數(shù)表征變量之間的相似程度;采用離差平方和最小的方法計算類與類之間的距離。第二十九頁,共五十四頁,2022年,8月28日SPSS軟件實(shí)現(xiàn)結(jié)果分析-數(shù)據(jù)信息§10.3系統(tǒng)聚類法第三十頁,共五十四頁,2022年,8月28日SPSS軟件實(shí)現(xiàn)結(jié)果分析-相關(guān)系數(shù)矩陣§10.3系統(tǒng)聚類法第三十一頁,共五十四頁,2022年,8月28日SPSS軟件實(shí)現(xiàn)結(jié)果分析-聚類凝聚過程表§10.3系統(tǒng)聚類法Stage列出步驟序號,ClusterCombined欄中列出了合并的兩個類的序號,Nextstage欄是合并的新類再次出現(xiàn)的步驟序號。第三十二頁,共五十四頁,2022年,8月28日SPSS軟件實(shí)現(xiàn)結(jié)果分析-“Icicle”冰柱圖§10.3系統(tǒng)聚類法第三十三頁,共五十四頁,2022年,8月28日SPSS軟件實(shí)現(xiàn)對樣本進(jìn)行聚類數(shù)據(jù)標(biāo)準(zhǔn)化方法:離差標(biāo)準(zhǔn)化(Zscore法)點(diǎn)與點(diǎn)間距離的計算:歐氏距離類與類間距離的計算:“Ward'smethod”離差平方和法§10.3系統(tǒng)聚類法第三十四頁,共五十四頁,2022年,8月28日SPSS軟件實(shí)現(xiàn)對樣本進(jìn)行聚類§10.3系統(tǒng)聚類法第三十五頁,共五十四頁,2022年,8月28日SPSS軟件實(shí)現(xiàn)對樣本進(jìn)行主成分聚類主成分提取方法:累積方差貢獻(xiàn)率>85%(第八章分析結(jié)果)數(shù)據(jù)標(biāo)準(zhǔn)化方法:離差標(biāo)準(zhǔn)化(Zscore法)點(diǎn)與點(diǎn)間距離的計算:歐氏距離類與類間距離的計算:“Ward'smethod”離差平方和法§10.3系統(tǒng)聚類法第三十六頁,共五十四頁,2022年,8月28日SPSS軟件實(shí)現(xiàn)§10.3系統(tǒng)聚類法第三十七頁,共五十四頁,2022年,8月28日SPSS軟件實(shí)現(xiàn)對樣本進(jìn)行因子聚類因子提取方法:主成分法、累積方差貢獻(xiàn)率>85%、方差最大正交因子旋轉(zhuǎn)數(shù)據(jù)標(biāo)準(zhǔn)化方法:離差標(biāo)準(zhǔn)化(Zscore法)點(diǎn)與點(diǎn)間距離的計算:歐氏距離類與類間距離的計算:“Ward'smethod”離差平方和法§10.3系統(tǒng)聚類法第三十八頁,共五十四頁,2022年,8月28日SPSS軟件實(shí)現(xiàn)對樣本進(jìn)行因子聚類§10.3系統(tǒng)聚類法第三十九頁,共五十四頁,2022年,8月28日SPSS軟件實(shí)現(xiàn)§10.3系統(tǒng)聚類法CLU3-1是全變量聚類結(jié)果;CLU3-2是主成分聚類結(jié)果;CLU3-2是因子聚類結(jié)果第四十頁,共五十四頁,2022年,8月28日SPSS軟件實(shí)現(xiàn)§10.3系統(tǒng)聚類法Friedman檢驗(yàn)表明:全變量聚類結(jié)果、主成分聚類結(jié)果、因子聚類結(jié)果存在顯著性差異Wilcoxom檢驗(yàn)表明:全變量聚類結(jié)果與主成分聚類結(jié)果、因子聚類結(jié)果存在顯著性差異,但主成分與因子聚類結(jié)果無顯著性差異。第四十一頁,共五十四頁,2022年,8月28日
快速聚類分析的基本思想在快速聚類過程中,參與聚類分析的變量必須是數(shù)值型變量,分類數(shù)必須大于等于2,且小于等于觀測數(shù)。一般情況下,還指定一個標(biāo)識變量來標(biāo)明觀測的特征,以便于清楚地表明各觀測的所屬類??焖倬垲愡^程始終遵照所有樣本空間的點(diǎn)與這幾個類中心的距離取最小值原則,進(jìn)行反復(fù)的迭代計算,最終將各個樣本分配到各個類中心所在的類,迭代計算將停止??焖倬垲愔粚颖具M(jìn)行聚類。特別合適大樣本聚類?!?0.4快速聚類法第四十二頁,共五十四頁,2022年,8月28日SPSS軟件實(shí)現(xiàn)§10.4快速聚類法第四十三頁,共五十四頁,2022年,8月28日SPSS軟件實(shí)現(xiàn)從源變量列表中選擇需要聚類分析的變量選擇聚類對象和聚類數(shù)系統(tǒng)默認(rèn)的聚類數(shù)為2§10.4快速聚類法第四十四頁,共五十四頁,2022年,8月28日SPSS軟件實(shí)現(xiàn)從源變量列表中選擇需要聚類分析的變量選擇聚類方法Iterateandclassify:表示在迭代過程中不斷地更新聚類中心;Classifyonly:表示用初始聚類中心對觀測量進(jìn)行聚類,聚類中心不變§10.4快速聚類法第四十五頁,共五十四頁,2022年,8月28日SPSS軟件實(shí)現(xiàn)從源變量列表中選擇需要聚類分析的變量選擇聚類方法Readinitialfrom:用來指定數(shù)據(jù)文件來源,表明所分析的作為凝聚點(diǎn)的觀測來自哪一個文件;Writefinalas:用來把聚類過程凝聚點(diǎn)的最終結(jié)果保存到指定的數(shù)據(jù)文件里?!?0.4快速聚類法第四十六頁,共五十四頁,2022年,8月28日SPSS軟件實(shí)現(xiàn)Iterate迭代對話框MaximumIteration:輸入一個整數(shù)限定迭代步數(shù),系統(tǒng)默認(rèn)值為10;ConvergenceCriterion:輸入一個不超過1的正數(shù)作為判定迭代收斂的標(biāo)準(zhǔn)。缺省的收斂標(biāo)準(zhǔn)值為0.02,表示當(dāng)兩次迭代計算的聚心之間距離的最大改變量小于初始聚心間最小距離的2%時終止迭代。§10.4快速聚類法第四十七頁,共五十四頁,2022年,8月28日SPSS軟件實(shí)現(xiàn)Iterate迭代對話框Clustermembership:觀測量的類別;Distancefromclustercenter:各觀測量與所屬類聚心之間的歐氏距離?!?0.4快速聚類法第四十八頁,共五十四頁,2022年,8月28日SPSS軟件實(shí)現(xiàn)Options選擇對話框Initialclustercenters:輸出初始聚心表,列出每一類中變量均值的初始估計;ANOVAtable:輸出方差分析表,這里F檢驗(yàn)簡單,并沒有詳細(xì)解釋檢驗(yàn)的各種概率的含義。Cl
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 微水泥施工流程的詳細(xì)步驟
- 燈具廠人力資源績效面談方案
- 鋁及鋁合金熔鑄工安全培訓(xùn)強(qiáng)化考核試卷含答案
- 三烷氧基硅烷生產(chǎn)工安全生產(chǎn)意識評優(yōu)考核試卷含答案
- 熔析爐工崗前安全檢查考核試卷含答案
- 糧食經(jīng)紀(jì)人風(fēng)險識別考核試卷含答案
- 選煤工安全應(yīng)急能力考核試卷含答案
- 2025-2030醫(yī)療機(jī)器人制造行業(yè)市場競爭分析及發(fā)展策略研究分析報告
- 2025-2030醫(yī)療康復(fù)器械行業(yè)市場供需分析技術(shù)創(chuàng)新競爭發(fā)展評估研究
- 2025-2030醫(yī)療廢物處理行業(yè)政策扶持與技術(shù)創(chuàng)新研究深度報告
- DB33T 2256-2020 大棚草莓生產(chǎn)技術(shù)規(guī)程
- 《建設(shè)工程造價咨詢服務(wù)工時標(biāo)準(zhǔn)(房屋建筑工程)》
- 工程(項(xiàng)目)投資合作協(xié)議書樣本
- 10s管理成果匯報
- 半導(dǎo)體技術(shù)合作開發(fā)合同樣式
- 茜草素的生化合成與調(diào)節(jié)
- 制程PQE述職報告
- 成人呼吸支持治療器械相關(guān)壓力性損傷的預(yù)防
- 2023年江蘇省五年制專轉(zhuǎn)本英語統(tǒng)考真題(試卷+答案)
- 設(shè)備完好標(biāo)準(zhǔn)
- 三星-SHS-P718-指紋鎖使用說明書
評論
0/150
提交評論