SAS學(xué)習(xí)系列35聚類分析報(bào)告_第1頁
SAS學(xué)習(xí)系列35聚類分析報(bào)告_第2頁
SAS學(xué)習(xí)系列35聚類分析報(bào)告_第3頁
SAS學(xué)習(xí)系列35聚類分析報(bào)告_第4頁
SAS學(xué)習(xí)系列35聚類分析報(bào)告_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

35. 聚類分析〔一〕概述甚至在事前連總共有幾類都不能確定的狀況下對數(shù)據(jù)進(jìn)展分類。類。,而在不同類里的這些對象傾向于不相像。依據(jù)這種相似性的不同定義,聚類分析也有不同的方法。聚類分析分為:對樣品的聚類,對變量的聚類。的一個點(diǎn),用某種原則規(guī)定類與類之間的距離,將距離近的點(diǎn)聚合成一類,距離遠(yuǎn)的點(diǎn)聚合成另一類。來?!捕吃硪?、距離和相像系數(shù)距離設(shè)有np個變量的數(shù)據(jù)如下:變量V變量V樣品1V2V?pX1x11x12?x1pX2x21x22x?2p?????Xxxx例如,X到X的閔科夫斯基距離定義為:nn1n2?np1pqqk1

dij |xikxjk|,1i,jnq=2時(shí)為歐幾里得距離;還有馬氏距離:d=(X-X)--1(X-X)ij i j i j?其中,X=(x, ,x),-1為n個樣品的p的協(xié)方差矩陣的逆?i i1 ip矩陣。綱的影響)距離選擇的根本原則:〔2〕氏距離。〔3〕比照分析,以確定最適宜的距離測度方法。相像系數(shù)從而得到“夾角余弦法”和“相關(guān)系數(shù)”兩種度量方法。1〕夾角余弦X=(x, ,x )和X作為 p維向量,按通常內(nèi)積中夾角的概i i1 ip j念來定義cij cosij

pxikxjkpxpxpik2x2jkk1k12〕相關(guān)系數(shù)(x x(x x)(x x)ik i jk j k1cij rij

p2 (xikxi) (xjkxj2 k1 k1≤明顯|c| 1,借助于相像系數(shù),可以定義變量之間的距離≤ijij例如,承受非相像測度距離為 d=1-|c|,或d2=1-r 2.ijij ij ij、類的特征、類間的距離類的定義≤ 給定某閾值T,①假設(shè)d T,對任意i,j G≤ ij②假設(shè)j∈Gdij)/(k-1)≤T,對任意i∈;或者ij③假設(shè)對任意i∈G,都存在j∈G使得d≤T;則稱G為一個類。條件從強(qiáng)到弱的挨次為:①②③ij類的特征設(shè)類設(shè)類G的元素為x, ?,x,m為G中樣品數(shù)。描述類的特征1m(1)均值或重心 有:Sm

A,其中A

(xx

)(xx)(3)

G G m1i1

i G i GTmDG (xixGxixG)tr(AG)DGmaxdijTm類間的距離

G iGiGGGi,jGij設(shè)G和G中分別有p和q個樣品,它們的重心分別記為xxp q p q(1)最短距離它不對類的外形加以限制,保證了對拉長和不規(guī)章類的檢測,例如(b)(c)(e)(d)之前去掉分布的尾部。最長距離(a).重心法距離Ward或類平均距離法的效果好。類平均距離G和G中全部兩個樣品對之間距離的平均。類平均距離法趨向于合并具有較p q小偏差的類,而且略微有點(diǎn)傾向與產(chǎn)生一樣方差的類。例如(a).(5)Ward最小方差法或Ward離差平方和距離Dw(p,q)DpqDpDqD表示類的直徑,也有

Dwp,qpq

pq xpxqxpxq假設(shè)樣品間的距離承受歐氏距離,上式可表示為Dp,qw pq

Dp,qpq該方法在每次合并類GG為G時(shí),總是選擇使得合并后的D(p,q)值最pqp q p+q w小的類G和G(最小方差法).合并后增加的最小方差D(p,q)除以合并后總p q w的離差平方和TSS的比值(即半偏R2)的統(tǒng)計(jì)意義是容易解釋的。Ward并類。例如(a).Ward方法對特別值也很敏感。(6)密度估量法例如(b).使用一種基于密度估量的的非相像測度d*來計(jì)算樣品x和xi jd*有三種不同的密度估量法:k最近鄰估量法、均勻核估量法、Wong混合法〔適用于大數(shù)據(jù)集而不適用于小數(shù)據(jù)集〕〔7〕兩階段密度估量法前,全部點(diǎn)能被安排到眾數(shù)類中去。在第一階段中,互不相交的眾數(shù)類被生成,只有在兩個類中至少有一個類中的樣品個數(shù)少于proccluster過程的選項(xiàng)“mode =值”時(shí)才能合并。在其次階段中,把前面形成的眾數(shù)類再按最短距離法譜系地合并〔某一類能夠完全地包含在別的類里,但在類之間不允許其他形式的重迭〕?!?〕最大似然法該方法除了偏向于生成不等大小的類外,與Ward最小方差法很相像。proccluster過程的偏度選項(xiàng)penalty=p值可用于調(diào)整偏向的程度。修正公式2p值。三、類的統(tǒng)計(jì)量〔1〕G的均方根標(biāo)準(zhǔn)差p即類內(nèi)的離差平方和〔定義為直徑〕2)R2R2用于評價(jià)每次合并成m個類時(shí)的聚類效果,R2越大說明聚類效果〔能被分開〕越好。R2=1,說明類被完全分開;當(dāng)全部樣品最終合并成一類時(shí),R2=0,說明類被完全混合在一起了,分不開。R2的值總是隨著分類個數(shù)的削減而變小。那么如何依據(jù)R2的值來確定全部樣品應(yīng)分為幾類最適宜呢?首先,最適宜分類的R的值不能太小,最好能到達(dá)0.7以上;其次,不能孤立地看合并后R值的大小,應(yīng)當(dāng)看R值的變化。類的合并總是使R2值R2值削減很多例如,從10類合并到5類時(shí),R2值每次削減大約在0.01到0.02之R20.854R20.3R2=0.8-0.3=0.55類是最適宜的。〔3〕R2統(tǒng)計(jì)量合并類G和類G為類G時(shí),可以用半偏R統(tǒng)計(jì)量評價(jià)這次合并的效p q m果:表示合并后類內(nèi)離差平方和的增量〔=上次R2-本次R2〕4〕F統(tǒng)計(jì)量其中,G為聚類的個數(shù),n為觀看總數(shù),v為觀看樣品的變量維數(shù)。該統(tǒng)計(jì)量用于評價(jià)分為G個聚類的效果。偽F值越大越表示這些觀看可顯著G個類。5〕偽t2統(tǒng)計(jì)量該統(tǒng)計(jì)量用以評價(jià)合并類G和類G為類G的效果。該值很大說明合p q mGGp q

四、類數(shù)確實(shí)定至今無太滿足的結(jié)果?!?〕一般狀況下,是看每個變量的R2值及全部變量的累積R2值,觀看R2值與聚類個數(shù)所畫的折線圖形,以此來推斷;〔2〕通過對數(shù)據(jù)的典型變量〔可用proccandisc典型判別分析選出〕做散點(diǎn)圖來推斷;〔3〕CCC;Ft2統(tǒng)計(jì)量;③立方聚類準(zhǔn)則CCC。在cluster過程中這三個準(zhǔn)則都被應(yīng)用和輸出,而在fastclus過程中僅偽FCCC統(tǒng)計(jì)量被應(yīng)用和輸出。建議查找這三種統(tǒng)計(jì)量之間的全都性,即:CCC統(tǒng)計(jì)量和F統(tǒng)計(jì)量的局t2t2〔三〕聚類的方法一、系統(tǒng)聚類法目前使用最多的一種方法。根本步驟是:〔1〕nn類〔括一個樣品〕;〔2〕計(jì)算各類間的距離〔8種距離見前文〕,合并;計(jì)算類與其余各類的距離,再將距離最近的兩類合并;重復(fù)上述的步驟,直到全部的樣品都聚為一類時(shí)為止。時(shí),則可以將其同時(shí)合并;②系統(tǒng)聚類法由于每次都計(jì)算距離,計(jì)算量〔內(nèi)存占用〕較大;Ward最小方差法,而最差的則為最短距離法。Ward的聚類方法為密度估量法。二、K均值聚類法〔動態(tài)聚類法〕根本步驟:〔1〕選擇KK個初始類;〔2〕失去樣品的類,重計(jì)算中心坐標(biāo);〔3〕重復(fù)步驟2,直到全部的樣品都不能再安排時(shí)為止〔到再也無法降低樣本與重心離差之和為止〕〔可用于檢測特別點(diǎn)procfastclus〕?!踩砈AS 實(shí)現(xiàn)SAS供給了5個聚類過程,即cluster,fastclus,modeclus、varclus和tree過程。cluster為系統(tǒng)聚類過程,可使用十一種聚類方法進(jìn)展譜系聚類,包括重Ward離差平方和法和歐氏平均距離法等。fastclus為動態(tài)聚類過程,使用K-均值算法查找不相交的聚類,適宜于大樣本分析,觀看值可多達(dá)10萬個。modeclus為動態(tài)聚類過程,使用非參數(shù)密度估量法查找不相交的聚類。varclus過程可用于系統(tǒng)或動態(tài)聚類,通過斜交多組重量分析對變量作“譜系的”和“不相交的”兩種聚類。cluster過程、fastclus過程和modeclus過程用于對樣品聚類,varclus過程用于對變量聚類。tree過程將cluster或varclus過程的聚類結(jié)果畫出樹形構(gòu)造圖或譜系圖。、PROCCLUSTER程步根本語法:procclusterdata=var;id變量;freq變量;copy變量列表;

<>;rmsstd;by變量列表;說明:〔1〕可選項(xiàng)outtree=輸出數(shù)據(jù)集供tree過程調(diào)用,用來輸出聚類結(jié)果的樹狀圖;method=算法ward〔離差平方和法〕,average〔類平均法〕,centroid〔重心法〕,complete〔最長距離法〕,single〔最短距離法〕,median〔中間距離法〕,density〔密度法〕,flexible〔可變類平均法〕,twostage〔兩階段密度法〕,eml〔最大似然法〕,mcquitty〔相像分析法〕;standard/std——對變量實(shí)施標(biāo)準(zhǔn)化;nonorm——阻擋距離被正態(tài)化成11nosquaremethod=average/centroid/median/ward方法中距離數(shù)據(jù)被平方;mode=n—n個成員,該選項(xiàng)只能在method=density/twostage時(shí)使用;penalty=p——指定用于method=eml中的懲罰系數(shù)〔p>0,p=2〕;trim=p——要求從分析中刪去那些概率密度估量較小的點(diǎn)〔0≤p<100,被當(dāng)作百分比〕,在method=ward/complete時(shí),由于類可能被特別值嚴(yán)峻地歪〔methodsingle〕;dim=n——用于method=density/twostage〔n≥1〕,假設(shè)是坐標(biāo)數(shù)據(jù),缺省值為變量個數(shù);假設(shè)是距離數(shù)據(jù),缺省值為1;hybrid——要求用Wong混合聚類方法,其中密度用k均值法的初始聚類分析中的均值計(jì)算得到。這個選項(xiàng)只能在method=density/twostage時(shí)使用;k=——指定k最近鄰估量法中近鄰的個數(shù)〔≤n觀看數(shù)r=n——指定均勻核密度估量法的支撐球半徑〔n>0〕;notie——阻擋cluster過程在聚類歷史過程中檢查每次產(chǎn)生的類間最小距離連結(jié)〔ties〕rsquare——輸出R2和半偏R2;rmsstd——輸出每一類的均方根標(biāo)準(zhǔn)差;ccc——輸出在均勻的原假設(shè)下推斷聚類分成幾類適宜的立方聚類準(zhǔn)則統(tǒng)計(jì)量ccc和近似期望值R2;同時(shí)輸出選項(xiàng)rsquare有關(guān)的R2和半偏R2;此選項(xiàng)不適合于method=single〔簡潔刪掉分布的結(jié)尾局部〕;pseudoF統(tǒng)計(jì)量〔PSF〕t2統(tǒng)計(jì)量〔PST2〕,當(dāng)分類數(shù)目不同時(shí),它們有不同的取值;simple——輸出簡潔統(tǒng)計(jì)數(shù);在輸出報(bào)表中,可以依據(jù)輸出的ccc、psf和pst2統(tǒng)計(jì)量確定多少分類數(shù)較適宜,當(dāng)ccc和psf值消滅峰值所對應(yīng)的分類數(shù)較適宜,而pst2值是在1較適宜。copy語句——指定輸入數(shù)據(jù)集中的一些變量拷貝到outtree=的輸出數(shù)據(jù)集中;rmsstd語句——當(dāng)輸入數(shù)據(jù)集中的坐標(biāo)數(shù)據(jù)代表類的均值時(shí),定義表示均freq語句中的變量協(xié)作使用率和死亡率數(shù)據(jù)〔C:\MyRawData\populations.txt進(jìn)展聚類分析例1用cluster和tree過程1976年74個國家每率和死亡率數(shù)據(jù)〔C:\MyRawData\populations.txt進(jìn)展聚類分析代碼:datavital;infile”C:\MyRawData\populations.txt”;title”CRUDEBIRTHANDDEATHRATESIN197;6”inputcountry$19.birthdeath;run;procprintdata=vital;run;procplotformchar=”||--” hpct=100vpct=100;plotdeath*birth/hpos=86vpos=26;run;procclusterdata=vitalout=tree method=averageprint=15cccpseudo;varbirthdeath;title”ClusterAnalysisofBirthandDeathRatesin74Countries”run;proctreedata=treenoprintout=outncl=8;copybirthdeath;run;procplotformchar=”||--” ;plotdeath*birth=cluster/hpos=86vpos=26;title2”PlotofClustersFormMethod=Average” ;run;運(yùn)行結(jié)果及說明:A表示此處有一個散點(diǎn),而B表示此處有二個重疊散點(diǎn),C表示此處有三死亡率的國家〔富有興旺的國家〕〔貧困落后的國家〕,中出身率和低死亡率的國家〔中等進(jìn)展中的國家〕百分比,和累計(jì)百分比。747473=74-1家聚為1類的聚類過程和統(tǒng)計(jì)數(shù)?!皃rint=15”,聚類數(shù)列只輸出顯示聚類成15類后各合并過程;12obn表示是原始樣品中的第n號樣品,標(biāo)有cln表示是在上面聚類過程中已經(jīng)聚成的第n類;例如,第14類〔聚類數(shù)=14〕由前面形成的第20舊類〔cl20〕和原始樣品的第8號〔ob41〕合并產(chǎn)生,共有4個〔freq=4〕原始樣品;同時(shí)也可求出前面形成的cl20舊類有4-1=3個原始樣品;最終由舊的cl2類和cl3類合并形成1類,其中cl2類由cl4類和cl5類合并,cl3類由cl6類和cl14類合并。頻數(shù)列為類中所含的樣品數(shù);半偏R,表示每一次合并對信息的損失程度;R2,表示累計(jì)聚類結(jié)果;近似期望R2為在均勻零假設(shè)下近似期望的R2;ccc、psf、psf2列為3個推斷分成幾類較適宜的統(tǒng)計(jì)量;NormRMSDist列為距離被正態(tài)化后兩樣品或類間的平均距離;Tie〔連接〕列里用T來指出最小距離的一個連結(jié),而空白說明沒有連結(jié);“out=treetree數(shù)據(jù)集中。關(guān)于如何選擇適宜的聚類數(shù)。主要方法是查看“三次聚類準(zhǔn)則值CCC”nclFPSFt2值PST2”在ncl聚類數(shù)為多少時(shí)到達(dá)峰值。同時(shí)可以通過再合并成類時(shí)R2值的削減最多〔即每一次合并時(shí)信息的損失程度“半偏 R2值”最大〕來驗(yàn)證,還可以直接通過樹狀圖打算分類數(shù)。通常CCC、PSF、PST2值在不同的ncl處有多處峰值,為便于比較和觀測,將CCC、PSF和PST2統(tǒng)計(jì)量按聚類數(shù)大小挨次連接成曲線〔則必需先對tree數(shù)據(jù)集中表示聚類數(shù)的字段_ncl_進(jìn)展排序〕,在同一張圖中繪制相datavital;infile”C:\MyRawData\populations.txt”;inputcountry$19.birthdeath;run;procclusterdata=vitalout=tree method=averageprint=15cccpseudo;varbirthdeath;title”ClusterAnalysisofBirthandDeathRatesin74Countries”run;procprintdata=tree;title”tree”;run;procsortdata=tree;by_ncl_;goptionsreset=globalgunit=pctcback=whiteborderhtitle=6htext=3ftext=swissbcolors=(back);procgplotdata=tree;plot_ccc_*_ncl_/ haxis=axis1vaxis=axis2;plot2_psf_*_ncl__pst2_*_ncl_/

vaxis=axis3overlay;w=1.5;symbol1i=join v=”C” l=3h=2.5 w=1.5;symbol2i=join v=”F” l=1h=2.5 w=1.5;symbol3i=join v=”T” l=1h=2.5

axis1label=(”NumberofClusters”)order =(1to 15 by1);axis2label=(”CCC”)order=(0to6by0.5);axis3label=(”PSFandPST2”)order=(0to300by25);title2“Plotof_CCC_*_NCL_.Symbolusedis”C”“;title3“Plotof_PSF_*_NCL_.Symbolusedis”F”“;title4run;“Plotof_PST2_*_NCL_.Symbolusedis”T”“;運(yùn)行結(jié)果:CCCncl=2,4,8,12ncl=8時(shí)更陡些;psfncl=3,8,12F數(shù),但ncl=8時(shí)更陡些;pst2在ncl=5,9,13處有峰值,通常偽t2統(tǒng)計(jì)量認(rèn)為取再減1的分類較t大偽t2統(tǒng)計(jì)量,所以依據(jù)偽t24,8,12;R212110.003198,從8類合并成70.009841,這項(xiàng)指3210.096203R22,3,8,12類;2,3,4,8類;742348128性能。注:完全分開的球狀類,適合用average〔類平均法〕;沒有完全分開的球狀類,適合用ward〔離差平方和法〕;大小和離散程度不等的多元正態(tài)類,適合用em〔l最大似然法〕;拉長的多元正態(tài)類,適合用twostage,k=10〔兩階段密度法〕;中心一樣大小不等的圓環(huán)類,適合用single〔最短距離法〕。二、PROCFASTCLUS程步選擇“分散點(diǎn)”,依據(jù)距離接近的原則歸點(diǎn)”個數(shù),及“分散點(diǎn)”之間的必需分隔開的最小距離。留意:fastclus過程對特別點(diǎn)很敏感,通常會把特別點(diǎn)安排為單獨(dú)的一個類,因此也是檢測特別點(diǎn)的有效過程。根本語法:procfastclusdata=var;id變量;freq變量;weight變量;

>;by變量列表;可選項(xiàng):seed=輸入數(shù)據(jù)集——指定該數(shù)據(jù)集作為初始“分散點(diǎn)”;mean=輸出數(shù)out=輸出數(shù)據(jù)集——包含原始數(shù)據(jù)和分類標(biāo)志的聚類結(jié)果;maxclusters/maxc=n——指定允許的最大聚類數(shù)〔默認(rèn)為100〕;radius=t——為選擇的“分散點(diǎn)”指定最小距離準(zhǔn)則;當(dāng)一個tt=0t〔留意,必需規(guī)定maxclusters=或radius=中的一個〕;replace=full/part/none/random——指定“分散點(diǎn)”的替換方式;默認(rèn)為full〔用統(tǒng)計(jì)方法替換〕;partnone為制止“分散點(diǎn)”的替換;random為從完整的觀察樣本中隨機(jī)地選擇一組樣本作為初始“分散點(diǎn)driftconvergec/conv=c——指定收斂的推斷準(zhǔn)則,c≥,默認(rèn)為0.02.當(dāng)c值時(shí),循環(huán)過程完畢;maxiter=n——指定重計(jì)算“分散點(diǎn)”所需的最大迭代次數(shù),默認(rèn)為1;strict=s——當(dāng)一個觀看同其最近“分散點(diǎn)”之間的距離大于s值時(shí),此觀看不歸入此類;distance——輸出類均值之間的距離;listid最終“分散點(diǎn)”之間的距離;留意:在承受fastclus過程之前,假設(shè)變量值的單位不全都則必需對變量預(yù)先用standard過程轉(zhuǎn)換成標(biāo)準(zhǔn)分布,例如procstandardmean=0std=1out=abc;varx1x2;或由factor過程產(chǎn)生因子得分,然后由fastclus過程加以聚類〔weight〕。三、PROCVARCLUS程步VARCLUS過程可用來作為變量壓縮的方法。對于含有很多變量的變重要。VARCLUS程生成的輸出數(shù)據(jù)集,可由SCORE過程計(jì)算出每類的得分。最小,或者同其次主成份有關(guān)的特征值為最大;關(guān)系數(shù)最大;重量所解釋的方差最大〔可能要求保持譜系構(gòu)造〕〔1,則過程停頓〕。根本語法:procvarclusdata=var變量列表;partial變量列表;seed變量列表;freq;weight;by變量列表;

>;可選項(xiàng):outstat=輸出數(shù)據(jù)集——包含均值、標(biāo)準(zhǔn)差、相關(guān)系數(shù)、類得分系數(shù)和聚類構(gòu)造;outtree=tree過程調(diào)用;minc=n——最小聚類個數(shù)〔默認(rèn)為l〕;maxc=n——最大聚類個數(shù);maxeigen=n——規(guī)定每一類中其次特征值所允許的最大值;percent=n——指定類重量必需解釋的方差百分比;centroid——使用重心成份法而不是主成份法;maxiter=n——規(guī)定在交替最小二乘法階段中的最大迭代次數(shù)。maxsearch=n——指定在搜尋階段最大迭代次數(shù);cov——用協(xié)方差矩陣聚類;hi——要求在不同層次的類構(gòu)成譜系聚類構(gòu)造;initial=group/input/random/seed——規(guī)定初始化類的方法;corr——輸出相關(guān)系數(shù);simple——輸出均值和標(biāo)準(zhǔn)差。short——不輸出類構(gòu)造、得分系數(shù)和類間相關(guān)陣;summary——只輸出最終的匯總表;trace——列出在迭代過程中每個變量所歸入的類。四、PROCTREE程步該過程利用CLUSTER過程和VARCLUS過程生成的數(shù)據(jù)集來繪制樹狀構(gòu)造圖〔可以按垂直或水平方向輸出〕TREE過程可以把輸入數(shù)據(jù)集中的任何數(shù)值變量都能夠用來規(guī)定這些類的以標(biāo)識在這個樹里指定水平上不相交的類。根本語法:proctreedata

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論