對數(shù)據(jù)進(jìn)行聚類分析實(shí)驗(yàn)報(bào)告_第1頁
對數(shù)據(jù)進(jìn)行聚類分析實(shí)驗(yàn)報(bào)告_第2頁
對數(shù)據(jù)進(jìn)行聚類分析實(shí)驗(yàn)報(bào)告_第3頁
對數(shù)據(jù)進(jìn)行聚類分析實(shí)驗(yàn)報(bào)告_第4頁
對數(shù)據(jù)進(jìn)行聚類分析實(shí)驗(yàn)報(bào)告_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

對數(shù)據(jù)進(jìn)行聚類分析實(shí)驗(yàn)報(bào)告根本要求用FAMALE.TXT、MALE.TXT和/或test2.txt的數(shù)據(jù)作為本次實(shí)驗(yàn)使用的樣本集,利用C均值和分級(jí)聚類方法對樣本集進(jìn)行聚類分析,對結(jié)果進(jìn)行分析,從而加深對所學(xué)內(nèi)容的理解和感性認(rèn)識(shí)。實(shí)驗(yàn)要求把FAMALE.TXT和MALE.TXT兩個(gè)文件合并成一個(gè),同時(shí)采用身高和體重?cái)?shù)據(jù)作為特征,設(shè)類別數(shù)為2,利用C均值聚類方法對數(shù)據(jù)進(jìn)行聚類,并將聚類結(jié)果表示在二維平面上。嘗試不同初始值對此數(shù)據(jù)集是否會(huì)造成不同的結(jié)果。對1中的數(shù)據(jù)利用C均值聚類方法分別進(jìn)行兩類、三類、四類、五類聚類,畫出聚類指標(biāo)與類別數(shù)之間的關(guān)系曲線,探討是否可以確定出合理的類別數(shù)目。對1中的數(shù)據(jù)利用分級(jí)聚類方法進(jìn)行聚類,分析聚類結(jié)果,體會(huì)分級(jí)聚類方法。。利用test2.txt數(shù)據(jù)或者把test2.txt的數(shù)據(jù)與上述1中的數(shù)據(jù)合并在一起,重復(fù)上述實(shí)驗(yàn),考察結(jié)果是否有變化,對觀察到的現(xiàn)象進(jìn)行分析,寫出體會(huì)實(shí)驗(yàn)步驟及流程圖根據(jù)以上實(shí)驗(yàn)要求,本次試驗(yàn)我們將分為兩組:一、首先對FEMALE與MALE中數(shù)據(jù)組成的樣本按照上面要求用C均值法進(jìn)行聚類分析,然后對FEMALE、MALE、test2中數(shù)據(jù)組成的樣本集用C均值法進(jìn)行聚類分析,比擬二者結(jié)果。二、將上述兩個(gè)樣本用分即聚類方法進(jìn)行聚類,觀察聚類結(jié)果。并將兩種聚類結(jié)果進(jìn)行比擬。一、〔1〕、C均值算法思想C均值算法首先取定C個(gè)類別和選取C個(gè)初始聚類中心,按最小距離原那么將各模式分配到C類中的某一類,之后不斷地計(jì)算類心和調(diào)整各模式的類別,最終使各模式到其判屬類別中心的距離平方之和最小〔2〕、實(shí)驗(yàn)步驟第一步:確定類別數(shù)C,并選擇C個(gè)初始聚類中心。本次試驗(yàn),我們分別將C的值取為2和3。用的是憑經(jīng)驗(yàn)選擇代表點(diǎn)的方法。比方:在樣本數(shù)為N時(shí),分為兩類時(shí),取第1個(gè)點(diǎn)和第個(gè)點(diǎn)作為代表點(diǎn);分為三類時(shí),取第1、、個(gè)點(diǎn)作為代表點(diǎn);第二步:將待聚類的樣本集中的樣本逐個(gè)按最小距離規(guī)那么分劃給C個(gè)類中的某一類。第三步:計(jì)算重新聚類后的個(gè)各類心,即各類的均值向量。第四步:如果重新得到的類別的類心與上一次迭代的類心相等,那么結(jié)束迭代,否那么轉(zhuǎn)至第二步。第五步:迭代結(jié)束時(shí),換不同的初始值進(jìn)行試驗(yàn),將實(shí)驗(yàn)結(jié)果進(jìn)行比擬〔3〕、實(shí)驗(yàn)流程圖〔4〕、本次試驗(yàn)我們用的聚類指標(biāo)是誤差平方和聚類準(zhǔn)那么Je設(shè)是第聚類的樣本數(shù)目,是這些樣本的均值,那么把中得各樣本與均值間的誤差平方和對所有類相加后為:當(dāng)C取不同的值時(shí)各自算出它們的,進(jìn)行比擬。二、利用分級(jí)聚類方法進(jìn)行聚類1、分級(jí)聚類法思想:首先把全部樣本作為一類看做一類,然后根據(jù)一定的目標(biāo)函數(shù)進(jìn)行分解。2、步驟第一步:開始時(shí),將全部樣本當(dāng)做一類,第二類即為空集。第二步:將第一類中的所有樣本依次放入第二類,計(jì)算兩類樣本均值,,樣本數(shù)目,以及目標(biāo)函數(shù),比擬E值大小,選擇E值最大所對應(yīng)的樣本,將其歸入第二類。并記錄此時(shí)的E為E〔1〕第三步:將第一類中剩下樣本依次放入第二類中,按照上面運(yùn)算得出E值,并比擬E值大小,選擇E值最大所對應(yīng)的樣本,將其歸入第二類。并記錄此時(shí)的E為E〔2〕第三步:將新的兩類按照上面的方法繼續(xù)劃分,直到第i次迭代的E〔i〕<E〔i-1〕或者到達(dá)規(guī)定的迭代次數(shù)。3、實(shí)驗(yàn)流程圖實(shí)驗(yàn)結(jié)果=1\*ROMANI、1、用FAMALE.TXT和MALE.TXT中的數(shù)據(jù)組合起來作為樣本集:C=2時(shí)〔1〕、取第一個(gè)和第五十一個(gè)樣本作為初始聚類中心,得出的實(shí)驗(yàn)結(jié)果圖如下:得到結(jié)果是:點(diǎn)號(hào)表示的類別中樣本總數(shù)為61,星表示的類別中樣本總數(shù)為39。兩個(gè)聚類中心分別為:A〔163.5738,53.1541〕,B〔175.8974,68.2692〕2〕、取第二十五個(gè)和七十五個(gè)樣本作為初始聚類中心時(shí)得到的實(shí)驗(yàn)結(jié)果如下:得到結(jié)果是:點(diǎn)號(hào)表示的類別中樣本總數(shù)為61,星表示的類別中樣本總數(shù)為39。兩個(gè)聚類中心分別為:A〔163.5738,53.1541〕,B〔175.8974,68.2692〕進(jìn)行屢次試驗(yàn)發(fā)現(xiàn)取不同的初始聚類中心時(shí)實(shí)驗(yàn)結(jié)果相同。它們的=5.9707e+003但是,經(jīng)過后面的實(shí)驗(yàn)我們發(fā)現(xiàn),初始聚類中心選擇影響最后的聚類中心,其能保證優(yōu)化,而不能保證全局優(yōu)化,ISODATA在這一點(diǎn)比C-均化更好。下面是將男女樣本所代表的點(diǎn)分別畫到圖上可得下列圖:其中點(diǎn)表示的是女生樣本,圓圈表示的是男生樣本。其中,男生的樣本均值為〔173.9200,65.5020〕女生的樣本均值為〔162.8400,52.5960〕通過比擬兩幅圖,可以發(fā)現(xiàn),當(dāng)去C=2時(shí),對數(shù)據(jù)進(jìn)行聚類分析得到的聚類結(jié)果根本類似于男女生分類,他們的樣本均值相差不大,不過還是有一定差異。差異出現(xiàn)在一些身上下于1.70米的男生處。C=3時(shí)得到的聚類結(jié)果圖如下:最終的三個(gè)聚類中心:A〔159.2333,49.9333〕B〔168.8158,57.0105〕C〔176.4375,70.0156〕=3.9251e+003從圖中可以看出,當(dāng)劃分為三類時(shí),其結(jié)果可以看做按照身高與體重的比將樣本進(jìn)行聚類,身高體重比大,較大,小的分別為一類。C=4時(shí):得到的分來結(jié)果如下:得到的四個(gè)聚類中心為:A〔157.4286,49.2381〕,B〔164.7727,53.3545〕C〔170.4400,58.2640〕,D〔176.4375,70.0156〕=3.4318e+003C=5時(shí)得到的聚類結(jié)果如下:最終的五個(gè)聚類中心分別為:A〔158.1579,47.3684〕,B〔163.3913,54.4652〕C〔170.3462,58.1423〕,D〔176.0741,67.7593〕E〔178.4000,82.2000〕=2.6352e+003C=6時(shí)得到的聚類結(jié)果如下:最終的6個(gè)聚類中心分別為:A〔158.3462,49.8462〕B〔166.9259,54.5889〕C〔171.4737,60.8158〕D〔175.6842,68.1842〕E〔178.0000,80.6667〕F〔183.3333,66.6667〕=2.5607e+003畫出C值與之間的關(guān)系曲線如下:由圖可以看出,拐點(diǎn)離2較近,所以講此樣本集聚為二類最正確把test2.txt的數(shù)據(jù)與上述1中的數(shù)據(jù)合并在一起,重復(fù)上述實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如下:〔1〕、取第二十五個(gè)和第二百零一個(gè)個(gè)樣本作為初始聚類中心,得出的實(shí)驗(yàn)結(jié)果圖其中,A〔165.0479,53.6491〕,B〔176.4506,69.9378〕=3.2952e+004取第一百個(gè)和第三百個(gè)樣本作為初始聚類中心時(shí)得出結(jié)果與前面相同?!?〕、C=3A〔163.3438,51.8742〕,B〔174.5561,64.5024〕C〔178.8657,80.4776〕=2.0594e+004〔3〕、C=4時(shí):=1.6346e+004A〔159.8548,48.3145〕,B〔167.5567,56.6485〕C〔175.4783,65.7908〕,D〔179.3684,81.7368〕〔4〕C=5時(shí):=1.3575e+004A〔160.5732,50.0512〕,B〔170.0510,57.5020〕C〔175.3836,65.9452〕,D〔178.6429,75.7589)E〔179.6667,91.3889〕〔5〕、C=6時(shí)其中,=1.3018e+004A〔160.8427,50.6596〕B〔170.6296,55.1241〕C〔172.6381,62.9143〕D〔176.8488,76.8837〕E〔177.2955,68.0057〕F〔181.5952,89.1905〕畫出C值與之間的關(guān)系曲線如下與圖可知,拐點(diǎn)離2較近,所以認(rèn)為此時(shí)仍是將樣本集分為二類最正確〔4〕、將兩種樣本即進(jìn)行聚類后的樣本中心進(jìn)行比擬,如下表:樣本C以FEMALE和MALE中得數(shù)據(jù)作為樣本以FEMALE和MALE以及test2中的數(shù)據(jù)作為樣本2A〔163.5738,53.1541〕B〔175.8974,68.2692〕A〔165.0479,53.6491〕B〔176.4506,69.9378〕3A〔159.2333,49.9333〕B〔168.8158,57.0105〕C〔176.4375,70.0156〕A〔163.3438,51.8742〕B〔174.5561,64.5024〕C〔178.8657,80.4776〕4A〔157.4286,49.2381〕B〔164.7727,53.3545〕C〔170.4400,58.2640〕D〔176.4375,70.0156〕A〔159.8548,48.3145〕B〔167.5567,56.6485〕C〔175.4783,65.7908〕D〔179.3684,81.7368〕5A〔158.1579,47.3684〕B〔163.3913,54.4652〕C〔170.3462,58.1423〕D〔176.0741,67.7593〕E〔178.4000,82.2000〕A〔160.5732,50.0512〕B〔170.0510,57.5020〕C〔175.3836,65.9452〕D〔178.6429,75.7589)E〔179.6667,91.3889〕6A〔158.3462,49.8462〕B〔166.9259,54.5889〕C〔171.4737,60.8158〕D〔175.6842,68.1842〕E〔178.0000,80.6667〕F〔183.3333,66.6667〕A〔160.8427,50.6596〕B〔170.6296,55.1241〕C〔172.6381,62.9143〕D〔176.8488,76.8837〕E〔177.2955,68.0057〕F〔181.5952,89.1905〕從上表可以縱向比擬可以看出,C越大,即聚類數(shù)目越多,聚類之間差異越小,他們的聚類中心也越接近。橫向比擬用FEMALE,MALE中數(shù)據(jù)作為樣本和用FEMALE,MALE,test2中數(shù)據(jù)作為樣本時(shí),由于引入了新的樣本,可以發(fā)現(xiàn)后者的聚類中心比前者都稍大。但是它們的分布類似,變化不大。=2\*ROMANII、將兩個(gè)樣本分別用分級(jí)聚類方法進(jìn)行聚類,得出結(jié)果,并與C均值聚類法進(jìn)行比擬:對FEMALE與MALE中數(shù)據(jù)組成的樣本集進(jìn)行分級(jí)聚類:由圖可見,分級(jí)聚類法將樣本分為兩類,它們的聚類中心分別為A〔163.4667,53.0400〕B〔175.7500,68.0625〕將它與C=2時(shí)的C均值聚類結(jié)果進(jìn)行比擬,分別比擬它們的結(jié)果圖以及聚類中心,下面是它們的聚類中心比擬:聚類方法C均值聚類分級(jí)聚類聚類中心A〔163.5738,53.1541〕B〔175.8974,68.2692〕A〔163.4667,53.0400〕B〔175.7500,68.0625〕比擬發(fā)現(xiàn)它們的聚類結(jié)果很相似。2、對由MALE、MALE、test2中數(shù)據(jù)組成的樣本集進(jìn)行分級(jí)聚類:由圖可見,分級(jí)聚類法將樣本分為兩類,它們的聚類中心分別為A〔164.9819,53.6229〕,B〔176.4487,69.8868〕將它與C=2時(shí)的C均值聚類結(jié)果進(jìn)行比擬,分別比擬它們的結(jié)果圖以及聚類中心,下面是它們的聚類中心比擬:聚類方法C均值聚類分級(jí)聚類聚類中心A〔165.0479,53.6491〕B〔176.4506,69.9378〕A〔164.9819,53.6229〕B〔176.4487,69.8868〕比擬發(fā)現(xiàn)它們的聚類結(jié)果也很類似分析:比擬發(fā)現(xiàn)利用分級(jí)聚類方法與利用C均值聚類法時(shí)C取2時(shí)的聚類結(jié)果極其相似.心得體會(huì)通過本次試驗(yàn),我們隊(duì)C均值聚類法以及分級(jí)聚類法都有了較好的理解,并且在用MATLAB編程方面都有了很大進(jìn)步。局部代碼:C均值%C=2clc;clearall;[FHFW]=textread('C:\Users\xuyd\Desktop\homework\FEMALE.txt','%f%f');[MHMW]=textread('C:\Users\xuyd\Desktop\homework\MALE.txt','%f%f');FA=[FHFW];FA=FA';MA=[MHMW];MA=MA';fork=1:50NT(:,k)=FA(:,k);endfork=51:100NT(:,k)=MA(:,k-50);endz1=NT(:,1);z2=NT(:,51);fork=1:100a=z1,b=z2G1=zeros(2,100);G2=zeros(2,100);fori=1:100d1=sqrt((NT(1,i)-z1(1,1))^2+(NT(2,i)-z1(2,1))^2);d2=sqrt((NT(1,i)-z2(1,1))^2+(NT(2,i)-z2(2,1))^2);ifd1<d2G1(:,i)=NT(:,i);elseG2(:,i)=NT(:,i);endendG1(:,find(sum(abs(G1),1)==0))=[];G2(:,find(sum(abs(G2),1)==0))=[];z1=mean(G1,2);z2=mean(G2,2);ifisequal(a,z1)==1&&isequal(z2,b)==1breakendendz1,z2,G1,G2,size(G1,2),size(G2,2)fori=1:size(G1,2)x=G1(1,i);y=G1(2,i);plot(x,y,'G.');holdonendfori=1:size(G2,2)x=G2(1,i);y=G2(2,i);plot(x,y,'R*');holdonendplot(z1(1,1),z1(2,1),'B+')holdonplot(z2(1,1),z2(2,1),'B+')holdon分級(jí)聚類clc;clearall;[FHFW]=textread('C:\Users\xuyd\Desktop\homework\FEMALE.txt','%f%f');[MHMW]=textread('C:\Users\xuyd\Desktop\homework\MALE.txt','%f%f');FA=[FHFW];FA=FA';MA=[MHMW];MA=MA';fork=1:50NT(:,k)=FA(:,k);endfork=51:100NT(:,k)=MA(:,k-50);endG1=NT;G2=zeros(2,100);X1=mean(G1,2);X2=mean(G2,2);E=0;B=zeros(1,100);fork=1:100ifk==1g1=NT;elseg1=p1;endfori=1:101-kifi==1a=0;elsea=E;endG1(:,i)=[0;0];G2(:,k)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論