聚類分析例題_第1頁
聚類分析例題_第2頁
聚類分析例題_第3頁
聚類分析例題_第4頁
聚類分析例題_第5頁
已閱讀5頁,還剩9頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

聚類分析例題5?2由卩酒葡萄的等級劃分521葡萄酒的質(zhì)量分類由問題1中我們得知,第二組評酒員的的評價結果更為可信,所以我們通過第二組評酒員對于酒的評分做出處理。我們通過excel計算出每位評酒員對每支酒的總分,然后計算出每支酒的10個分數(shù)的平均值,作為總的對于這支酒的等級評價。通過國際釀酒工會對于葡萄酒的分級,以百分制標準評級,總共評出了六個級別(見表5)。等級特優(yōu)優(yōu)優(yōu)良良及格不及格分數(shù)95-10090-9480-8970-7960-690-59表5:葡萄酒等級表些在問題2的計算中,我們求出了各支酒的分數(shù),考慮到所有分數(shù)在區(qū)間[61?6,8L5]波動,以些原等級表分級,結果將會很模糊,不能分得比較清晰。為此我們需要進一步細化等級。為此我們重新細化出5個等級,為了方便計算,我們還對等級進行降序數(shù)字等級(見表6)°些等級偏優(yōu)偏優(yōu)良良中及格分數(shù)80-8475-7970-7465-6960-64數(shù)字等級51321些通過對數(shù)據(jù)的預處理,我們得到了一個新的矢于葡萄酒的分級表格(見表7):表7:各支葡萄酒的等級編號紅酒原等級1號2號3號4號號6號■^號6&1細化等級2-白酒779原等級細化等級7474.671.272.166.3657333編號紅酒原等級1號2號3號4號號6號■^號6&1細化等級2-白酒779原等級細化等級7474.671.272.166.365733332233228號9號10號□號號13號14號15號16號17號18號19號20號21號667&26&86166&36&^72.665.769974.565472.675.8722223222232375.875.675374^72380.479871472.473977.178.467380.376776.476.6792543322號/1?633/9?43423號77.13477.43424號71.53376.13425號6&22279.53426號723374.33327號71.533773428號79.634經(jīng)過整埋,我#L初步得到了對于匍萄酒田勺質(zhì)量的分1的表格??紤]到葡萄酒的質(zhì)量與釀酒葡萄間有比較之間的矢系,我們將保留葡萄酒質(zhì)量對于釀酒葡萄的影響,些些些些先單純從釀酒葡萄的理化指標對釀酒葡萄進行分類,然后在通過葡萄酒質(zhì)量對釀酒些些些些葡萄質(zhì)量的優(yōu)劣進一步進行劃分。5.2.2建立模型在通過釀酒葡萄的理化指標對釀酒葡萄分類的過程我們用到了聚類分析方法中的ward最小方差法,又叫做離差平方和法。聚類分析是研究分類問題的一種多元統(tǒng)計方法。所謂類,通俗地說,就是指相似元素的集合。為了將樣品進行分類,就需要研究樣品之間矢系。這里的最小方差法的基本思想就是將一個樣品看作P維空間的一個點,并在空間的定義距離,距離較近的點歸為一類;距離較遠的點歸為不同的類。面對現(xiàn)在的問題,我們不知道元素的分類,連要分成幾類都不知道。現(xiàn)在我們將用SAS系統(tǒng)里面的stepdisc和cluster過程完成判別分析和聚類分析,最終確定元素對象的分類問題。建立數(shù)據(jù)陣,具體數(shù)學表示為:「扎?伽X (5?2?1)乂\\\???X嘰式中,行向量x嚴『兀,”)表示第j個樣品;列向量Xj=(x\j,-,W,表示第j項指標。(i=l,2,n;j=l,2,-m)接下來我們將要對數(shù)據(jù)進行變化,以便于我們比較和消除綱號。在此我們用了使用最廣范的方法'ward最小方差法。其中用到了類間距離來進行比較,定義為:2二n疋一疋il2/(I/哄+1/耳)(5.2.2)Ward方法并類時總是使得并類導致的類內(nèi)離差平方和增量最小。系統(tǒng)聚類數(shù)的確定。在聚類分析中,系統(tǒng)聚類最終得到的一個聚類樹,如何確定類的個數(shù),這是一個十分困難但又必須解決的問題;因為分類本身就沒有一定標準,人們可以從不同的角度給出不同的分類。在實際應用中常使用下面幾種方法確定類的個數(shù)。由適當?shù)拈y值確定,此處閥值為Q-根據(jù)樣本的散點圖直觀的確定。當樣本所含指標只有2個或3個時,可運用散點圖直觀觀察。如果指標超過3個時,可用主成份法先綜合指標。根據(jù)統(tǒng)計量確定分類個數(shù)。在SAS中,提供了一些來自方差分析思想的統(tǒng)計量近似檢驗類個數(shù)如何選擇更合適。統(tǒng)計量:疋二l_s;/S;=S;/S;(5.2.3)其中,s;為分類數(shù)為k個數(shù)時的總類內(nèi)離差平方和,S;為所有樣品或變量的總離差平方和。F越大,說明類內(nèi)的離差平方和在總離差平方和中比例較小,也就是分為k個類的效果越好。顯然分類越多,每個類離差越小,疋越大,所以我們只能取k使得用足夠大,但k本身比較小,而且疋不再大幅度增加。半偏F統(tǒng)計量:在把類Q和類C,合并為下一水平的類時,定義半偏相矢:半偏F二Bu/T (5.2.4)其中以為合并類引起的類內(nèi)離差平方和的增量:ST為類C,的類內(nèi)離差平方和。半偏F用于評價單次合并效果,其值越大,說明上次合并效果越好。偽F統(tǒng)計量:(5.2.5)偽“統(tǒng)計量評價分為k個類的效果。偽F統(tǒng)計量越大,表達分為k個類越合理。通常取偽F統(tǒng)計量較大而類數(shù)小的聚類水平。偽尸統(tǒng)計量:廣二刃((S女+SJ/巾人+q-2)) (5.2.6)用此統(tǒng)計量評價合并類G和類q的效果,該值大說明合并的兩個類Q和類C,是很分開的,這個合并不成功,而應該去合并前的水平。

通過使用sas軟件的cluster過程和tree過程,可以求解分析出結果。5.2.3模型的求解與分析首先,我們利用附件2中白葡萄酒中釀酒葡萄的59個理化指標,通過聚類分析,把釀酒葡萄分成五類,得到初步的結果(見圖3):從圖中我們能夠直觀的看到把釀酒葡萄分為5大類,為了檢驗效果,我們通過判別分析檢驗原本的28種葡萄分類的結果,得到表&組號12概率0.組號12概率0.27270.12503450.33330.40001.000在誤差一欄我們看到,每一組的分類都存在或多或少的誤差,我們覺得這個結果是不滿意的為了進一步優(yōu)化方案以及簡化分析過程,我們利用逐步判別法對參與分類的因素進行逐步剔除,以達到減少噪聲干擾的目的,讓得到的結果更加合理和完善。通過逐步判別法,我們剔除了原本59個數(shù)據(jù)中的35個相矢不大,造成干擾的因素,剩下了24個因素。經(jīng)過剔除干擾項后,為了檢驗剔除后干擾項后的結果是否更加合理,我們重新對剩余的24個因素進行了聚類分析,做譜系聚類圖和判別分析。得到了新的結果(見表9):圖3:譜系聚類圖 圖4:優(yōu)化后的譜系聚類表9:優(yōu)化后的聚類分析部分結果(詳細見附錄)分類數(shù)樣品數(shù)半偏R偽F統(tǒng)計雖偽尸統(tǒng)計量640.01710.91547.69.1560.05000.86537.06.14110.06120.80432.917.33210.10320.70129.317.9270.16480.53630.1■10.01280.53620■30.1綜合個數(shù)據(jù)檢驗,把葡萄分為5個類別是比較合理的一種方案,為了檢驗與之前的差異我們得到了新的譜系聚 類圖 (見圖 4)

通過對比前后的兩圖,我們可以發(fā)現(xiàn),分類的結果除了組間的類別有點波動之外,整體的分組是沒有改變的。所以,我們第一步得到了優(yōu)化結果的可靠。但僅僅用圖說明是不夠的,為此我們通過判別分析法,通過具體數(shù)據(jù)來說明分析結果的可靠。組號12345概率000.166701.000表10:優(yōu)化后的判別分析表數(shù)據(jù)我們不難發(fā)現(xiàn),表中的錯誤只在第3組出現(xiàn)了0.1667的誤差,其他組是沒有存在誤差的。這個結果是比較令人滿意也令人信服的。由此,我們得到的結果是,我們此次對于白葡萄酒的釀酒葡萄進些些行的分類是合理可靠的。具體分類結果為:表11:白葡萄酒釀酒葡萄分類分類/組數(shù)組別A/共組Pl,P&P13,P16,P17,P18,P19,P22B/共組P14,P21,P23C/共組P2,P3,P4,P6,P7,P9,P11,P12D/共組PIO,P20,P25,P26E/共組P3,P5,P15,P24,P27,P28通過該組的成功檢驗,我們接下來將會對紅葡萄酒的釀酒葡萄進行同算法的分類。由于用到些些的算法與檢驗方法一樣,所以這里不再累贅,將直接輸出最后分組結果。部分詳細內(nèi)容見附錄。表12:紅葡萄酒釀酒葡萄的分類分類/組數(shù)組別A/共組Pl,P4,P5,P&P15,P17,P24B/共組P2,P7,P9,Pll,P19,P20,P22,P23C/共組PIO,P13,P14,P16,P25,P26,P27D/共組P6,P12,P18E/共組P3,P21分類完畢,接下來我們將利用矢于紅酒質(zhì)量的評分等級來對對應的葡萄進行評分,首些先應該說明的是,爛葡萄是不能釀出好酒,根據(jù)這個,我們可以客觀的說出一點,一般好的葡萄能釀出好的酒,可能釀酒過程會意外讓酒變質(zhì)導致酒變差,但好的酒由好的葡萄釀制出來是毫無疑問的。為此我們把對于酒的等級相當于對葡萄打分。每種葡萄分別得到分數(shù)S、/表示第i種葡萄。通過將每組的葡萄總分除以組內(nèi)總數(shù)得到的數(shù)據(jù),對葡萄進行分分類指標二工&/組內(nèi)數(shù)通過指標的具體分數(shù),我們就可以輕松對葡萄進行等級劃分,結果見表13:表13:對白葡萄酒和紅葡萄酒的釀酒葡萄評價分類有白葡萄酒釀酒葡萄得分E廠CD廠通過指標的具體分數(shù),我們就可以輕松對葡萄進行等級劃分,結果見表13:表13:對白葡萄酒和紅葡萄酒的釀酒葡萄評價分類有白葡萄酒釀酒葡萄得分E廠CD廠4.23.753.62紅葡萄酒釀酒葡萄得分等級特優(yōu)優(yōu)良好中~等級B,E良好procclusterdata=wgouttree二treemethod=wardcccpseudoprint=15;varal-a59;idnumber;run;proctreedata=treeout二newnclusters=5graphics;copyal?a59;idnumber;run;procstepdiscdataZ1new;classcluster;run;procdiscrimddtdZ1newoutstdt二newstdtmethod22normalpool=yeslistcrossvalidate;classcluster;priorsproportional;varal?a59;附錄四:第二小題,優(yōu)化后的數(shù)據(jù)運行程序procclusterdata=nwgouttree二treemethod二wardcccpseudoprint=15;varbl?b24;idnumber;run;proctreedata二treeout二newnclusters=5graphics;copybl-b24;idnumber;run;procstepdiscdata二new;classcluster;run;procdiscrimdataZ1newoutstat=newstatmethod=normalpool=yeslistcrossvalidate;classcluster;priorsproportionalvarbl?b24;run;附錄五:原判別分析表TUrofCtAcr-A.tiwsendPercentClassifiAJintoCLIATEETotolNdnterofObservationsandPercentClassifiedIntoCLUSTERFroTotolNdnterofObservationsandPercentClassifiedIntoCLUSTERFroRateU37EAPriors100.000.00O.Qfl0.000.000100.00100.00O.flO0.00O.Qfl0.0016.8?0.000.080.00O.flO100.900.0000100.000.000.000.000.00TotalII32.1439.2917.8610.710.00Priors0.285710.267140.214290.107U0.08571FrowCLUSTERErrorCcintTotal8100.0010100.006100.003100.00100.0028100.00EstimatesforCLUSTERTotal0.0714附錄六:優(yōu)化后的判別分析表

T2NCL一一ClustersJoined—FREQSPRSQRSQlOC2745342215CL21CL1750.0018.888982094.7.2447.277776655314p14P2320.00

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論