版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第五章第二節(jié)一、類間距離二、類間距離的遞推公式三、譜系聚類法的步驟譜系聚類法四、譜系聚類法的統(tǒng)計(jì)量11/17/2022第五章第二節(jié)一、類間距離二、類間距離的遞推公式三、譜系聚則其均值為若中有樣品一、類間距離以i,j分別表示樣品以表示i,j的距離分別表示兩個(gè)類,它們分別含有個(gè)樣品.稱其為該類的重心。由于類的形式和形狀多種多樣,所以類與類之間的距離有多種定義與計(jì)算方法。下面我們介紹類間距離的定義。11/17/2022則其均值為若中有樣品一、類間距離以i,j分別表示樣品以表示i類與之間的距離記為(1)最短距離即用兩類中樣品之間的距離最短者作為兩類距離(2)最長距離即用兩類中樣品之間的距離最長者作為兩類距離11/17/2022類與之間的距離記為(1)最短距離即用兩類中樣品之間的距離最短(3)類平均距離即用兩類中所有兩兩樣品之間的距離平均作為兩類之間的距離。類平均距離還可用下列方式定義:11/17/2022(3)類平均距離即用兩類中所有兩兩樣品之間的距離平均(4)重心距離其中分別是的重心.(5)離差平方和距離對重心而言11/17/2022(4)重心距離其中分別是的重心.(5)離差平方和距離對重心而二、類間距離的遞推公式按照譜系聚類法的思想,先將樣品聚合成小類,再逐步擴(kuò)大為大類。個(gè)樣品.現(xiàn)包含合并得到,設(shè)由現(xiàn)在的問題是由與其他類的距離計(jì)算與的距離.這就是說要建立類間距離的遞推公式.11/17/2022二、類間距離的遞推公式按照譜系聚類法的思想,先將樣品事實(shí)上(1)最短距離(2)最長距離事實(shí)上11/17/2022事實(shí)上(1)最短距離(2)最長距離事實(shí)上11/10/2022(3)類平均距離事實(shí)上則若11/17/2022(3)類平均距離事實(shí)上則若11/10/2022(4)重心距離的合并集的重心是而11/17/2022(4)重心距離的合并集的重心是而11/10/2022由有11/17/2022由有11/10/2022(5)離差平方和距離若記是離差平方和距離,是重心平方距離,則有11/17/2022(5)離差平方和距離若記是離差平方和距離,是重心平方距離,則在一定條件下,以上介紹的5種類間距離的遞推公式可以構(gòu)成統(tǒng)一的形式。假定樣品之間的距離皆采用歐式平方距離,即則類間距離遞推公式有統(tǒng)一的形式:11/17/2022在一定條件下,以上介紹的5種類間距離的遞推公則類間距距離名稱最短距離最長距離類平均距離重心距離離差平方和距離注11/17/2022距離名稱最短距離最長距離類平均距離重心距離離差平方和距離注1三、譜系聚類法的步驟1)n個(gè)樣品開始時(shí)作為n個(gè)類,計(jì)算兩兩之間的距離,構(gòu)成一個(gè)對稱距離矩陣此時(shí)2)選擇中非對角線上的最小元素,設(shè)這個(gè)最小11/17/2022三、譜系聚類法的步驟1)n個(gè)樣品開始時(shí)作為n個(gè)類,計(jì)在中消去所對應(yīng)的行與列,并加入由新類與剩下的其他未聚合的類間的距離所組成的一行和一列,得到一個(gè)新的距離矩陣它是n-1階方陣.3)從出發(fā)重復(fù)步驟2的作法得再由出發(fā)重復(fù)上述步驟,直到n個(gè)樣品聚為1個(gè)大類為止。4)在合并過程中要記下合并樣品的編號(hào)及兩類合并時(shí)的水平(即距離)并繪制聚類譜系圖。元素是這時(shí)將合并成一個(gè)新類11/17/2022在中消去所對應(yīng)的行與列,并加入由新類與剩下的其他未聚合的類間例1.歐洲各國語言有許多相似之處,有的甚至十分相近。以E,N,Da,Du,G,F(xiàn)r,S,I,P,H,F(xiàn)i分別表示英語、挪威語、丹麥語、荷蘭語、德語、法語、西班牙語、意大利語、波蘭語、匈牙利語和芬蘭語這11種語言。人們以任兩種語言對1~10這十個(gè)數(shù)字拼寫中第一個(gè)字母不相同的個(gè)數(shù)定義兩種語言間的“距離”。這種“距離”是廣義距離。例如,英語和挪威語只有數(shù)字1和8的第一個(gè)字母不同,故這兩種語言間的距離定義為2。這樣得到11種語言間的距離矩陣如下:11/17/2022例1.歐洲各國語言有許多相似之處,有的甚至十分11
用下列方法對這11種語言進(jìn)行譜系聚類:(1)最短距離法,并畫譜系圖;(2)最長距離法,并畫譜系圖;(3)類平均距離法,并畫譜系圖;(4)重心距離法;(5)離差平方和距離法(Ward法)11/17/2022用下列方法對這11種語言進(jìn)行譜系聚類:11/10/211/17/202211/10/202211/17/202211/10/202211/17/202211/10/202211/17/202211/10/202211/17/202211/10/202211/17/202211/10/202211/17/202211/10/202211/17/202211/10/202211/17/202211/10/202211/17/202211/10/202211/17/202211/10/202211/17/202211/10/202211/17/202211/10/202211/17/202211/10/202211/17/202211/10/202211/17/202211/10/202211/17/202211/10/2022分為3類11/17/2022分為3類11/10/202211/17/202211/10/202211/17/202211/10/202211/17/202211/10/202211/17/202211/10/2022四、譜系聚類法的統(tǒng)計(jì)量一個(gè)較好的聚類應(yīng)該在類內(nèi)各樣品盡可能相似的前提下,使得類的個(gè)數(shù)盡可能少。主要用到以下幾種統(tǒng)計(jì)量:統(tǒng)計(jì)量半偏相關(guān)統(tǒng)計(jì)量偽F統(tǒng)計(jì)量統(tǒng)計(jì)量偽11/17/2022四、譜系聚類法的統(tǒng)計(jì)量一個(gè)較好的聚類應(yīng)該在類內(nèi)各樣品統(tǒng)計(jì)量設(shè)某譜系水平上類的個(gè)數(shù)是G。類中樣品的類內(nèi)平方和為其中是類的重心.越小,說明中各樣品越相似.11/17/2022統(tǒng)計(jì)量設(shè)某譜系水平上類的個(gè)數(shù)是G。類中樣品的類內(nèi)平方和為其中在譜系的第G層共有G個(gè)類。定義又以T記所有樣品的總離差平方和,其中11/17/2022在譜系的第G層共有G個(gè)類。定義又以T記所有樣品的總離差平方和定義統(tǒng)計(jì)量為統(tǒng)計(jì)量可用于評價(jià)每次合并時(shí)的聚類效果。顯然1)n個(gè)樣品各為一類時(shí),2)n個(gè)樣品合并成一類時(shí),速下降的上一類。3)的值總是隨著分類數(shù)目的減少而減小,取快11/17/2022定義統(tǒng)計(jì)量為統(tǒng)計(jì)量可用于評價(jià)每次合并時(shí)的聚類效果。顯然1)n這一統(tǒng)計(jì)量與離差平方和距離有關(guān)。設(shè)類的離差平方和分別是將合并成后,離差平方和半偏相關(guān)統(tǒng)計(jì)量11/17/2022這一統(tǒng)計(jì)量與離差平方和距離有關(guān)。設(shè)類的離差平方和分別是將合并其中合并后離差平方和的增加量為大時(shí),說明上一次合并效果越好。由類合并成類時(shí)的半偏相關(guān)統(tǒng)計(jì)量SPRSQ為SPRSQ是上一步值與該步值的差值。當(dāng)SPRSQ值越11/17/2022其中合并后離差平方和的增加量為大時(shí),說明上一次合并效果越好。偽F統(tǒng)計(jì)量PSFPSF值越大表示這些觀測可顯著地分為G個(gè)類。偽統(tǒng)計(jì)量PST2是PST2大,說明合并為后,使得離差平方和增量相對于原的類內(nèi)離差平方和大。這表明合并的兩個(gè)類是很分開的。也就是上一次聚類效果較好。11/17/2022偽F統(tǒng)計(jì)量PSFPSF值越大表示這些觀測可顯著地分為G個(gè)類。例2.對例4.1提供的數(shù)據(jù)進(jìn)行聚類分析??疾斓?~27號(hào)省市區(qū),指標(biāo)變量的含義如例4.1所述.利用下列聚類法將上述樣品進(jìn)行分類,分析分幾類為合適,并寫出各種聚類方法得到的分類結(jié)果。(1)最長距離法;(2)類平均距離法;(3)重心距離法;(4)離差平方和距離法;11/17/2022例2.對例4.1提供的數(shù)據(jù)進(jìn)行聚類分析??疾斓?~11/17/202211/10/202211/17/202211/10/2022最長距離法分2類結(jié)果11/17/2022最長距離法分2類結(jié)果11/10/2022類平均距離法11/17/2022類平均距離法11/10/2022類平均距離法分2類結(jié)果11/17/2022類平均距離法分2類結(jié)果11/10/2022重心距離法11/17/2022重心距離法11/10/2022重心距離法分2類結(jié)果注:分類結(jié)果與類平均法分類結(jié)果相同11/17/2022重心距離法分2類結(jié)果注:分類結(jié)果與類平均法分類結(jié)果相同11/離差平方和距離法11/17/2022離差平方和距離法11/10/2022離差平方和距離法分2類結(jié)果11/17/2022離差平方和距離法分2類結(jié)果11/10/2022第五章第二節(jié)一、類間距離二、類間距離的遞推公式三、譜系聚類法的步驟譜系聚類法四、譜系聚類法的統(tǒng)計(jì)量11/17/2022第五章第二節(jié)一、類間距離二、類間距離的遞推公式三、譜系聚則其均值為若中有樣品一、類間距離以i,j分別表示樣品以表示i,j的距離分別表示兩個(gè)類,它們分別含有個(gè)樣品.稱其為該類的重心。由于類的形式和形狀多種多樣,所以類與類之間的距離有多種定義與計(jì)算方法。下面我們介紹類間距離的定義。11/17/2022則其均值為若中有樣品一、類間距離以i,j分別表示樣品以表示i類與之間的距離記為(1)最短距離即用兩類中樣品之間的距離最短者作為兩類距離(2)最長距離即用兩類中樣品之間的距離最長者作為兩類距離11/17/2022類與之間的距離記為(1)最短距離即用兩類中樣品之間的距離最短(3)類平均距離即用兩類中所有兩兩樣品之間的距離平均作為兩類之間的距離。類平均距離還可用下列方式定義:11/17/2022(3)類平均距離即用兩類中所有兩兩樣品之間的距離平均(4)重心距離其中分別是的重心.(5)離差平方和距離對重心而言11/17/2022(4)重心距離其中分別是的重心.(5)離差平方和距離對重心而二、類間距離的遞推公式按照譜系聚類法的思想,先將樣品聚合成小類,再逐步擴(kuò)大為大類。個(gè)樣品.現(xiàn)包含合并得到,設(shè)由現(xiàn)在的問題是由與其他類的距離計(jì)算與的距離.這就是說要建立類間距離的遞推公式.11/17/2022二、類間距離的遞推公式按照譜系聚類法的思想,先將樣品事實(shí)上(1)最短距離(2)最長距離事實(shí)上11/17/2022事實(shí)上(1)最短距離(2)最長距離事實(shí)上11/10/2022(3)類平均距離事實(shí)上則若11/17/2022(3)類平均距離事實(shí)上則若11/10/2022(4)重心距離的合并集的重心是而11/17/2022(4)重心距離的合并集的重心是而11/10/2022由有11/17/2022由有11/10/2022(5)離差平方和距離若記是離差平方和距離,是重心平方距離,則有11/17/2022(5)離差平方和距離若記是離差平方和距離,是重心平方距離,則在一定條件下,以上介紹的5種類間距離的遞推公式可以構(gòu)成統(tǒng)一的形式。假定樣品之間的距離皆采用歐式平方距離,即則類間距離遞推公式有統(tǒng)一的形式:11/17/2022在一定條件下,以上介紹的5種類間距離的遞推公則類間距距離名稱最短距離最長距離類平均距離重心距離離差平方和距離注11/17/2022距離名稱最短距離最長距離類平均距離重心距離離差平方和距離注1三、譜系聚類法的步驟1)n個(gè)樣品開始時(shí)作為n個(gè)類,計(jì)算兩兩之間的距離,構(gòu)成一個(gè)對稱距離矩陣此時(shí)2)選擇中非對角線上的最小元素,設(shè)這個(gè)最小11/17/2022三、譜系聚類法的步驟1)n個(gè)樣品開始時(shí)作為n個(gè)類,計(jì)在中消去所對應(yīng)的行與列,并加入由新類與剩下的其他未聚合的類間的距離所組成的一行和一列,得到一個(gè)新的距離矩陣它是n-1階方陣.3)從出發(fā)重復(fù)步驟2的作法得再由出發(fā)重復(fù)上述步驟,直到n個(gè)樣品聚為1個(gè)大類為止。4)在合并過程中要記下合并樣品的編號(hào)及兩類合并時(shí)的水平(即距離)并繪制聚類譜系圖。元素是這時(shí)將合并成一個(gè)新類11/17/2022在中消去所對應(yīng)的行與列,并加入由新類與剩下的其他未聚合的類間例1.歐洲各國語言有許多相似之處,有的甚至十分相近。以E,N,Da,Du,G,F(xiàn)r,S,I,P,H,F(xiàn)i分別表示英語、挪威語、丹麥語、荷蘭語、德語、法語、西班牙語、意大利語、波蘭語、匈牙利語和芬蘭語這11種語言。人們以任兩種語言對1~10這十個(gè)數(shù)字拼寫中第一個(gè)字母不相同的個(gè)數(shù)定義兩種語言間的“距離”。這種“距離”是廣義距離。例如,英語和挪威語只有數(shù)字1和8的第一個(gè)字母不同,故這兩種語言間的距離定義為2。這樣得到11種語言間的距離矩陣如下:11/17/2022例1.歐洲各國語言有許多相似之處,有的甚至十分11
用下列方法對這11種語言進(jìn)行譜系聚類:(1)最短距離法,并畫譜系圖;(2)最長距離法,并畫譜系圖;(3)類平均距離法,并畫譜系圖;(4)重心距離法;(5)離差平方和距離法(Ward法)11/17/2022用下列方法對這11種語言進(jìn)行譜系聚類:11/10/211/17/202211/10/202211/17/202211/10/202211/17/202211/10/202211/17/202211/10/202211/17/202211/10/202211/17/202211/10/202211/17/202211/10/202211/17/202211/10/202211/17/202211/10/202211/17/202211/10/202211/17/202211/10/202211/17/202211/10/202211/17/202211/10/202211/17/202211/10/202211/17/202211/10/202211/17/202211/10/202211/17/202211/10/2022分為3類11/17/2022分為3類11/10/202211/17/202211/10/202211/17/202211/10/202211/17/202211/10/202211/17/202211/10/2022四、譜系聚類法的統(tǒng)計(jì)量一個(gè)較好的聚類應(yīng)該在類內(nèi)各樣品盡可能相似的前提下,使得類的個(gè)數(shù)盡可能少。主要用到以下幾種統(tǒng)計(jì)量:統(tǒng)計(jì)量半偏相關(guān)統(tǒng)計(jì)量偽F統(tǒng)計(jì)量統(tǒng)計(jì)量偽11/17/2022四、譜系聚類法的統(tǒng)計(jì)量一個(gè)較好的聚類應(yīng)該在類內(nèi)各樣品統(tǒng)計(jì)量設(shè)某譜系水平上類的個(gè)數(shù)是G。類中樣品的類內(nèi)平方和為其中是類的重心.越小,說明中各樣品越相似.11/17/2022統(tǒng)計(jì)量設(shè)某譜系水平上類的個(gè)數(shù)是G。類中樣品的類內(nèi)平方和為其中在譜系的第G層共有G個(gè)類。定義又以T記所有樣品的總離差平方和,其中11/17/2022在譜系的第G層共有G個(gè)類。定義又以T記所有樣品的總離差平方和定義統(tǒng)計(jì)量為統(tǒng)計(jì)量可用于評價(jià)每次合并時(shí)的聚類效果。顯然1)n個(gè)樣品各為一類時(shí),2)n個(gè)樣品合并成一類時(shí),速下降的上一類。3)的值總是隨著分類數(shù)目的減少而減小,取快11/17/2022定義統(tǒng)計(jì)量為統(tǒng)計(jì)量可用于評價(jià)每次合并時(shí)的聚類效果。顯然1)n這一統(tǒng)計(jì)量與離差平方和距離有關(guān)。設(shè)類的離差平方和分別是將合并成后,離差平方和半偏相關(guān)統(tǒng)計(jì)量11/17/2022這一統(tǒng)計(jì)量與離差平方和距離有關(guān)。設(shè)類的離差平方和分別是將合并其中合并后離差平方和的增加量為大時(shí),說明上一次合并效果越好。由類合并成類時(shí)的半偏相關(guān)統(tǒng)計(jì)量SPRSQ為SPRSQ是上一步值
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 執(zhí)業(yè)獸醫(yī)考試考試題預(yù)防科目及答案
- 煙花爆竹考試題及答案
- 監(jiān)護(hù)人防溺水測試題附答案
- 幼兒教育題庫論述題及答案
- 二建網(wǎng)絡(luò)考試題及答案
- 新安全生產(chǎn)法試題庫及參考答案
- 中藥試題+答案
- 重癥醫(yī)學(xué)科考試試題與答案
- 陜西省延安市輔警公共基礎(chǔ)知識(shí)題庫(附答案)
- 客服營銷面試試題及答案
- 2026中國電信四川公用信息產(chǎn)業(yè)有限責(zé)任公司社會(huì)成熟人才招聘備考題庫及參考答案詳解1套
- 2025年廣東省生態(tài)環(huán)境廳下屬事業(yè)單位考試真題附答案
- 2026年安徽省公務(wù)員考試招錄7195名備考題庫完整參考答案詳解
- 【地理】期末模擬測試卷-2025-2026學(xué)年七年級(jí)地理上學(xué)期(人教版2024)
- LoRa技術(shù)教學(xué)課件
- GB/T 1957-2006光滑極限量規(guī)技術(shù)條件
- GB 28480-2012飾品有害元素限量的規(guī)定
- 劉一秒演說智慧經(jīng)典(內(nèi)部筆記)
- 管道TOFD檢測記錄及續(xù)表
- 馬克思主義哲學(xué)精講課件
- 期末考試總安排
評論
0/150
提交評論