版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
多元統(tǒng)計(jì)應(yīng)用第講聚類分析第1頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月第一節(jié)聚類分析方法第二節(jié)聚類統(tǒng)計(jì)量第三節(jié)無(wú)量綱化方法第四節(jié)Q型系統(tǒng)聚類法第五節(jié)R型系統(tǒng)聚類法第六節(jié)快速聚類法推薦閱讀第2頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月第一節(jié)聚類分析方法聚類分析是根據(jù)“物以類聚”的道理,對(duì)樣品或指標(biāo)進(jìn)行分類的一種多元統(tǒng)計(jì)分析方法,它們討論的對(duì)象是大量的樣品,要求能合理地按各自的特性來(lái)進(jìn)行合理的分類,沒(méi)有任何模式可供參考或依循,即是在沒(méi)有先驗(yàn)知識(shí)的情況下進(jìn)行的?;舅枷胧歉鶕?jù)事物本身的特性研究個(gè)體分類的方法;聚類原則是同一類中的個(gè)體有較大的相似性,不同類中的個(gè)體差異很大。第3頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月基本程序:是根據(jù)一批樣品的多個(gè)觀測(cè)指標(biāo),具體地找出一些能夠度量樣品或指標(biāo)之間相似程度的統(tǒng)計(jì)量,然后利用統(tǒng)計(jì)量將樣品或指標(biāo)進(jìn)行歸類。具體進(jìn)行聚類時(shí),由于目的、要求不同,因而產(chǎn)生各種不同的聚類方法:由小類合并到大類的方法由大類分解為小類的方法靜態(tài)聚類法、動(dòng)態(tài)聚類法按樣本聚類(Q)、按指標(biāo)聚類(R)第4頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月在社會(huì)經(jīng)濟(jì)領(lǐng)域中存在著大量分類問(wèn)題,如:對(duì)我國(guó)31個(gè)省市自治區(qū)獨(dú)立核算工業(yè)企業(yè)經(jīng)濟(jì)效益進(jìn)行分析,一般不是逐省市自治區(qū)去分析,而較好地做法是選取能反映企業(yè)經(jīng)濟(jì)效益的代表性指標(biāo),如百元固定資產(chǎn)實(shí)現(xiàn)利稅、資金利稅、產(chǎn)值利稅率等,根據(jù)這些指標(biāo)對(duì)全國(guó)各省市自治區(qū)進(jìn)行分類,然后根據(jù)分類結(jié)果對(duì)企業(yè)經(jīng)濟(jì)效益進(jìn)行綜合評(píng)價(jià),就易于得出科學(xué)的分析。
第5頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月第二節(jié)聚類統(tǒng)計(jì)量一、概述二、Q型聚類統(tǒng)計(jì)量三、R型聚類統(tǒng)計(jì)量第6頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月概述設(shè)有n個(gè)樣本單位,每個(gè)樣本測(cè)得p項(xiàng)指標(biāo)(變量),原始資料陣為:Q型聚類以距離作為統(tǒng)計(jì)量,R型聚類以相似系數(shù)作為統(tǒng)計(jì)量。第7頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月Q型聚類統(tǒng)計(jì)量(距離)把n個(gè)樣本點(diǎn)看成p維空間的n個(gè)點(diǎn)1、絕對(duì)距離(Block距離)2、歐氏距離(Euclideandistance)第8頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月3、明考斯基距離(Minkowski)4、蘭氏距離5、馬氏距離6、切比雪夫距離(Chebychev)第9頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月R型聚類統(tǒng)計(jì)量對(duì)兩個(gè)指標(biāo)之間的相似程度用相似系數(shù)來(lái)刻劃,相似系數(shù)的絕對(duì)值越接近于1,表示指標(biāo)間的關(guān)系越密切,絕對(duì)值越接近于0,表示指標(biāo)間的關(guān)系越疏遠(yuǎn)。第10頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月1、夾角余弦2、相關(guān)系數(shù)3、同號(hào)率第11頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月第三節(jié)無(wú)量綱化方法所謂無(wú)量綱化處理,是將原始數(shù)據(jù)矩陣中每個(gè)元素按照某種特定的運(yùn)算把它變成一個(gè)新值,且是數(shù)值的變化不依賴于原始數(shù)據(jù)中其它數(shù)據(jù)的新值。第12頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月1、極差正規(guī)化(規(guī)格化變換、閾值法)2、標(biāo)準(zhǔn)化變換3、功效系數(shù)法4、相對(duì)化變換第13頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月例:某年我國(guó)部分省市經(jīng)濟(jì)效益情況用以上幾種方法對(duì)其無(wú)量綱化。指標(biāo)實(shí)際值北京天津上海江蘇廣東產(chǎn)品銷售率(%)資金利稅率(%)成本利潤(rùn)率(%)勞動(dòng)生產(chǎn)率(元/人)流動(dòng)資金周轉(zhuǎn)次數(shù)(次)凈資產(chǎn)率(%)96.0114.909.51148301.6828.4095.729.213.35100041.7926.4898.4213.887.55155451.8025.5693.4310.753.9997082.2122.3095.1610.255.03145901.8725.01第14頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月第四節(jié)Q型系統(tǒng)聚類法系統(tǒng)聚類法(層次聚類法):在聚類分析的開(kāi)始,每個(gè)樣本自成一類;然后,按照某種方法度量所有樣本之間的親疏程度,并把最相似的樣本首先聚成一小類;接下來(lái),度量剩余的樣本和小類間的親疏程度,并將當(dāng)前最接近的樣本或小類再聚成一類;再接下來(lái),再度量剩余的樣本和小類間的親疏程度,并將當(dāng)前最接近的樣本或小類再聚成一類;如此反復(fù),直到所有樣本聚成一類為止。第15頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月步驟:1、對(duì)數(shù)據(jù)進(jìn)行變換處理,消除量綱2、構(gòu)造n個(gè)類,每個(gè)類只包含一個(gè)樣本計(jì)算3、n個(gè)樣本兩兩間的距離{dij}4、合并距離最近的兩類為一新類5、計(jì)算新類與當(dāng)前各類的距離,重復(fù)(4)6、畫聚類圖7、決定類的個(gè)數(shù)和類第16頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月類與類間距離的確定一、最短距離法二、最長(zhǎng)距離法三、中間距離法四、重心距離法五、類平均法六、離差平方和第17頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月最短距離法(NearestNeighbor)以當(dāng)前某個(gè)樣本與已經(jīng)形成的小類中的各樣本距離中的最小值作為當(dāng)前樣本與該小類之間的距離。省份x1x2x3x4x5x6x7x8遼寧浙江河南甘肅青海7.907.689.429.1610.0639.7750.3727.9327.9828.648.4911.358.209.0110.5212.9413.308.149.3210.0519.2719.2516.1715.9916.1811.0514.599.429.108.392.042.751.551.821.9613.2914.879.7611.3510.81例1:為了研究遼寧省5省區(qū)某年城鎮(zhèn)居民生活消費(fèi)的分布規(guī)律,根據(jù)調(diào)查資料做類型劃分(spssex/ex501)第18頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月G1={遼寧},G2={浙江},G3={河南},G4={甘肅},G5={青海}
=[(7.9-7.68)2+(39.77-50.37)2+(8.49-11.35)2+(12.94-13.3)2+ (19.27-19.25)2+(11.05-14.59)2+(2.04-2.75)2+(13.29-14.87)2]0.5=11.67d13=13.80d14=13.12d15=12.80d23=24.63d24=24.06d25=23.54 d34=2.2d35=3.51d45=2.21
12345D1=10211.670313.8024.630413.1224.062.200512.8023.543.512.210河南與甘肅的距離最近,先將二者(3和4)合為一類G6={G2,G4}第19頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月d61=d(3,4)1=min{d13,d14}=13.12d62=d(3,4)2=min{d23,d24}=24.06d65=d(3,4)5=min{d35,d45}=2.21
6125 60 D2=113.120 224.0611.670 52.2112.8023.540d71=d(3,4,5)1=min{d13,d14,d15}=12.80;d72=d(3,4,5)2=min{d23,d24,d25}=23.54
712 D3=70 112.800 223.5411.670河南、甘肅與青海并為一新類G7={G6,G5}={G3,G4,G6}G8={G1,G2}第20頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月d78=min{d71,d72}=12.80
78 D4=70 812.80河南3甘肅4青海5遼寧1浙江2第21頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月最長(zhǎng)距離法(furthestneighbor)以當(dāng)前某個(gè)樣本與已經(jīng)形成的小類中的各樣本距離中的最大值作為當(dāng)前樣本與該小類之間的距離。例2:對(duì)例1的數(shù)據(jù)以最長(zhǎng)距離法聚類。第22頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月d13=13.80d14=13.12d15=12.80d23=24.63d24=24.06d25=23.54d34=2.2d35=3.51d45=2.21
12345
D1=10 211.670 313.8024.630 413.1224.062.200 512.8023.543.512.210河南與甘肅的距離最近,先將二者(3和4)合為一類G6={G2,G4}第23頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月d61=d(3,4)1=max{d13,d14}=13.80d62=d(3,4)2=max{d23,d24}=24.63d65=d(3,4)5=max{d35,d45}=3.51612560D2=113.800224.6311.67053.5112.8023.540河南、甘肅與青海并為一新類G7={G6,G5}={G3,G4,G6}第24頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月
d71=d(3,4,5)1=max{d13,d14,d15}=13.80
d72=d(3,4,5)2=max{d23,d24,d25}=24.63
712
D3=70 113.800 224.6311.670
d78=max{d71,d72}=24.63 78
D4=70 824.630G8={G1,G2}第25頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月中位數(shù)法(Medianclustering)用兩位類的中位數(shù)間的距離作為兩類的距離GtGlGm第26頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月重心法用兩類的重心間的距離作為兩類的距離GrGt第27頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月組間平均鏈鎖法
(Between-groupslinkage)定義兩個(gè)小類之間的距離為所有樣本對(duì)間的平均距離。利用了所有樣本對(duì)距離的信息。第28頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月組內(nèi)平均鏈鎖法
(Within-groupslinkage)對(duì)所有樣本對(duì)的距離求平均值,包括小類之間的樣本對(duì)、小類內(nèi)的樣本對(duì)第29頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月離差平方和法
(Ward’smethodword)使小類內(nèi)各樣本的歐氏距離總平方和增加最小的兩小類合并為一類。將q固定時(shí),要選擇使S達(dá)到極小的分類,一切可能的分法有:第30頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月Ward
尋找到一個(gè)局部最優(yōu)解的方法。先將n個(gè)樣本各成一類,然后每次縮小一類,每縮小一類離差平方和就要增大,選擇使離差平方和S增加最小的兩類合并,直至所有樣本歸為一類為止。第31頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月例3:為了研究某年全國(guó)各地區(qū)農(nóng)民家庭收支的分布規(guī)律,根據(jù)抽樣調(diào)查資料進(jìn)行分類處理,共抽取28個(gè)省、市、自治區(qū)的樣本,每個(gè)樣本有六個(gè)指標(biāo),分別為食品、衣著、燃料、住房、生活用品及其它、文化生活服務(wù)支出。原始資料見(jiàn)spssex/ex512第32頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月第五節(jié)R型系統(tǒng)聚類法一、最小系數(shù)法二、最大系數(shù)法三、中間系數(shù)法第33頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月對(duì)變量聚類,是一種降維的方法,用于在變量眾多時(shí)尋找有代表性的變量,以便當(dāng)用少量、有代表性的變量代替大變量時(shí)損失信息很少。第34頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月第六節(jié)快速聚類如果選擇了N個(gè)數(shù)值型變量參與聚類分析,最后要求聚類數(shù)K,那么可以由系統(tǒng)首先選擇K個(gè)觀測(cè)量作為聚類的種子,也稱初始類中心、凝聚點(diǎn),按照距這幾個(gè)類中心的距離最小原則把觀測(cè)量分到各類中心所在的類中去,形成第一次迭代形成的K類。根據(jù)組成每一類的觀測(cè)量計(jì)算各變量均值,每一類中的n個(gè)均值在N維空間中又形成K個(gè)點(diǎn),這就是第二次迭代的類中心,按照這種方法依次迭代下去直到分類比較合理為止。第35頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月凝聚點(diǎn)的選擇1、經(jīng)驗(yàn)選擇2、對(duì)樣本人為或隨機(jī)分類,以每類的重心作為凝聚點(diǎn)3、最小最大距離法。如果欲將n個(gè)樣本點(diǎn)分為q類,先選取距離最大的兩點(diǎn)xi1,xi2為前兩個(gè)凝聚點(diǎn),然后選取第3個(gè)凝聚點(diǎn)xi3,由于其余所有點(diǎn)與前兩個(gè)凝聚點(diǎn)都有最短距離,在全部最短距離中選擇最長(zhǎng)距離,這個(gè)距離的兩端一個(gè)是xi1或xi2,而另一個(gè)就是我們要選擇的xi3.4、密度法第36頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月例4:有15個(gè)樣品,每個(gè)樣品有兩個(gè)經(jīng)相對(duì)化處理后的指標(biāo)y1,y2,試用密度法先取凝聚點(diǎn)。(距離以歐氏距離計(jì)算,球半徑為0.3)數(shù)據(jù)見(jiàn)spssex/ex513在SPSS中計(jì)算出距離矩陣,歸納出各樣本的密度為:凝聚點(diǎn)為樣本6,12,1,13樣本123456789101112131415密度013335434123022第37頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月初始分類1、人為地分類2、選擇凝聚點(diǎn)后,將與其最近的凝聚點(diǎn)歸并3、選擇凝聚點(diǎn)后,每個(gè)凝聚點(diǎn)自成一類,將樣本依次歸入其距離最近的凝聚點(diǎn)那一類,并立即計(jì)算該類的重心,以代替原來(lái)的凝聚點(diǎn),再計(jì)算下一個(gè)樣本的歸類。4、先對(duì)樣本數(shù)據(jù)標(biāo)準(zhǔn)化,然后計(jì)算統(tǒng)計(jì)量這個(gè)數(shù)接近幾,就歸入第幾類第38頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月快速聚類步驟1、選擇分析變量2、指定聚類數(shù)目3、選擇k個(gè)樣本作為凝聚點(diǎn)4、按照距初始類中心最小的原則將各觀察量分到聚類中心所在的類中去,形成第一步迭代的k類5、計(jì)算每類中所有變量的均值,作為第二次迭代的中心6、重復(fù)3、4步,
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 山東三葉草信息技術(shù)考試試題及答案
- 消毒隔離制度試題及答案
- 2025年機(jī)械制造行業(yè)發(fā)展趨勢(shì)分析試題及答案詳解
- 2025-2030中國(guó)敵草快市場(chǎng)競(jìng)爭(zhēng)狀況與未來(lái)發(fā)展?jié)摿υu(píng)估研究報(bào)告
- 2025-2030越南農(nóng)產(chǎn)品市場(chǎng)現(xiàn)狀分析及產(chǎn)業(yè)化資本投資規(guī)劃研究報(bào)告
- 2025-2030證券行業(yè)市場(chǎng)分析及趨勢(shì)前景與投資戰(zhàn)略研究報(bào)告市場(chǎng)
- 2025-2030西班牙旅游業(yè)季節(jié)性需求分析現(xiàn)狀評(píng)估發(fā)展規(guī)劃報(bào)告
- 2025-2030西班牙rzkn納米生物制藥加工業(yè)現(xiàn)狀研發(fā)痛處診斷投入風(fēng)險(xiǎn)評(píng)估咨詢報(bào)告
- 2025-2030西歐時(shí)尚設(shè)計(jì)行業(yè)市場(chǎng)供需分析及投資評(píng)估規(guī)劃分析研究報(bào)告
- 2025-2030西南地區(qū)生態(tài)農(nóng)業(yè)產(chǎn)業(yè)化發(fā)展模式與經(jīng)濟(jì)效益分析報(bào)告
- 外墻貼磚專項(xiàng)施工方案
- 《物流與供應(yīng)鏈管理》教案
- 2025-2030智慧城市大腦建設(shè)規(guī)劃與多感知系統(tǒng)融合
- 2025年具有良好的商業(yè)信譽(yù)和健全的財(cái)務(wù)會(huì)計(jì)制度承諾書(范本)
- 凈菜品控與質(zhì)量管理體系建設(shè)方案
- 樁基施工與檢測(cè)實(shí)施方案
- 河北省五個(gè)一名校聯(lián)盟金太陽(yáng)2025屆高三上學(xué)期一輪收官驗(yàn)收-英語(yǔ)試卷(含答案)
- 熱處理安全培訓(xùn)課件
- 醫(yī)療設(shè)備安裝技術(shù)人員簡(jiǎn)歷模板
- 2022-2023學(xué)年貴州省貴陽(yáng)市九年級(jí)上學(xué)期化學(xué)期末試題及答案
- 外委試驗(yàn)管理辦法
評(píng)論
0/150
提交評(píng)論