《多元統(tǒng)計分析-基于R(第3版)》課件 第13章-多維標(biāo)度分析_第1頁
《多元統(tǒng)計分析-基于R(第3版)》課件 第13章-多維標(biāo)度分析_第2頁
《多元統(tǒng)計分析-基于R(第3版)》課件 第13章-多維標(biāo)度分析_第3頁
《多元統(tǒng)計分析-基于R(第3版)》課件 第13章-多維標(biāo)度分析_第4頁
《多元統(tǒng)計分析-基于R(第3版)》課件 第13章-多維標(biāo)度分析_第5頁
已閱讀5頁,還剩28頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

主編:費宇中國人民大學(xué)出版社第13章多維標(biāo)度分析2024/7/31

2多維標(biāo)度法(MultidimensionalScaling,MDS)是一種維數(shù)縮減方法,把高維的數(shù)據(jù)點映射到一個低維空間上,然后在低維空間中以較高的相似度重新展示這些點的數(shù)據(jù)結(jié)構(gòu),并由此對原始高維數(shù)據(jù)進行統(tǒng)計分析.多維標(biāo)度法起源于上世紀(jì)40年代的心理測度.1958年Torgerson正式提出了這一方法.目前應(yīng)用廣泛,內(nèi)容豐富,方法較多.兩類方法:度量分析法,非度量分析法.第13章多維標(biāo)度分析13.1

多維標(biāo)度法的基本思想13.2

古典多維標(biāo)度法

多維標(biāo)度法的幾個基本概念;

已知距離矩陣時CMDS解;

已知相似系數(shù)矩陣時CMDS解;13.3

案例分析與R實現(xiàn)2024/7/31

313.1

多維標(biāo)度法的基本思想2024/7/31

4多維標(biāo)度法是用低維空間

Rk

(k<p)中的n個點去重新標(biāo)度和展示高維空間Rp中相應(yīng)的n個點,將高維空間中的研究對象(樣本或變量)簡化到低維空間中進行定位、歸類和分析且有效保留研究對象間原始關(guān)系的多元數(shù)據(jù)分析方法.是一種維數(shù)縮減方法,主要思想是在降維的同時讓新得到的n個低維點與原來的n高維個點保持較高的相似度(如位置關(guān)系、距離、類別等),使降維后重新標(biāo)度的數(shù)據(jù)結(jié)構(gòu)發(fā)生的“形變”盡量?。?024/7/31

5多維標(biāo)度分析與主成分分析的異同:

共同點:均先降維,再做簡明有效的分析;

均依據(jù)特定矩陣的特征值的累積貢獻率來

決定降維后的維數(shù).

不同點:主成分法按包含信息大小選取主成分;

多維標(biāo)度法按標(biāo)度前后距離矩陣盡量接近

或盡量相似的原則來構(gòu)造擬合構(gòu)造點.13.2.1

多維標(biāo)度法的幾個基本概念2024/7/31

613.2

古典多維標(biāo)度法古典多維標(biāo)度(CMDS)解的定義對于距離陣,多維標(biāo)度法的目的是要尋找較小的

k和Rk中的n個點,記,表示

xi

與xj

在Rk中的歐氏距離,使得與在某種意義下盡量接近,記稱為的一個古典多維標(biāo)度(CMDS)解,稱xi

為的一個擬合構(gòu)造點,亦稱為的擬合構(gòu)圖,稱為的擬合距離陣.2024/7/317特別,當(dāng)時,稱xi

為的一個構(gòu)造點,稱為的構(gòu)圖,注意的構(gòu)圖不唯一2024/7/31

8注:歐式距離陣也稱為歐式型距離陣或Euclid距離陣

如何判斷一個距離陣

是否為歐氏型距離陣呢?幾個相關(guān)矩陣的構(gòu)造:2024/7/31

9

距離陣為歐氏型距離陣的充要條件:

從歐氏距離陣D出發(fā)得到構(gòu)圖

X的步驟:見下面例13.1.2024/7/31

10例13.1(數(shù)據(jù)文件exam13.1)給定距離矩陣D如下,問它是否是歐式型矩陣?并求其的古典多維標(biāo)度解(CMDS)

X及擬合構(gòu)造點.2024/7/31

11由B的特征值進行判斷并求X

解:在Excel中由矩陣D計算出B很方便:將D的上三角部分補齊輸入單元格區(qū)域A1:D4(如圖13-1

);然后在A6單元格內(nèi)輸入“=-(A1^2)/2”后拖放填充至D9得到矩陣A;接著如圖13-1在A的左方、下方輸入公式并拖放填充計算出行均值、列均值和總均值;最后在單元格A12內(nèi)輸入公式“=A6-$E6-A$10+$E$10”后拖放填充至D15得到矩陣B.圖13-1在Excel中由矩陣D算出矩陣B(A12:D15)的簡單過程2024/7/31

12

最后在R中計算B的所有特征值來判斷D是否是歐氏型距離陣,并求出CMDS解

X及擬合構(gòu)造點.2024/7/31

13>B=read.table("clipboard",header=F)

#讀入矩陣B(先復(fù)制單元格區(qū)域A12:D15)>eig<-eigen(B);eig

#求B的特征值特征向量并顯示eigen()decomposition$values[1]70.6013138636.6152425180.795952899-0.002509279

B的四個特征值均大于等于0(第四個特征值很小可視為0),由定理13.1知D為歐氏型距離陣.為求D的CMDS解

X及擬合構(gòu)造點(實際上可近似看作構(gòu)造點),在R中輸入如下命令:2024/7/31

14>

D=read.table("clipboard",header=F)

#讀入矩陣D(先復(fù)制對應(yīng)單元格區(qū)域A1:D4)>D13.1=cmdscale(D,k=2,eig=T);D13.1#使用stats中的cmdscale函數(shù),k取為2$points

[,1]

[,2][1,]2.526493-0.1531671[2,]

-7.110732-0.4721962[3,]3.545859-1.4437017[4,]1.038381

2.0690650$eig[1]7.059702e+016.611734e+007.937158e-012.428205e-15>sum(abs(D13.1$eig[1:2]))/sum(abs(D13.1$eig))

#計算a1.2[1]0.9898245>sum((D13.1$eig[1:2])^2)/sum((D13.1$eig)^2)

#計算a2.2[1]0.9998747D的CMDS解:2024/7/3115前兩個特征值的累積絕對貢獻率和累積平方貢獻率均超過98%,說明k取為2是適當(dāng)?shù)模膫€構(gòu)造點在坐標(biāo)分別為(2.526,-0.153),(-7.111,-0.472),(3.546,-1.444),(1.038,2.069).?dāng)M合距離陣(可與原始距離陣D對比)和擬合構(gòu)圖如下:圖13-2

距離陣D的擬合構(gòu)圖13.2.2

已知距離矩陣時CMDS解上面計算CMDS解的過程在R軟件中可使用stats包中的cmdscale()函數(shù)來實現(xiàn),也可以使用MASS包中處理非度量MDS問題的isoMDS()函數(shù)來實現(xiàn),但cmdscale()函數(shù)的好處是可以同時計算出的特征值和特征向量以及兩個累積貢獻率a1.k和a2.k的值.

2024/7/31

16

例13.2對表13-1給出的我國六個城市間的距離矩陣D,利用R軟件stats包中的cmdscale函數(shù)求

的CMDS解,給出擬合構(gòu)圖

及擬合構(gòu)造點.2024/7/3117

北京濟南青島鄭州上海南京北京0

濟南4390

青島6683620

鄭州7144437720

上海12598867769840

南京10656266177103220表13-1我國六個城市間的道路距離(單位:公里)2024/7/31

18解

在R中的程序為:>setwd("C:/data")#設(shè)定工作路徑>exam13.2<-read.csv("exam13.2.csv",header=T)#將exam13.2數(shù)據(jù)讀入>d13.2=exam13.2[,-1]#先去掉exam13.2第一列樣本名稱>rownames(d13.2)=exam13.2[,1]#為d13.2的行重新命名>D13.2=cmdscale(d13.2,k=2,eig=T);D13.2#使用基本包stats中的cmdscale函數(shù),k取為2由R計算結(jié)果可見,矩陣的六個特征值分別為:1051894,311141,59859,10289,0,-11999最后一個特征值為負,表明距離矩陣不是歐氏型距離陣.a(chǎn)1.k=94.3%,a2.k=99.7%,故k=2就可以了.由前兩個特征向量可得六個擬合構(gòu)造點分別為:(612.2,119.4),(218.2,11.8),(38.0,319.8)(193.7,430.2),(646.1,57.4),(416.0,78.3)2024/7/31

19>x=D13.2$points[,1];>y=D13.2$points[,2]>plot(x,y,xlim=c(-700,800),ylim=c(-300,600))#根據(jù)兩個特征向量的分量大小繪散點圖>text(x,y,labels=s(d13.2),adj=c(0,-0.5),cex=0.8)#將擬合點用行名標(biāo)出再畫六個城市距離矩陣的擬合構(gòu)圖,并用中文標(biāo)明(注意:擬合構(gòu)圖主要表示六個城市間的相對距離,和各城市在地圖上的實際位置可能不一致)圖13-3

我國六城市距離陣的擬合構(gòu)圖2024/7/31

202024/7/3121

易計算出六個擬合構(gòu)造點在R2中的歐氏距離陣,將它們與表13-1中城市間的原始距離數(shù)據(jù)進行對比,可見大多數(shù)距離數(shù)據(jù)擬合較好,有6個城市距離相差公里數(shù)為個位數(shù),只有兩個城市距離相差在50~60公里.>D1<-dist(D13.2$points[,1:2],method="euclidean",diag=T,p=2)>D1

北京

濟南

青島

鄭州

上海

南京北京

0.0000濟南

408.48960.0000青島

608.1445356.81290.0000鄭州

690.8417442.6457765.94660.0000上海1259.8374865.4658732.6946971.06630.0000南京1047.0937640.5733603.8211704.0036267.07110.000013.2.3

已知相似系數(shù)矩陣時的CMDS解2024/7/3122

例13.3對55個國家和地區(qū)的男子徑賽記錄作統(tǒng)計,每位運動員記錄8項指標(biāo):100米、200米、400米、800米、1500米、5000米、10000米和馬拉松.這8項指標(biāo)的相關(guān)矩陣C如表13-2所示.求C的CMDS解,并給出擬合構(gòu)圖及擬合構(gòu)造點

(數(shù)據(jù)文件為exam13.3).

2024/7/31

232024/7/31

24

100米200米400米800米1500米5000米10000米馬拉松100米10.9230.8410.7560.7000.6190.6330.520200米0.92310.8510.8070.7750.6950.6970.596400米0.8410.85110.8700.8350.7790.7870.705800米0.7560.8070.87010.9180.8640.8690.8061500米0.7000.7750.8350.91810.9280.9350.8665000米0.6190.6950.7790.8640.92810.9750.93210000米0.6330.6970.7870.8690.9350.97510.943馬拉松0.5200.5960.7050.8060.8660.9320.9431表13-2運動員徑賽8項指標(biāo)的相關(guān)系數(shù)矩陣2024/7/31

25>setwd("C:/data")#設(shè)定工作路徑>eg13.3<-read.csv("example13.3.csv",header=T)#將數(shù)據(jù)讀入>c13.3=eg13.3[,-1]#exam13.3的第一列為樣本名稱不是數(shù)值,先去掉>d13.3=round(sqrt(2-2*c13.3),3)#相似陣轉(zhuǎn)換成廣義距離陣,取三位小數(shù)>rownames(d13.3)=exam13.3[,1]>d13.3

X100米X200米X400米

X800米X1500米X5000米X10000米馬拉松100米0.0000.3920.5640.6990.7750.8730.8570.980200米0.3920.0000.5460.6210.6710.7810.7780.899400米0.5640.5460.000

0.5100.5740.6650.6530.768800米0.6990.6210.5100.0000.4050.522

0.5120.6231500米0.7750.6710.574

0.4050.0000.3790.3610.5185000米0.8730.7810.665

0.5220.3790.0000.2240.36910000米0.8570.7780.6530.5120.3610.2240.0000.338馬拉松0.9800.8990.7680.6230.5180.3690.3380.0002024/7/31

26>D13.3=cmdscale(d13.3,k=2,eig=T),D13.3

#k取為2,給出特征向量和特征值$points[,1][,2]100米-0.5273079050-0.4241746300.12620103400米-0.219741318-0.21411107800米0.003249949-0.227485801500米0.146859676-0.084591405000米0.3046913650.0667815610000米0.2994955630.06799955馬拉松0.4169272990.12579130$eig[1]8.842051e-011.650194e-011.258240e-018.178272e-026.736816e-02[6]4.726735e-022.266967e-023.045637e-18……>sum(abs(D13.3$eig[1:2]))/sum(abs(D13.3$eig))#計算a1.2[1]0.7525982>sum((D13.3$eig[1:2])^2)/sum((D13.3$eig)^2)#計算a2.2[1]0.9644675由R輸出結(jié)果知B的八個特征值均非負,說明所得的廣義距離陣為歐氏型距離陣.兩個累積貢獻率分別為75.26%和96.45%,權(quán)衡后認為取k=2較適當(dāng).2024/7/31

27將這八個擬合構(gòu)造點畫出并用中文命名,得到八項指標(biāo)相似系數(shù)矩陣的古典擬合構(gòu)圖>x=D13.3$points[,1];y=D13.3$points[,2]>plot(x,y,xlim=c(-0.6,0.7),ylim=c(-0.25,0.2))#繪制擬合圖>text(x,y,labels=s(d13.3),adj=c(-0.2,-0.2),cex=0.8)#將擬合點用行名標(biāo)出>abline(h=0,v=0,lty=3)#用虛線劃分四個象限

從圖13-4可以直觀地看出,“100米”和“200米”兩項指標(biāo)靠得很近,“5000米”和“10000米”兩項指標(biāo)幾乎重疊在一起,說明這兩對指標(biāo)各自相似性都很強,這與表13-2給出的相關(guān)系數(shù)大小是一致的,它們分別表明爆發(fā)力和耐力的相似性.說明重新降維標(biāo)度后指標(biāo)仍保持強相似性.2024/7/3128圖13-4運動員八項徑賽指標(biāo)相似系數(shù)矩陣的古典擬合構(gòu)圖13.3案例分析與R實現(xiàn)

案例13.1表13-3給出了2020年我國第七次人口普查數(shù)據(jù)集中我國各地城市3歲及以上人口中接受過各類教育人群的分布情況數(shù)據(jù).試用多維標(biāo)度法對其進行統(tǒng)計分析,并對分析結(jié)果的實際意義進行解釋(數(shù)據(jù)文件為case13.1).2024/7/31

29

未上過學(xué)學(xué)前教育小學(xué)初中高中大專本科碩士博士

北京199060496110166071634858003135889249246544167451206254219589

天津1554313117831455412314089421544171384464182209722367829222

河北2570628644063475010664064746314793019961236582318972617925

山西1316204643861795519399297027419211799176170797215374316737

內(nèi)蒙古173408284087141756127877361813584137671312229271067038628

遼寧2753135933763120335955255748671583075020323440229979532491

吉林1162582313711313922345714225288751097458122887310416015901…………………………………………

青海8449271159423099560095345708281655275581163781717

寧夏89249109750497759841008525966395997390576292452676

新疆14741137387817114632494243170027714531081097813660525816表13-3我國第七次人口普查各類受教育人群的分布情況數(shù)據(jù)本案例我們采用MASS包中的isoMDS函數(shù)來實現(xiàn)2024/7/31

30>setwd("C:/data")#設(shè)定工作路徑>case13.1<-read.csv("case13.1.csv",header=T)#將case13.1.csv數(shù)據(jù)讀入>c13.1=case13.1[,-1]#case13.1的第一列不是數(shù)值先去掉,命名為c13.1>rowna

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論