版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
主編:費宇中國人民大學(xué)出版社第13章多維標(biāo)度分析2024/7/31
2多維標(biāo)度法(MultidimensionalScaling,MDS)是一種維數(shù)縮減方法,把高維的數(shù)據(jù)點映射到一個低維空間上,然后在低維空間中以較高的相似度重新展示這些點的數(shù)據(jù)結(jié)構(gòu),并由此對原始高維數(shù)據(jù)進行統(tǒng)計分析.多維標(biāo)度法起源于上世紀(jì)40年代的心理測度.1958年Torgerson正式提出了這一方法.目前應(yīng)用廣泛,內(nèi)容豐富,方法較多.兩類方法:度量分析法,非度量分析法.第13章多維標(biāo)度分析13.1
多維標(biāo)度法的基本思想13.2
古典多維標(biāo)度法
多維標(biāo)度法的幾個基本概念;
已知距離矩陣時CMDS解;
已知相似系數(shù)矩陣時CMDS解;13.3
案例分析與R實現(xiàn)2024/7/31
313.1
多維標(biāo)度法的基本思想2024/7/31
4多維標(biāo)度法是用低維空間
Rk
(k<p)中的n個點去重新標(biāo)度和展示高維空間Rp中相應(yīng)的n個點,將高維空間中的研究對象(樣本或變量)簡化到低維空間中進行定位、歸類和分析且有效保留研究對象間原始關(guān)系的多元數(shù)據(jù)分析方法.是一種維數(shù)縮減方法,主要思想是在降維的同時讓新得到的n個低維點與原來的n高維個點保持較高的相似度(如位置關(guān)系、距離、類別等),使降維后重新標(biāo)度的數(shù)據(jù)結(jié)構(gòu)發(fā)生的“形變”盡量?。?024/7/31
5多維標(biāo)度分析與主成分分析的異同:
共同點:均先降維,再做簡明有效的分析;
均依據(jù)特定矩陣的特征值的累積貢獻率來
決定降維后的維數(shù).
不同點:主成分法按包含信息大小選取主成分;
多維標(biāo)度法按標(biāo)度前后距離矩陣盡量接近
或盡量相似的原則來構(gòu)造擬合構(gòu)造點.13.2.1
多維標(biāo)度法的幾個基本概念2024/7/31
613.2
古典多維標(biāo)度法古典多維標(biāo)度(CMDS)解的定義對于距離陣,多維標(biāo)度法的目的是要尋找較小的
k和Rk中的n個點,記,表示
xi
與xj
在Rk中的歐氏距離,使得與在某種意義下盡量接近,記稱為的一個古典多維標(biāo)度(CMDS)解,稱xi
為的一個擬合構(gòu)造點,亦稱為的擬合構(gòu)圖,稱為的擬合距離陣.2024/7/317特別,當(dāng)時,稱xi
為的一個構(gòu)造點,稱為的構(gòu)圖,注意的構(gòu)圖不唯一2024/7/31
8注:歐式距離陣也稱為歐式型距離陣或Euclid距離陣
如何判斷一個距離陣
是否為歐氏型距離陣呢?幾個相關(guān)矩陣的構(gòu)造:2024/7/31
9
距離陣為歐氏型距離陣的充要條件:
從歐氏距離陣D出發(fā)得到構(gòu)圖
X的步驟:見下面例13.1.2024/7/31
10例13.1(數(shù)據(jù)文件exam13.1)給定距離矩陣D如下,問它是否是歐式型矩陣?并求其的古典多維標(biāo)度解(CMDS)
X及擬合構(gòu)造點.2024/7/31
11由B的特征值進行判斷并求X
解:在Excel中由矩陣D計算出B很方便:將D的上三角部分補齊輸入單元格區(qū)域A1:D4(如圖13-1
);然后在A6單元格內(nèi)輸入“=-(A1^2)/2”后拖放填充至D9得到矩陣A;接著如圖13-1在A的左方、下方輸入公式并拖放填充計算出行均值、列均值和總均值;最后在單元格A12內(nèi)輸入公式“=A6-$E6-A$10+$E$10”后拖放填充至D15得到矩陣B.圖13-1在Excel中由矩陣D算出矩陣B(A12:D15)的簡單過程2024/7/31
12
最后在R中計算B的所有特征值來判斷D是否是歐氏型距離陣,并求出CMDS解
X及擬合構(gòu)造點.2024/7/31
13>B=read.table("clipboard",header=F)
#讀入矩陣B(先復(fù)制單元格區(qū)域A12:D15)>eig<-eigen(B);eig
#求B的特征值特征向量并顯示eigen()decomposition$values[1]70.6013138636.6152425180.795952899-0.002509279
B的四個特征值均大于等于0(第四個特征值很小可視為0),由定理13.1知D為歐氏型距離陣.為求D的CMDS解
X及擬合構(gòu)造點(實際上可近似看作構(gòu)造點),在R中輸入如下命令:2024/7/31
14>
D=read.table("clipboard",header=F)
#讀入矩陣D(先復(fù)制對應(yīng)單元格區(qū)域A1:D4)>D13.1=cmdscale(D,k=2,eig=T);D13.1#使用stats中的cmdscale函數(shù),k取為2$points
[,1]
[,2][1,]2.526493-0.1531671[2,]
-7.110732-0.4721962[3,]3.545859-1.4437017[4,]1.038381
2.0690650$eig[1]7.059702e+016.611734e+007.937158e-012.428205e-15>sum(abs(D13.1$eig[1:2]))/sum(abs(D13.1$eig))
#計算a1.2[1]0.9898245>sum((D13.1$eig[1:2])^2)/sum((D13.1$eig)^2)
#計算a2.2[1]0.9998747D的CMDS解:2024/7/3115前兩個特征值的累積絕對貢獻率和累積平方貢獻率均超過98%,說明k取為2是適當(dāng)?shù)模膫€構(gòu)造點在坐標(biāo)分別為(2.526,-0.153),(-7.111,-0.472),(3.546,-1.444),(1.038,2.069).?dāng)M合距離陣(可與原始距離陣D對比)和擬合構(gòu)圖如下:圖13-2
距離陣D的擬合構(gòu)圖13.2.2
已知距離矩陣時CMDS解上面計算CMDS解的過程在R軟件中可使用stats包中的cmdscale()函數(shù)來實現(xiàn),也可以使用MASS包中處理非度量MDS問題的isoMDS()函數(shù)來實現(xiàn),但cmdscale()函數(shù)的好處是可以同時計算出的特征值和特征向量以及兩個累積貢獻率a1.k和a2.k的值.
2024/7/31
16
例13.2對表13-1給出的我國六個城市間的距離矩陣D,利用R軟件stats包中的cmdscale函數(shù)求
的CMDS解,給出擬合構(gòu)圖
及擬合構(gòu)造點.2024/7/3117
北京濟南青島鄭州上海南京北京0
濟南4390
青島6683620
鄭州7144437720
上海12598867769840
南京10656266177103220表13-1我國六個城市間的道路距離(單位:公里)2024/7/31
18解
在R中的程序為:>setwd("C:/data")#設(shè)定工作路徑>exam13.2<-read.csv("exam13.2.csv",header=T)#將exam13.2數(shù)據(jù)讀入>d13.2=exam13.2[,-1]#先去掉exam13.2第一列樣本名稱>rownames(d13.2)=exam13.2[,1]#為d13.2的行重新命名>D13.2=cmdscale(d13.2,k=2,eig=T);D13.2#使用基本包stats中的cmdscale函數(shù),k取為2由R計算結(jié)果可見,矩陣的六個特征值分別為:1051894,311141,59859,10289,0,-11999最后一個特征值為負,表明距離矩陣不是歐氏型距離陣.a(chǎn)1.k=94.3%,a2.k=99.7%,故k=2就可以了.由前兩個特征向量可得六個擬合構(gòu)造點分別為:(612.2,119.4),(218.2,11.8),(38.0,319.8)(193.7,430.2),(646.1,57.4),(416.0,78.3)2024/7/31
19>x=D13.2$points[,1];>y=D13.2$points[,2]>plot(x,y,xlim=c(-700,800),ylim=c(-300,600))#根據(jù)兩個特征向量的分量大小繪散點圖>text(x,y,labels=s(d13.2),adj=c(0,-0.5),cex=0.8)#將擬合點用行名標(biāo)出再畫六個城市距離矩陣的擬合構(gòu)圖,并用中文標(biāo)明(注意:擬合構(gòu)圖主要表示六個城市間的相對距離,和各城市在地圖上的實際位置可能不一致)圖13-3
我國六城市距離陣的擬合構(gòu)圖2024/7/31
202024/7/3121
易計算出六個擬合構(gòu)造點在R2中的歐氏距離陣,將它們與表13-1中城市間的原始距離數(shù)據(jù)進行對比,可見大多數(shù)距離數(shù)據(jù)擬合較好,有6個城市距離相差公里數(shù)為個位數(shù),只有兩個城市距離相差在50~60公里.>D1<-dist(D13.2$points[,1:2],method="euclidean",diag=T,p=2)>D1
北京
濟南
青島
鄭州
上海
南京北京
0.0000濟南
408.48960.0000青島
608.1445356.81290.0000鄭州
690.8417442.6457765.94660.0000上海1259.8374865.4658732.6946971.06630.0000南京1047.0937640.5733603.8211704.0036267.07110.000013.2.3
已知相似系數(shù)矩陣時的CMDS解2024/7/3122
例13.3對55個國家和地區(qū)的男子徑賽記錄作統(tǒng)計,每位運動員記錄8項指標(biāo):100米、200米、400米、800米、1500米、5000米、10000米和馬拉松.這8項指標(biāo)的相關(guān)矩陣C如表13-2所示.求C的CMDS解,并給出擬合構(gòu)圖及擬合構(gòu)造點
(數(shù)據(jù)文件為exam13.3).
2024/7/31
232024/7/31
24
100米200米400米800米1500米5000米10000米馬拉松100米10.9230.8410.7560.7000.6190.6330.520200米0.92310.8510.8070.7750.6950.6970.596400米0.8410.85110.8700.8350.7790.7870.705800米0.7560.8070.87010.9180.8640.8690.8061500米0.7000.7750.8350.91810.9280.9350.8665000米0.6190.6950.7790.8640.92810.9750.93210000米0.6330.6970.7870.8690.9350.97510.943馬拉松0.5200.5960.7050.8060.8660.9320.9431表13-2運動員徑賽8項指標(biāo)的相關(guān)系數(shù)矩陣2024/7/31
25>setwd("C:/data")#設(shè)定工作路徑>eg13.3<-read.csv("example13.3.csv",header=T)#將數(shù)據(jù)讀入>c13.3=eg13.3[,-1]#exam13.3的第一列為樣本名稱不是數(shù)值,先去掉>d13.3=round(sqrt(2-2*c13.3),3)#相似陣轉(zhuǎn)換成廣義距離陣,取三位小數(shù)>rownames(d13.3)=exam13.3[,1]>d13.3
X100米X200米X400米
X800米X1500米X5000米X10000米馬拉松100米0.0000.3920.5640.6990.7750.8730.8570.980200米0.3920.0000.5460.6210.6710.7810.7780.899400米0.5640.5460.000
0.5100.5740.6650.6530.768800米0.6990.6210.5100.0000.4050.522
0.5120.6231500米0.7750.6710.574
0.4050.0000.3790.3610.5185000米0.8730.7810.665
0.5220.3790.0000.2240.36910000米0.8570.7780.6530.5120.3610.2240.0000.338馬拉松0.9800.8990.7680.6230.5180.3690.3380.0002024/7/31
26>D13.3=cmdscale(d13.3,k=2,eig=T),D13.3
#k取為2,給出特征向量和特征值$points[,1][,2]100米-0.5273079050-0.4241746300.12620103400米-0.219741318-0.21411107800米0.003249949-0.227485801500米0.146859676-0.084591405000米0.3046913650.0667815610000米0.2994955630.06799955馬拉松0.4169272990.12579130$eig[1]8.842051e-011.650194e-011.258240e-018.178272e-026.736816e-02[6]4.726735e-022.266967e-023.045637e-18……>sum(abs(D13.3$eig[1:2]))/sum(abs(D13.3$eig))#計算a1.2[1]0.7525982>sum((D13.3$eig[1:2])^2)/sum((D13.3$eig)^2)#計算a2.2[1]0.9644675由R輸出結(jié)果知B的八個特征值均非負,說明所得的廣義距離陣為歐氏型距離陣.兩個累積貢獻率分別為75.26%和96.45%,權(quán)衡后認為取k=2較適當(dāng).2024/7/31
27將這八個擬合構(gòu)造點畫出并用中文命名,得到八項指標(biāo)相似系數(shù)矩陣的古典擬合構(gòu)圖>x=D13.3$points[,1];y=D13.3$points[,2]>plot(x,y,xlim=c(-0.6,0.7),ylim=c(-0.25,0.2))#繪制擬合圖>text(x,y,labels=s(d13.3),adj=c(-0.2,-0.2),cex=0.8)#將擬合點用行名標(biāo)出>abline(h=0,v=0,lty=3)#用虛線劃分四個象限
從圖13-4可以直觀地看出,“100米”和“200米”兩項指標(biāo)靠得很近,“5000米”和“10000米”兩項指標(biāo)幾乎重疊在一起,說明這兩對指標(biāo)各自相似性都很強,這與表13-2給出的相關(guān)系數(shù)大小是一致的,它們分別表明爆發(fā)力和耐力的相似性.說明重新降維標(biāo)度后指標(biāo)仍保持強相似性.2024/7/3128圖13-4運動員八項徑賽指標(biāo)相似系數(shù)矩陣的古典擬合構(gòu)圖13.3案例分析與R實現(xiàn)
案例13.1表13-3給出了2020年我國第七次人口普查數(shù)據(jù)集中我國各地城市3歲及以上人口中接受過各類教育人群的分布情況數(shù)據(jù).試用多維標(biāo)度法對其進行統(tǒng)計分析,并對分析結(jié)果的實際意義進行解釋(數(shù)據(jù)文件為case13.1).2024/7/31
29
未上過學(xué)學(xué)前教育小學(xué)初中高中大專本科碩士博士
北京199060496110166071634858003135889249246544167451206254219589
天津1554313117831455412314089421544171384464182209722367829222
河北2570628644063475010664064746314793019961236582318972617925
山西1316204643861795519399297027419211799176170797215374316737
內(nèi)蒙古173408284087141756127877361813584137671312229271067038628
遼寧2753135933763120335955255748671583075020323440229979532491
吉林1162582313711313922345714225288751097458122887310416015901…………………………………………
青海8449271159423099560095345708281655275581163781717
寧夏89249109750497759841008525966395997390576292452676
新疆14741137387817114632494243170027714531081097813660525816表13-3我國第七次人口普查各類受教育人群的分布情況數(shù)據(jù)本案例我們采用MASS包中的isoMDS函數(shù)來實現(xiàn)2024/7/31
30>setwd("C:/data")#設(shè)定工作路徑>case13.1<-read.csv("case13.1.csv",header=T)#將case13.1.csv數(shù)據(jù)讀入>c13.1=case13.1[,-1]#case13.1的第一列不是數(shù)值先去掉,命名為c13.1>rowna
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年榆林幼兒園教師事業(yè)編考試及答案
- 2025年財務(wù)筆試100題及答案
- 2025年巢湖事業(yè)單位招考試題及答案
- 2025年昌平區(qū)教師事業(yè)編考試及答案
- 2026年橋梁監(jiān)理的行為規(guī)范與職業(yè)道德
- 2026云南昆明官渡區(qū)上海師范大學(xué)附屬官渡實驗學(xué)校(中學(xué))招聘1人筆試備考題庫及答案解析
- 2025年師大附小競選大隊委筆試及答案
- 2026年哈爾濱道里區(qū)工程社區(qū)衛(wèi)生服務(wù)中心招聘若干人考試備考試題及答案解析
- 2025年字節(jié)賬號評估筆試及答案
- 2025年醫(yī)生事業(yè)編考試內(nèi)容面試及答案
- 呆滯存貨處理流程
- 互聯(lián)網(wǎng)+非遺項目商業(yè)計劃書
- GB/T 16895.6-2014低壓電氣裝置第5-52部分:電氣設(shè)備的選擇和安裝布線系統(tǒng)
- GB/T 11018.1-2008絲包銅繞組線第1部分:絲包單線
- GB 31633-2014食品安全國家標(biāo)準(zhǔn)食品添加劑氫氣
- 麻風(fēng)病防治知識課件整理
- 手術(shù)室物品清點護理質(zhì)量控制考核標(biāo)準(zhǔn)
- 消防工程監(jiān)理實施細則
- 權(quán)利的游戲雙語劇本-第Ⅰ季
- 衛(wèi)生部《臭氧消毒技術(shù)規(guī)范》
- 早期復(fù)極綜合征的再認識
評論
0/150
提交評論