版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
多元統(tǒng)計(jì)分析multivariate
data
analysisOutlines 介紹多元統(tǒng)計(jì)特征,包括多元數(shù)據(jù)之間的距離描述、多元數(shù)據(jù)圖形表達(dá)(可視化)、多元正態(tài)分布、統(tǒng)計(jì)量及顯著性檢驗(yàn)。
結(jié)合主成分分析和因子分析,探討線(xiàn)性維度減小方法。以多維標(biāo)度分析為基礎(chǔ),討論非線(xiàn)性維度減小方法。
介紹判別分布、聚類(lèi)分析等多元數(shù)據(jù)分類(lèi)和聚類(lèi)方法。X=3+randn(100,1)Y=5+6*X+2*randn(100,1)Z=8-3*X+4*X.^2+3*randn(100,1)X1=X(1:50)X2=X(51:100)Y2=Y(51:100)Y1=Y(1:50)Z1=Z(1:50)Z2=Z(51:100)B=[X1
X2
Y1
Y2
Z1
Z2]save
B.mat
B多元數(shù)據(jù)距離測(cè)量
度量空間距離公理論。數(shù)學(xué)上,距離的真實(shí)測(cè)量,稱(chēng)為度量(metric)。它遵守三個(gè)公理:設(shè)dxy表示對(duì)象x和對(duì)象y之間的距離,則公理1:dxy=dyx。公理2:dxy≥0,當(dāng)且僅當(dāng)x=y時(shí),dxy=0。
公理3:dxy≤dxo+doy,o為任意第三個(gè)對(duì)象,即滿(mǎn)足三角形任意兩邊長(zhǎng)度和大于
第三邊長(zhǎng)度。多元數(shù)據(jù)之間的距離:觀測(cè)之間的距離(1)歐幾里得距離(Euclidian
distance)但是在異質(zhì)性的環(huán)境中,樣本之間并不能直接可比。
標(biāo)準(zhǔn)化歐幾里得距離(standardized
Euclideandistance)非歐幾里得距離(non-Euclidean
distance)
歐幾里得距離是一種具體的距離,因?yàn)樗c我們距離的物理概念一致。非歐幾里得距離則有不同方式,用于滿(mǎn)足數(shù)學(xué)度量空間的測(cè)量。流行的非歐幾里得距離包括:Bray-Curtis差異(dissimilarity),L1距離(即曼哈頓距離),Jaccard指數(shù)(用于數(shù)據(jù)元素的有-無(wú)測(cè)量)。非歐幾里得距離是異質(zhì)環(huán)境數(shù)據(jù)之間差異測(cè)量的基礎(chǔ)。Bray-Curtis差異有-無(wú)數(shù)據(jù)(presence-absence
data)的差異測(cè)量?jī)煽傮w或兩樣本之間距離總體與觀測(cè)之間的距離基于比率的距離多元數(shù)據(jù)可視化指標(biāo)變量制圖
采用2、3個(gè)指標(biāo)變量(index
variable),以投影圖形方式描述4個(gè)以上的變量,稱(chēng)為投影尋蹤
(projection
pursuit)。事實(shí)上,主成分分析等多元統(tǒng)計(jì)分析就是生成指標(biāo)變量,以指標(biāo)變量描述整個(gè)變量。指標(biāo)變量制圖優(yōu)點(diǎn)是在二維或三維上,可繪制更多變量。其潛在缺陷是損失或模糊對(duì)象之間的可能差別。
MATLAB中,提供一組函數(shù)scatter3、gscatter、plot3和rotate3d等,用于繪制3D散點(diǎn)圖。x=2+rand(20,1)y=3-rand(20,1)z=5+rand(20,1)subplot(1,2,1);plot3(x,y,z,"*b");
grid
onsubplot(1,2,2);scatter3(x,y,z,"*r")多元散點(diǎn)圖
多元散點(diǎn)圖(draftsman’s
plot)顯示包含一數(shù)值圖,是一個(gè)變量與其它變量之間對(duì)應(yīng)的二維制圖。它包括一組圖形矩陣,也稱(chēng)散點(diǎn)圖矩陣(scatterplot
matrix)。每個(gè)圖形足夠小,以在一個(gè)空間可以同時(shí)查看所有圖形。這種制圖優(yōu)點(diǎn)是在二維空間繪制圖形,適合顯示變量對(duì)之間關(guān)系。缺陷是難以表達(dá)一個(gè)變量與其它多個(gè)變量之間關(guān)系,不適合顯示多變量之間關(guān)系。
MATLAB中,采用函數(shù)plotmatrix、gplotmatrix繪制散點(diǎn)圖矩陣x
=
randn(50,3);y
=
x*[-1
2
1;2
0
1;1
-2
3]";plotmatrix(y,"*b")單個(gè)數(shù)據(jù)點(diǎn)表示
這種圖形顯示每個(gè)對(duì)象的多元數(shù)據(jù),每個(gè)變量是一個(gè)具有大小和方向的符號(hào)。不同變量有不同的
符號(hào)特征,這些符號(hào)組合為人臉或星形玫瑰圖。
這種方法是1979年Fienberg提出的。它的優(yōu)點(diǎn)是可以同時(shí)顯示全部變量情形,缺陷是圖形顯示可能
依賴(lài)對(duì)象獲取的順序,而且只適合于小數(shù)據(jù)量的
多元數(shù)據(jù)(樣本數(shù)小于10,變量數(shù)小于15)。
以MATLAB數(shù)據(jù)carsmall.mat為例,采用glyphplot函數(shù),直接繪出多元數(shù)據(jù)的星形玫瑰圖或Chernoff臉部圖load
carsmall
X
=
[Acceleration
Cylinders
DisplacementHorsepower
MPG
Weight];glyphplot(X,"grid",[2,5])
Chernoff臉譜圖用于說(shuō)明多元數(shù)據(jù)的趨勢(shì),廣泛用于聚類(lèi)、判別和時(shí)間序列分析。選擇face參數(shù)可繪制出臉譜圖。不同部位有不同參數(shù)值,它們決定臉型,如描述耳可以有耳的水平面位置和半徑;眼眉有高度、坡度和長(zhǎng)度;眼睛有高度、大小、分隔距離、偏心率等;臉有寬度、半臉高度偏心率;嘴有中心位置、曲率、長(zhǎng)度和張開(kāi)程度鼻有寬度和長(zhǎng)度。采用不同變量表達(dá)臉譜參數(shù),比較臉譜,顯示出樣本數(shù)據(jù)類(lèi)型:glyphplot(X,
"Glyph","face",
"grid",[2,5])變量剖面圖
變量剖面圖是以橫軸為變量組,逐個(gè)表示變量;變量數(shù)值是縱軸,連接對(duì)象或以順序條形圖表示每個(gè)對(duì)象。該圖優(yōu)點(diǎn)是每個(gè)對(duì)象連接成一個(gè)折線(xiàn)。缺陷是不同量綱的變量不具有可比性,容易誤導(dǎo)讀者。
MATLAB中,還提供一個(gè)函數(shù)slice,可以選擇坐標(biāo)位置,完成3維實(shí)體的切片表示。首先,創(chuàng)建一個(gè)3D柵格:[x,y,z]
=
meshgrid(-3:.1:3,-3:.1:3,-3:.1:3);[n,d]=size(x(:));建立一個(gè)3D分布的數(shù)據(jù):a
=
(2*pi)^(3/2);si=
(x.^2
+
y.^2
+
z.^2);prob
=
exp((-.5)*si)/a;選擇x=0,
y=0,
z=0的平面位置進(jìn)行切片:slice(x,y,z,prob,0,0,0)xlabel("X"),ylabel("Y"),zlabel("Z")Andrews曲線(xiàn)X=[7
15
5
15
2
9
5;
7
7
3
24
25
5
3;
5
25
7
6
15
9
2]t
=
linspace(-pi,pi)f1=7/sqrt(2)+15*sin(t)+5*cos(t)+15*sin(2*t)+2*t)+9*sin(3*t)+5*cos(3*t)f2=7/sqrt(2)+7*sin(t)+3*cos(t)+24*sin(2*t)+25*t)+5*sin(3*t)+3*cos(3*t)f3=5/sqrt(2)+25*sin(t)+7*cos(t)+6*sin(2*t)+15*t)+9*sin(3*t)+2*cos(3*t)plot(t,f1,".",t,f2,"*",t,f3,"o")legend("F1","F2","F3");xlabel("t")平行坐標(biāo)制圖
MATLAB中,平行坐標(biāo)制圖函數(shù)
parallelcoords也可繪制n×p的多元數(shù)據(jù)矩陣
X。在笛卡兒坐標(biāo)系中,坐標(biāo)軸是正交的,如此可以表達(dá)3D。擴(kuò)展笛卡兒坐標(biāo)系,以一組平行坐標(biāo)軸,則能夠可視化多元數(shù)據(jù)。
以MATLAB中的carsmall.mat數(shù)據(jù)為例,取其中部分變量和觀測(cè)結(jié)果,parallelcoords函數(shù)的運(yùn)行結(jié)果…load
carsmall
X
=
[Acceleration
Cylinders
DisplacementHorsepower
MPG
Weight];X1=X(30:40,:)parallelcoords(X1)合成數(shù)據(jù)表達(dá)與餅圖
合成數(shù)據(jù)是一種特定數(shù)據(jù),表示一個(gè)樣本
可能由多個(gè)成分組合而成。MATLAB中,pie、pie3函數(shù)用于表達(dá)合成數(shù)據(jù)。X
=
[19.3
22.1
51.6;
34.2
70.3
82.4;
61.4
8290.8;
50.5
54.9
59.1]x
=
sum(X)A=zeros(size(x))[c,offset]
=
max(x)A(offset)
=
1h
=
pie(x,A);
colormap
summer
得出一個(gè)餅圖,其最大比例部分與其它部分分離。以下給它增加注釋?zhuān)簍extObjs
=
findobj(h,"Type","text");oldStr
=
get(textObjs,{"String"});val
=
get(textObjs,{"Extent"});oldExt
=
cat(1,val{:});Names
=
{"X:
";"Y:
";"Z:
"};newStr
=
strcat(Names,oldStr);set(textObjs,{"String"},newStr)val1
=
get(textObjs,
{"Extent"});newExt
=
cat(1,
val1{:});
offset
=
sign(oldExt(:,1)).*(newExt(:,3)-oldExt(:,3))/2;pos
=
get(textObjs,
{"Position"});
textPos
=cat(1,
pos{:});textPos(:,1)
=textPos(:,1)+offset;set(textObjs,{"Position"},num2cell(textPos,讀者可以自己嘗試pie3函數(shù)繪制3維餅圖。
此外,MATLAB還提供bar,bar3,bar3h,barh,comet,comet3,contour,contour3,contourf,cylinder,errorbar,feather,fill,
fill3,lmesh,meshc,
meshz,pie,pie3,plot,plot3polar,quiver,quiver3,ribbon,scatter,scatter3,semilogx,semilogy,
stairs,stemstem3,surf,surfc,surfl,surfnorm和waterf函數(shù),它們適合于不同制圖情形,讀者可以根據(jù)需要,借助它們合理地完成數(shù)據(jù)可視化。
2009年版的MATLAB統(tǒng)計(jì)工具庫(kù),還有
scatterhist等圖形函數(shù)。多元數(shù)據(jù)分布
多元分布不是新概念,只是單變量概率分布的擴(kuò)展。對(duì)應(yīng)單變量的二項(xiàng)分布、正態(tài)分布和
beta分布,多元分布中有多項(xiàng)式分布(multinomial
distribution)、多元正態(tài)分布(multivariate
normal
distribution)和Diri布。多元正態(tài)分布:也稱(chēng)為多元高斯分布(multivariate
Gaussian
distributio或矩陣正態(tài)分布
多元正態(tài)分布是多元統(tǒng)計(jì)學(xué)中最受歡迎的分布,常常通過(guò)數(shù)學(xué)變換將數(shù)據(jù)擬合為正態(tài)模型。注
意,這種變換依然有爭(zhēng)議,因?yàn)橛袝r(shí)變換是由
于方便和簡(jiǎn)化計(jì)算,結(jié)果卻可能誤導(dǎo)或難以反
回原始變量。盡管如此,多數(shù)推斷性多元統(tǒng)計(jì)
學(xué)利用多元正態(tài)分布。
從單變量正態(tài)分布,到兩變量正態(tài)分布的擴(kuò)展過(guò)程,是理解多元正態(tài)分布的基礎(chǔ)。單變量X的正態(tài)分布函數(shù):
MATLAB中的多元正態(tài)分布:MATLAB中,函數(shù)
mvnrnd產(chǎn)生多元正態(tài)分布的隨機(jī)矩陣。mvnpdf用于計(jì)算多元正態(tài)概率密度函數(shù)。2009年版的
MATLAB中,提供gmdistribution函數(shù),它采用期望最大化(ExpectationMaximization,EM)算法擬合數(shù)據(jù),由高斯混合模型生成一個(gè)多元正
態(tài)分布的混合成分集。
以下是一個(gè)MATLAB的多元正態(tài)概率密度函數(shù)實(shí)例mu
=
[0
0];sigma
=
[.25
.3;
.3
1];x1
=
-3:.2:3;
x2
=
-3:.2:3;[X1,X2]
=
meshgrid(x1,x2);F
=
mvnpdf([X1(:)
X2(:)],mu,sigma);F
=
reshape(F,length(x2),length(x1));surf(x1,x2,F);caxis([min(F(:))-.5*range(F(:)),max(F(:)axis([-3
3
-3
3
0
.4])xlabel("x1");ylabel("x2");zlabel("概率密
2009年版的MATLAB中,提供函數(shù)mvncdf計(jì)算多元正態(tài)分布的累積分布。Dirichlet分布多元數(shù)據(jù)的統(tǒng)計(jì)量分布1.Wishart分布
在多元統(tǒng)計(jì)中,Wishart分布協(xié)方差矩陣分析具有重要意義。Wishart分布名稱(chēng)來(lái)自JohnWishart,是單變量χ2分布的多元擴(kuò)展或gamma分布的非整數(shù)自由度情形。
MATLAB中,函數(shù)wishrnd用于產(chǎn)生Wishart隨機(jī)矩陣。注意,函數(shù)中的sigma參數(shù)即為協(xié)方差矩陣Σ。此外,MATLAB中,還有一個(gè)逆Wishart分布(inverse
Wishart
distribution)函數(shù)iwishrnd用于生成一個(gè)逆Wishart分布的隨機(jī)數(shù)矩陣。2.Hotelling
T2分布
Hotelling
T2統(tǒng)計(jì)因Harold
Hotelling而得名是Student’s
t統(tǒng)計(jì)量在多元假設(shè)檢驗(yàn)中的擴(kuò)展。
MATLAB中,函數(shù)mvtrnd產(chǎn)生一個(gè)多元t分布的隨機(jī)矩陣。2009年版的MATLAB中,函數(shù)
mvtpdf和mvtcdf用于多元t分布的概率密度與累積概率分布。3.Wilks分布
統(tǒng)計(jì)學(xué)中,Wilks
λ分布是F-分布的擴(kuò)展。因
Samuel
S.Wilks而得名,是用于多元假設(shè)檢驗(yàn)的概率分布,尤其是似然比率檢驗(yàn)。MATLAB中,
Wilksλ是用于多元方差分析(MANOVA)函數(shù)的檢驗(yàn)統(tǒng)計(jì)量,用于檢驗(yàn)關(guān)聯(lián)變量組合的可識(shí)別群的均值是否有差異。例如,我們可以將一個(gè)班級(jí)的學(xué)生分為城市和農(nóng)村來(lái)源的兩組,考慮8門(mén)專(zhuān)業(yè)課程(8個(gè)相關(guān)變量的組合),采用
Wilksλ比較這兩組學(xué)生的成績(jī)組合均值是否有顯著差異。1.多元兩樣本均值比較:Hotelling-T^2檢2.Bonferroni校正
多元試驗(yàn)與觀測(cè)產(chǎn)生大量數(shù)據(jù),不同變量類(lèi)型、數(shù)據(jù)類(lèi)型、觀測(cè)數(shù)量和分析目的,決定不同統(tǒng)計(jì)量的采用。比較單變量與多變量顯著性檢驗(yàn),兩者有區(qū)別。設(shè)某單變量參數(shù)的零假設(shè)在0.05顯著性水平上是真實(shí),我們可以得到95%置信概率水平上結(jié)論是正確的。然而,對(duì)雙變量,獲得正確結(jié)論的概率是0.95×0.95=0.90。依此類(lèi)推,p個(gè)變量的情形將是0.95p,即至少出錯(cuò)一次的概率是1-0.95p。這樣,就產(chǎn)生了一個(gè)難以相信的結(jié)果:當(dāng)p越大,正確結(jié)論的置信度就越低。這顯然不符合實(shí)際情形,因此,意大利數(shù)學(xué)家Carlo
EmilioBonferroni提出Bonferroni校正。
多元顯著性檢驗(yàn)的Bonferroni校正是簡(jiǎn)單地給檢驗(yàn)值乘以一個(gè)p值(如果有p次獨(dú)立檢驗(yàn),則每次乘以1/p),將校正后的數(shù)值與0.05顯著性水平比較,確定是否顯著。如果校正值仍小于0.05,則拒絕零假設(shè)。
Bonferroni校正也存在一些有爭(zhēng)議的問(wèn)題,有些應(yīng)用校正情形需要慎重。3.多元多樣本均值比較Bryan
F.J.Manly歸納有4個(gè)統(tǒng)計(jì)量可以描述:(1)Wilks的Λ(lambda)檢驗(yàn)對(duì)應(yīng)的統(tǒng)計(jì)量.(2)Roy最大特征根檢驗(yàn)(3)Pillai跡統(tǒng)計(jì)量。(4)Lawes-Hotelling跡統(tǒng)計(jì)量.PP.318-3194.多元兩樣本與多樣本方差比較MATLAB中多元統(tǒng)計(jì)量比較分析1.MATLAB中多元方差分析m多an元ov方a是差一分種析“(門(mén)mu戶(hù)lt”iv檢ar驗(yàn)ia(tegantaelwyasyitseosft)va。ri如an果ce多,元MAFN-O檢VA驗(yàn))是。顯著的,則可以考慮個(gè)別單變量分析。manova也可以檢測(cè)組合差異。當(dāng)變量之間存在多重共線(xiàn)性時(shí),單純的單變量分析難以發(fā)現(xiàn)這種差異。但是manova對(duì)異常值非常敏感,尤其是樣本數(shù)量比較小時(shí)。manova假定因變量之間存在線(xiàn)性關(guān)系,也不能給出主要因子與重復(fù)因子之間的交互影響效應(yīng)。變ma量no均va滿(mǎn)用足于方同差時(shí)分分析析相多關(guān)個(gè)假相設(shè)互。依其賴(lài)基的本多假元設(shè)情是形,。待它分假析定數(shù):據(jù)①集所X有滿(mǎn)足:每個(gè)變量數(shù)據(jù)集/組(group)對(duì)應(yīng)的總體服從正態(tài)分布;每個(gè)總體的方差、協(xié)方差矩陣相同;所有的觀測(cè)相互獨(dú)立。②因變量之間是線(xiàn)性或多重共線(xiàn)性。MATLAB中,函數(shù)manova1用于實(shí)現(xiàn)單因素多元方差分析。組MA均TL值A(chǔ)B為中基,礎(chǔ)還,有生一成個(gè)譜函系數(shù)圖ma.novacluster。它在MANOVA之后,以2.MATLAB中均值多重比較檢驗(yàn)
MATLAB中,multcompare函數(shù)用于完成多重均值比較。3.多元等方差檢驗(yàn)多元等方差檢驗(yàn),也稱(chēng)為多元方差齊性(homogeneity
of
variance)檢驗(yàn),即檢驗(yàn)k群方差是否相同。它包括兩種檢驗(yàn)方法,Bartlett檢驗(yàn)和
Levene檢驗(yàn),檢驗(yàn)的零假設(shè)都是k群具有相同的方差。MATLAB中,采用vartestn函數(shù)實(shí)現(xiàn)這兩種檢驗(yàn)。(1)Bartlett檢驗(yàn)(2)Levene檢驗(yàn)減小多元數(shù)據(jù)維度:線(xiàn)性方法
多元分析的基本問(wèn)題是Richard
Bellman提出的維度災(zāi)難(curse
of
dimensionality)。在高維空間的觀測(cè)(采樣)比低維空間的更稀疏和更小代表性;高
維空間中,服從某分布的典型數(shù)據(jù)點(diǎn)被采樣的頻率更?。粩?shù)據(jù)集中的某些維度及相應(yīng)的測(cè)量特征在建
模上也沒(méi)有意義,即存在冗余。因此,多元數(shù)據(jù)分
析中,常包含有維度減少(dimension
reduction)方法。維度減少是以更小維度空間,更少的變量表
示多元數(shù)據(jù)。其目的是探索高維數(shù)據(jù)(多元數(shù)據(jù)),找出數(shù)據(jù)模式或結(jié)構(gòu);以二維或三維散點(diǎn)圖可視化
多元數(shù)據(jù)。
經(jīng)典線(xiàn)性維度減少方法包括:多元特征選擇和多元特征轉(zhuǎn)換。其中多元特征轉(zhuǎn)換方法可分為主成分分析(principal
component
analysis)和因子分析
(factor
analysis)。
主成分分析面對(duì)的問(wèn)題是,對(duì)大數(shù)據(jù)量測(cè)量變量,在數(shù)據(jù)集中含有多少冗余屬性信息?該問(wèn)題陳述包括三個(gè)特定問(wèn)題:
①相關(guān)矩陣包含的線(xiàn)性關(guān)系模式是什么?設(shè)屬性信息矩陣X,該問(wèn)題的回答等價(jià)于評(píng)價(jià)X中多重共線(xiàn)性(multicol-linearity)程正是主成分分析目標(biāo)。
②能否給相關(guān)矩陣一個(gè)最為簡(jiǎn)潔的描述?該問(wèn)題的回答等價(jià)于,消除矩陣X中的冗余信息,正是因子分析的定位。
③一個(gè)給定的相關(guān)矩陣中,是否潛藏著某種合理維度?該問(wèn)題的回答等價(jià)于假設(shè)檢驗(yàn),是因子分析要解決的問(wèn)題。
主成分分析與因子分析目的和術(shù)語(yǔ)有大量重疊,兩者都是維度減少技術(shù),都是以更少新變量替
代原有多個(gè)觀測(cè)量。有些人甚至認(rèn)為兩者沒(méi)有
本質(zhì)區(qū)別,因子分析中的一些算法也包含在主
成分分析中。
但是,兩者目的和基本模型還是有不同。概括地說(shuō),如果需要更少的維度去可視化數(shù)據(jù),簡(jiǎn)化和近似數(shù)據(jù),應(yīng)采用主成分分析;如果需要一個(gè)解釋性模型,以理解數(shù)據(jù)之間相關(guān)性,則需要因子分析。
可以認(rèn)為,因子分析是主成分分析的擴(kuò)充。主成分分析通過(guò)坐標(biāo)旋轉(zhuǎn),解釋原始p個(gè)變量的方差分布。因子分析解釋原始p個(gè)變量與公共因子之間相關(guān)性。主成分分析不依賴(lài)任何特定統(tǒng)計(jì)模型,而因子分析則以模型為基礎(chǔ)。1.主成分分析概念與原理
1901年,Karl
Pearson首先提出主成分分析(PCA)概念與描述,直到1933年Hotelling才完成PCA計(jì)算方法。計(jì)算機(jī)技術(shù)出現(xiàn)后,才有可能分析更多變量的主成分問(wèn)題。
作為最簡(jiǎn)單的多元分析方法之一,PCA通過(guò)檢測(cè)變量之間線(xiàn)性獨(dú)立性,以嚴(yán)格定量分析為基礎(chǔ),簡(jiǎn)化或合并相似特征的變量,或找出眾多變量中對(duì)系統(tǒng)行為起控制作用的變量。用一組少量的變量,替代原來(lái)眾多變量集,減少信息冗余。以PCA方法產(chǎn)生的新變量集,是原有數(shù)據(jù)變量集的子集,稱(chēng)為主成分(principalcomponents,PC)。主成分可以表達(dá)原有數(shù)據(jù)集特征,每個(gè)主成分是原有數(shù)據(jù)集中變量的線(xiàn)性組合。每個(gè)主
成分之間相互正交,這樣就沒(méi)有冗余問(wèn)題。這正是多
元分析所涉及的如何避免重復(fù)屬性信息的重復(fù)計(jì)算問(wèn)
盡管線(xiàn)性分析中,以多變量為基礎(chǔ),建立正交基方法非常多(詳細(xì)資料,請(qǐng)參閱線(xiàn)性代數(shù)相關(guān)內(nèi)容),但是主成分分析的特殊是在于:
①線(xiàn)性空間中,第一主成分是一個(gè)坐標(biāo)軸。將每個(gè)觀測(cè)(樣本)投影在該坐標(biāo)軸,其結(jié)果形成一個(gè)新變量。在所有可能選擇的坐標(biāo)軸上,該變量方差最大。
②第二主成分是垂直于第一主成分的坐標(biāo)軸。將每個(gè)觀測(cè)(樣本)投影在該坐標(biāo)軸上,產(chǎn)生另一個(gè)新變量,該變量的方差在所有可能選擇的第二坐標(biāo)軸中是最大的。
理論上,主成分包含的變量集可以和原始數(shù)據(jù)中所有的變量數(shù)目一樣多,但是實(shí)際上最初主成分之間方差和應(yīng)當(dāng)是不小于原始數(shù)據(jù)總方差的80%。
主成分常用于環(huán)境系統(tǒng)變化驅(qū)動(dòng)力分析,如環(huán)境變化、土地利用與覆蓋變化的主要驅(qū)動(dòng)力分析。
應(yīng)當(dāng)提醒,主成分分析不是萬(wàn)能技術(shù)。主成分分析期待主成分的方差集中在少數(shù)成分上,這樣可以采用少數(shù)具有較大方差的Z值,表達(dá)變量X,將X轉(zhuǎn)換為更少變量的Z成分集。如果原始數(shù)據(jù)的變量X之間沒(méi)有任何相關(guān)性,是相互獨(dú)立的,則主成分分析沒(méi)有任何意義。只有在原始數(shù)據(jù)中變量之間存在非常高的相關(guān)性,主成分分析才可能將原始數(shù)據(jù)中的眾多變量(甚至變量數(shù)p>20),縮減為2~3個(gè)主成分。變量之間強(qiáng)相關(guān),意味著原始數(shù)據(jù)中存在非常大的冗余。
從這種意義上,目前土地評(píng)價(jià)、生態(tài)評(píng)價(jià)、環(huán)境評(píng)價(jià)工作中,憑個(gè)人喜好和經(jīng)驗(yàn)選擇變量(因子),不考慮變量之間相關(guān)關(guān)系,直接加權(quán)評(píng)分,得到評(píng)價(jià)結(jié)論的方法,其過(guò)程與結(jié)論都是值得懷疑的。如果變量之
間有強(qiáng)相關(guān)性,意味著工作重復(fù)和忽略了真正的重要
變量,盡管這些變量數(shù)值可能微不足道。個(gè)人喜好是
難以被人重復(fù)的,因此,評(píng)價(jià)工作中就將出現(xiàn)不同觀
察角度,選擇不同變量和權(quán)重。從統(tǒng)計(jì)學(xué)角度,這些
評(píng)價(jià)方法不嚴(yán)謹(jǐn),也沒(méi)有說(shuō)服力。也許主成分分析考慮因子之間相關(guān)性,能讓類(lèi)似的評(píng)價(jià)工作更經(jīng)得起討論。3.主成分分析計(jì)算過(guò)程
主成分分析過(guò)程:①標(biāo)準(zhǔn)化變量X,使其均值為0、方差是1,以消除量綱影響。②計(jì)算標(biāo)準(zhǔn)化變量的協(xié)方差矩陣C。對(duì)標(biāo)準(zhǔn)化變量,矩陣C是相關(guān)矩陣。③找出矩陣C的特征根λi及其對(duì)應(yīng)特征向量ai=[a1i,a2i,…,a第i個(gè)主成分系數(shù)是ai的元素,λi是它的方差。④舍棄任何小方差對(duì)應(yīng)的主成分。例如,計(jì)算了10個(gè)變量的數(shù)據(jù)集,如果前三個(gè)主成分方差和占90%比例,則舍棄其它7個(gè)成分。4.主成分計(jì)算的兩種方法這里進(jìn)一步介紹主成分計(jì)算的兩種方法:
①使用樣本協(xié)方差矩陣計(jì)算主成分。以協(xié)方差矩陣為基礎(chǔ)的主成分分析優(yōu)點(diǎn)是,統(tǒng)計(jì)推斷方法相對(duì)容易,易于理解。
②使用樣本相關(guān)系數(shù)矩陣計(jì)算主成分。當(dāng)原始維度上方差差異明顯。例如,一些變量的方差相對(duì)其它變量的方差非常大,可以采用相關(guān)系數(shù)矩陣分析主成分。5.主成分幾何意義主成分幾何解釋是以相關(guān)矩陣C的特征函數(shù)為基礎(chǔ)。Daniel
A.Griffith以Z1和Z2為原始圖形軸,主要特征向量表示一條穿越散布z-得分點(diǎn)的直線(xiàn),z-得分點(diǎn)到該直線(xiàn)的垂直距離是最小的。所謂的主成分得分(principalcomponent
scores)是合成變量(主成分)的度量。主特征值給定了直線(xiàn)的相對(duì)長(zhǎng)度。第二特征向量必須垂直第一特征向量,確保兩個(gè)主成分之間相對(duì)獨(dú)立,其相對(duì)長(zhǎng)度由第二特征值給定。變量Z1與Z2之間相關(guān)系數(shù)是特征向量與原始z-得分坐標(biāo)之間形成的夾角,該系數(shù)用于創(chuàng)建合成變量集F。假如變量x1與x2之間是完全隨機(jī)(無(wú)相交),則相應(yīng)相關(guān)系數(shù)是0(ρ=0),Z1與Z2之間也是隨機(jī)的。這種情形下,z-得分值點(diǎn)散布是一個(gè)圓環(huán),特征值等于1,特征向量是z-得分?jǐn)?shù)軸。如果x1與x2之間是部分相關(guān),則相應(yīng)相關(guān)系數(shù)是0<ρ<1,z-得分值點(diǎn)散布是一個(gè)橢圓環(huán),特征值等于橢圓半軸,特征向量與z-得分?jǐn)?shù)軸有一個(gè)夾角。如果x1與x2完全相關(guān),相關(guān)系數(shù)為ρ=1。z-得分值點(diǎn)散布橢圓變成直線(xiàn),相對(duì)長(zhǎng)度等于2,第二特征向量的相對(duì)長(zhǎng)度是0。在三維情形下,z-得分值點(diǎn)散布是特征向量為軸的橢球或球。MATLAB中主成分分析實(shí)現(xiàn)
MATLAB中,princomp函數(shù)計(jì)算數(shù)據(jù)集的主成分,基本要求是需要一個(gè)原始的數(shù)據(jù)集,以供分析。假如缺乏原始數(shù)據(jù),但是有樣本數(shù)據(jù)之間協(xié)方差或相關(guān)系數(shù),也可以采用pcacov函數(shù)完成主成分分析。X=3+randn(30,1)Y=5+6*X+2*randn(30,1)Z=8-3*X+4*X.^2+3*randn(30,1)X1=X(1:15)X2=X(16:30)Y2=Y(16:30)Y1=Y(1:15)Z1=Z(1:15)Z2=Z(16:30)B=[X1
X2
Y1
Y2
Z1
Z2]save
B.mat
Bboxplot(B)stdr=std(B)meanr=mean(B)meanr=repmat(meanr,15,1)sr=(B-meanr)./repmat(stdr,15,1)[coefs,
scores,
variance,t2]=princomp(srI=coefs"*coefsplot(scores(:,1),scores(:,2),"+")percent_explained=100*variance/sum(varipareto(percent_explained)[st2,index]=sort(t2,"descend")extreme=index(1)extreme=index(2)corrmatrix=corrcoef(sr)corrmatrix=flipud(corrmatrix)imagesc(corrmatrix),colormap(gray)Colorbar[coefs,scores,variances,t2]=princomp(sr
主成分的表達(dá):采用圖形,顯示出不同主成分上的變量分布及其相關(guān)性,見(jiàn)PP338-340.因子分析 環(huán)境問(wèn)題中,一個(gè)區(qū)域污染可能是大氣污染,也可能是水污染和土壤污染,因此環(huán)境監(jiān)測(cè)變量可以歸于大氣因子、水因子和土壤因子。就象競(jìng)技體育的十項(xiàng)全能運(yùn)動(dòng)一樣,有的是力量型,有的是速度型項(xiàng)目。因子分析是以變量之間組合(相互依賴(lài)關(guān)系)因子為基礎(chǔ),以因子代替變量,達(dá)到減少維度的目的。
歸納起來(lái),因子分析用于擬合多元數(shù)據(jù)模型,估計(jì)變量之間某種相互依賴(lài)關(guān)系。因子分析模型中,原始數(shù)據(jù)中測(cè)量變量依賴(lài)于更少的未測(cè)量因子,因?yàn)槊總€(gè)因子可以影響更多的變量,它們是公共因子(common
factor)。假定每個(gè)變量與公共因子之間有線(xiàn)性關(guān)聯(lián),相關(guān)系數(shù)稱(chēng)載荷(loadings),每個(gè)測(cè)量變量也包括一個(gè)獨(dú)立隨機(jī)變異成分,稱(chēng)個(gè)性變差(specificvariance),因?yàn)閷?duì)每個(gè)變量是特定的。2.因子分析步驟與方法因子分析包括3個(gè)步驟:(1)確定臨時(shí)因子載荷aij:臨時(shí)因子F*之間可能有相關(guān),或個(gè)性變差之間存在相關(guān)。aij的數(shù)值越接近于零,則xi與Fj之間越無(wú)關(guān)。aij的數(shù)值絕對(duì)值越大,則xi與F間相關(guān)關(guān)系越強(qiáng)。(2)因子旋轉(zhuǎn):方差最大旋轉(zhuǎn)(varimax
rotation)方法是非常好的標(biāo)準(zhǔn)因子分析方法,由Kaiser提出并加以改進(jìn)。它基于一個(gè)假設(shè),可借助j因子的載荷平方方差解釋j因子,即,如果方差大,則趨向于0或1。方差
最大旋轉(zhuǎn)就是最大化所有因子方差和,最后找出一組
不相關(guān)的因子。在方差分析中,放棄因子之間相互獨(dú)
立思想,使因子載荷盡可能簡(jiǎn)單。
(3)計(jì)算因子分值:因子分值用于校驗(yàn)變量與因子之間相關(guān)程度,采用類(lèi)似主成分分析的方法計(jì)算它們,稱(chēng)為主成分因子分析(principal
components
factoranalysis)。3.MATLAB中因子分析實(shí)現(xiàn)
MATLAB中,采用函數(shù)factoran實(shí)現(xiàn)極大似然公共因子分析。
[lambda,psi,T,stats,F]=factoran(sr,2,"sco
ssion")具體解釋見(jiàn)PP343-344減小多元數(shù)據(jù)維度:非線(xiàn)性方法
非線(xiàn)性維度縮減是將高維空間映射到低維空間,常用方法包括多維標(biāo)度分析(multidimensional
scaling),有些中文資料中也譯為“多維標(biāo)度”。多維標(biāo)度分析概念
可視化數(shù)據(jù)的重要目標(biāo)之一是直觀感覺(jué)數(shù)據(jù)點(diǎn)之間相對(duì)距離的遠(yuǎn)近,散點(diǎn)圖就是一種良好的
工具。有些統(tǒng)計(jì)分析情形中,數(shù)據(jù)根本就不是
以點(diǎn)的形式存在,而是以?xún)蓛上嗨苹虿町惖姆?/p>
式出現(xiàn)。沒(méi)有任何數(shù)據(jù)點(diǎn),就不能繪制散點(diǎn)圖。退一步說(shuō),即使有些數(shù)據(jù)是以點(diǎn)的形式出現(xiàn),
不是兩兩點(diǎn)之間距離關(guān)系表示,散點(diǎn)圖也可能
沒(méi)有意義。因?yàn)橛行?shù)據(jù)之間兩點(diǎn)鄰近的度量
不是采用歐幾里得距離,而是必須使用非歐幾
里得距離,如城市街區(qū)距離。對(duì)這種情形的多
元變量,很難用一般圖形刻畫(huà)出觀測(cè)(樣本)之間的相似和差異關(guān)系。因此,減少維度,又
盡量不損失信息量的多維標(biāo)度分析成為一種必
要手段。
多維標(biāo)度分析(multidimensional
scaling,MDS是適應(yīng)上述情形的一組方法集,它可視化點(diǎn)對(duì)
之間在多種距離上是如何相近或差異,在更低維度空間上表示數(shù)據(jù)。MDS也不必要求采用原始數(shù)據(jù),只需要兩兩距離或相異的矩陣。有些中文多元統(tǒng)計(jì)分析著作中,多維標(biāo)度分析被稱(chēng)為多維標(biāo)度法。
多維標(biāo)度分析最初可能是用于數(shù)學(xué)心理學(xué)領(lǐng)域。
1952年,Torgerson首先提出多維標(biāo)度分析的數(shù)學(xué)模型。目前它已經(jīng)廣泛應(yīng)用在交通、生態(tài)、
地學(xué)與社會(huì)經(jīng)濟(jì)領(lǐng)域。多維標(biāo)度分析是通過(guò)模
型等方法,如采用距離、相似系數(shù)、稀疏系數(shù)
等,描述對(duì)象之間親緣關(guān)系變量,把高維對(duì)象轉(zhuǎn)換為低維情形,在較低維度空間標(biāo)度、描述更
高維度的對(duì)象,以揭示數(shù)據(jù)中隱含結(jié)構(gòu)。
與聚類(lèi)分析比較,多維標(biāo)度分析彌補(bǔ)了聚類(lèi)分析上的不足。聚類(lèi)分析歸類(lèi)相似樣本,以譜系圖反映樣本之間親緣關(guān)系,將高維樣本納入在一維譜系中,這種簡(jiǎn)化可能導(dǎo)致數(shù)據(jù)失真,使聚類(lèi)結(jié)果具有一定主觀性。多維標(biāo)度分析則將高維對(duì)象簡(jiǎn)化為較低維度,卻最大限度地保持對(duì)象之間原有相關(guān)關(guān)系。與主成分分析比較,兩者都是降低樣本空間維度。多維標(biāo)度分析更趨向以圖形方法,顯示對(duì)象之間關(guān)系。這種圖形可以是一維、二維、三維或更高的維度。一個(gè)多維標(biāo)度環(huán)境問(wèn)題實(shí)例
假設(shè)以天津n條街道/道路為對(duì)象,考慮它們之間環(huán)境質(zhì)量差異。任意兩條街道(r,s)之間差異
(dissimilarity)(有些中文教程,也將dissimilar譯為不相似。)的描述量為,表示r與s之間沒(méi)有差異,表示r與s之間環(huán)境質(zhì)量完全不同。兩兩街道比較的結(jié)果,的取值有n(n-1)/2種可能。如果不同的判斷角度,則有i角度的差異描述結(jié)果。
多維標(biāo)度分析的基本思想,是尋找到一個(gè)更小維度空間,通常是歐幾里得空間。以空間中的每個(gè)點(diǎn)表示一個(gè)對(duì)象(街道),以點(diǎn)之間的距離匹配初始的差異。兩條相似的街道由多維空間中兩個(gè)距離相近的點(diǎn)表示,兩條相異的街道則由多維空間兩個(gè)距離較遠(yuǎn)的點(diǎn)表示。多維標(biāo)度分析類(lèi)型(1)經(jīng)典MDS:
(2)度量最小二乘標(biāo)度分析(Metric
leastsquares
scaling):(3)非度量MDS:4.鄰近式鄰上近的(接pr近ox。im對(duì)it象ie之s)間的鄰字近面的理測(cè)解量,有就兩是者在類(lèi)空型間:、相時(shí)似間或其它方(similarity,)與差異(dissimilarity)。距差離異、可城以市采街用區(qū)距距離離來(lái)、表M達(dá)ah,al包an括ob歐is幾距里離得、距Mi離nk、ow加sk權(quán)i度歐量幾距里離得等。MATLAB中經(jīng)典多維標(biāo)度分析的實(shí)現(xiàn)
MATLAB中,采用cmdscale函數(shù)計(jì)算經(jīng)典多維標(biāo)度問(wèn)題。cmdscale函數(shù)采用相關(guān)點(diǎn)距離矩陣為輸入,創(chuàng)建點(diǎn)構(gòu)圖。理論上,這些點(diǎn)是在2維或3維的,以它們之間的歐幾里得距離為基礎(chǔ),建立原始距離矩陣。這樣,cmdscale創(chuàng)建點(diǎn)散點(diǎn)圖可以可視表達(dá)原始距離。其句法是:
[Y,e]=cmdscale(D)D=pdist(B,"euclidean")[Y,e]
=
cmdscale(D)[e
e/max(abs(e))]dim
=
sum(e
>
eps^(3/4))maxerr2
=
max(abs(pdist(B)
-
pdist(Y(:,1:見(jiàn)PP348-349非度量多維標(biāo)度分析PP.349-353Procrustes分析Procrustes是古希臘傳說(shuō)中Attica的強(qiáng)盜,他將被他抓到的人放在一張鐵床上,身高比床長(zhǎng)的人,被其砍去長(zhǎng)出的部分;身高比床短的人,被其強(qiáng)行拉長(zhǎng)。理解了Procrustes,就能知道Procrustes分析是比較形狀的統(tǒng)計(jì)過(guò)程。Procrustes分析,有些中文翻譯為“普魯克分析”,起源于生物學(xué)研究中的動(dòng)物形態(tài)
測(cè)定,但是很快就廣泛用于考古、天文、土木工程、地理、網(wǎng)絡(luò)設(shè)計(jì)和物理化學(xué)。相信它在環(huán)境污染模
式和環(huán)境模擬上也將有應(yīng)用價(jià)值。
Procrustes分析常用于統(tǒng)計(jì)分析的預(yù)處理步驟,它需要應(yīng)用一個(gè)標(biāo)記數(shù)據(jù)集(landmark
dataset),其中有意義的重要總體特征被標(biāo)記為具體的幾何位置。借助保留形狀的歐幾里得空間變換,最小化在位置、旋轉(zhuǎn)和尺度上的變異,Procrustes分析計(jì)算出兩個(gè)數(shù)據(jù)集中的標(biāo)記最好擬合重疊情形。MATLAB中,函數(shù)procrustes
MATLAB中,函數(shù)procrustes執(zhí)行procrustes分析,其基本句法為:d
=
procrustes(X,Y)判別分析1分類(lèi)與判別分析概述1.分類(lèi)的分?jǐn)?shù)類(lèi)據(jù)是模已型知,數(shù)稱(chēng)據(jù)為類(lèi)分型類(lèi),器將(新cl數(shù)as據(jù)si歸fi類(lèi)er的s)過(guò)。程一。個(gè)我分們類(lèi)將器類(lèi)的型建響造應(yīng),首先需要訓(xùn)練數(shù)據(jù),該數(shù)據(jù)的類(lèi)型是已知的。在一定置信水平上,分類(lèi)器將新的待分類(lèi)數(shù)據(jù)指定不同的類(lèi)型。與聚類(lèi)(cluster)不一樣,分類(lèi)是事先已知類(lèi)型,而聚類(lèi)是事先不知道類(lèi)型。(分d類(lèi)is方cr法im可in歸an納t
a為na兩ly種si:s)①。參它數(shù)以方訓(xùn)法練,數(shù)如據(jù)判為別基分礎(chǔ)析,擬合參數(shù)模型,分類(lèi)新數(shù)據(jù)。②非參數(shù)方法,如分類(lèi)樹(shù)(classification
trees)。類(lèi)似于非線(xiàn)性回歸中討論的回歸樹(shù)方法。2.判別分析(判d別is函c-數(shù)ri分mi析na(ntdiasncarliymsinsa)nt。f判un別ct分io析n
a是na多l(xiāng)y元si統(tǒng)s)計(jì),分簡(jiǎn)析稱(chēng)中判,別用分于析判別某觀測(cè)或樣本所屬類(lèi)型的一種統(tǒng)計(jì)分析方法。注意,不管采用什么樣的判別分析方法,有兩個(gè)基本假設(shè)是必需的:(1)對(duì)所有類(lèi)型,類(lèi)內(nèi)的協(xié)方差矩陣是相等的。(2)對(duì)顯著性檢
驗(yàn),類(lèi)內(nèi)數(shù)據(jù)服從多元正態(tài)分布。另外,還要求誤差獨(dú)立。
面對(duì)的問(wèn)題是用某種方法把研究對(duì)象分成若干類(lèi)型的情形下,判斷和確認(rèn)某新觀測(cè)的類(lèi)型歸屬。
判別分析首先指出最佳判別變量,以提供兩個(gè)類(lèi)群的最佳區(qū)別;然后,確定一個(gè)新觀測(cè)(樣本)與已知類(lèi)型的接近程度,即建立判別函數(shù)。
判別函數(shù)是判別變量的線(xiàn)性組合,判別函數(shù)的值稱(chēng)為判別得分。判別函數(shù)目標(biāo)是使判別組間平方和與組內(nèi)平方和之比值為最大,再利用判別得分將觀察值歸類(lèi)。
最后,指定一些判別規(guī)則,判定樣本或觀測(cè)的類(lèi)型歸屬。判別規(guī)則可以是隨機(jī)的,如Fisher準(zhǔn)則和
Bayesian準(zhǔn)則;也可以是確定的,只考慮判別函數(shù)值(得分)的大小。
判別分析有多種類(lèi)型,按判別的組數(shù)分為兩組判別分析(即樣本只能屬于A或B組)和多組判別分析;按模型分為線(xiàn)性判別和非線(xiàn)性判別;按處理過(guò)程分為逐步判別和序貫判別。
與主成分分析、因子分析比較,判別分析不需要標(biāo)準(zhǔn)化數(shù)據(jù),判別分析結(jié)果不受單個(gè)變量尺度的影響。
判別分析更類(lèi)似于回歸分析,探索獨(dú)立變量的線(xiàn)性組合,獲取獨(dú)立變量方差的最好解釋。類(lèi)似于回歸問(wèn)題,判別分析主要是針對(duì)區(qū)間變量和比率變量。當(dāng)對(duì)數(shù)回歸與判別分析的假設(shè)都滿(mǎn)足時(shí),它們趨于得到同樣結(jié)果。與聚類(lèi)分析比較,在判別分析中,至少有一個(gè)已經(jīng)明確知道類(lèi)別的“訓(xùn)練樣本”。
利用這個(gè)數(shù)據(jù),建立判別準(zhǔn)則,判別未知類(lèi)別觀測(cè)值的歸屬。聚類(lèi)分析中,一般人們事先并不知道或一定要明確應(yīng)該分成幾類(lèi),完全根據(jù)數(shù)據(jù)來(lái)確定。
環(huán)境統(tǒng)計(jì)中,判別分析面對(duì)環(huán)境質(zhì)量分級(jí)或污染性質(zhì)分類(lèi)等具體情形,目的有二:
①評(píng)價(jià)區(qū)域環(huán)境對(duì)象分類(lèi)或分區(qū)的合理性。多數(shù)環(huán)境問(wèn)題是區(qū)域性問(wèn)題,以多元分析為基礎(chǔ),指明區(qū)域之間的環(huán)境差異。因此,判別分析應(yīng)當(dāng)回答的問(wèn)題是,p個(gè)預(yù)測(cè)變量最有力的線(xiàn)性組合關(guān)系是什么?以此為基礎(chǔ),才能建構(gòu)環(huán)境特征歸類(lèi)或區(qū)域的最大分割。
②對(duì)新采樣的環(huán)境樣本,或面臨新的環(huán)境區(qū)域,與以往類(lèi)型進(jìn)行比較,判斷樣本或區(qū)域?qū)傩裕瑢儆谀姆N類(lèi)型。即提出適當(dāng)計(jì)算規(guī)則,有效地歸納新樣本到既有類(lèi)型中。在區(qū)域問(wèn)題處理上,判別分析也可以用于遙感圖象數(shù)據(jù)解釋與計(jì)算處理。2判別分析方法與準(zhǔn)則
判別分析方法很多,包括Mahalanobis距離判別法、Fisher判別法、Bayesian判別法、典型判別函數(shù)、逐步判別函數(shù)分析、觀測(cè)
的Jackknife分類(lèi)和Logistic回歸等。1.使用Mahalanobis距離的判別分析
最簡(jiǎn)單的判別分析辦法,就是計(jì)算到哪個(gè)類(lèi)型中心距離最近,按最近距離判別對(duì)象屬于哪一類(lèi)。通常使用的距離是Mahalanobis距離。
判別函數(shù)(discriminant
function)是用來(lái)比較個(gè)中心距離的數(shù)學(xué)函數(shù)。這種根據(jù)距離遠(yuǎn)近進(jìn)行判別的方法,原理簡(jiǎn)單,直觀易懂。利用
Mahalanobis距離進(jìn)行判別分析,是以m個(gè)樣本平均向量為基礎(chǔ),估計(jì)真實(shí)n個(gè)平均向量的類(lèi)
型。計(jì)算個(gè)體到每個(gè)類(lèi)中心的Mahalanobis距離判斷每個(gè)個(gè)體更趨于歸屬哪個(gè)類(lèi)。2.典型判別函數(shù)
典型判別函數(shù)(canonical
discriminantfunctions)思想來(lái)源于1936年Fisher的研究它建立在以方差分析為基礎(chǔ)的F-統(tǒng)計(jì)量上,找出p個(gè)變量的線(xiàn)性組合,使類(lèi)間差異最大,類(lèi)內(nèi)差異最小。找出線(xiàn)性組合實(shí)際是一個(gè)特征值問(wèn)題,與類(lèi)間的線(xiàn)性組合無(wú)關(guān)。3.Fisher判別分析(P359-361)4.Bayesian判別分析
Bayesian判別的統(tǒng)計(jì)思想是,假定對(duì)研究對(duì)象已有一定認(rèn)識(shí),常用先驗(yàn)概率分布來(lái)描述這種
認(rèn)識(shí);然后我們?nèi)〉靡粋€(gè)樣本,用樣本修正已
有知識(shí)(先驗(yàn)概率分布),得到后驗(yàn)概率分布,各種統(tǒng)計(jì)推斷都通過(guò)后驗(yàn)概率分布來(lái)進(jìn)行。將
這種思想用于判別分析,就得到Bayesian判別。5.逐步判別分析MATLAB中判別分析的實(shí)現(xiàn)
判別分析應(yīng)用訓(xùn)練數(shù)據(jù),估計(jì)自變量的判別函數(shù)參數(shù)。判別函數(shù)決定自變量不同類(lèi)型空間的邊界。1.函數(shù)classify
MATLAB中,函數(shù)classify用于判別分析。其語(yǔ)法規(guī)則是:class=classify(sample,
training,
group,
ty[class,
err,
posterior,
logp]=classify(…)
以MATLAB自帶的數(shù)據(jù)fisheriris.mat為例,討論判別分析過(guò)程。
(1)先選擇訓(xùn)練數(shù)據(jù),采用散點(diǎn)圖觀察數(shù)據(jù)類(lèi)型:從圖可見(jiàn),該數(shù)據(jù)包括兩種類(lèi)型,而且沒(méi)有很明顯的區(qū)分界限。load
fisheririsSL
=
meas(51:end,1);SW
=
meas(51:end,2);group
=
species(51:end);h1
=
gscatter(SL,SW,group);set(h1,"LineWidth",2)legend("組1","組2","Location","NW")
(2)采用函數(shù)classify進(jìn)行判別分類(lèi):為了表達(dá)分類(lèi)在同樣尺度上,可以采用meshgrid函數(shù)繪制格網(wǎng)。[X,Y]
=
meshgrid(linspace(4,8),linspace(X
=
X(:);
Y
=
Y(:);
[class,err,posterior,logp]
=
classify([XSW],group,"quadratic")(3)可視化分類(lèi)結(jié)果(圖):hold
ongscatter(X,Y,class,"wb",".",1,"off")axis([4.5
8
2
4])xlabel("萼片長(zhǎng)度(SL)")ylabel("萼片寬度(SW)")當(dāng)然,也可以直接列舉出分類(lèi)結(jié)果。如:load
discrimsample
=
ratings(idx,:)training
=
ratings(1:200,:)g
=
group(1:200)class
=
classify(sample,training,g)first5
=
class(1:5)first5
=
2
2
2
2
2函數(shù)knnclassify和函數(shù)svmclassify
MATLAB中,函數(shù)svmclassify和函數(shù)knnclassi也是判別分類(lèi)函數(shù)。其中函數(shù)svmclassify是以支持向量機(jī)(a
support
vector
machine)為基礎(chǔ)的分類(lèi)器,函數(shù)knnclassify是以近鄰方法為基礎(chǔ)的數(shù)據(jù)分類(lèi)。knnclassify函數(shù)基本句法是:
class
=
knnclassify(Sample,
Training,
Groudistance,
rule)svmclassify函數(shù)基本句法是:
group
=
svmclassify(SVMStruct,
Sample,"PropertyName",
PropertyValue...)以下是一個(gè)簡(jiǎn)單例子:sample
=
[.9
.8;.1
.3;.2
.6]training=[0
0;.5
.5;1
1]group
=
[1;2;3]class
=
knnclassify(sample,
training,
group)class
=
3
1
2更大一些的數(shù)據(jù)集,我們可以隨機(jī)產(chǎn)生一組隨機(jī)正態(tài)分布訓(xùn)練數(shù)據(jù):training
=
[mvnrnd([
1
1],
eye(2),
100);
mvnrnd([2*eye(2),
100)]指定類(lèi)型,并繪制訓(xùn)練數(shù)據(jù)類(lèi)型分布(圖):group
=
[repmat(1,100,1);
repmat(2,100,1)]gscatter(training(:,1),training
(:,2),group,"rlegend("訓(xùn)練組1","訓(xùn)練組2");hold
on再生成一個(gè)連續(xù)均勻分布的樣本分類(lèi)(圖):sample
=
unifrnd(-5,
5,
100,
2)c
=
knnclassify(sample,
training,
group)gscatter(sample(:,1),sample(:,2),c,"mc");
ho
legend("訓(xùn)練組1","訓(xùn)練組2","組1中的數(shù)據(jù)","中的數(shù)據(jù)")hold
off現(xiàn)在指定k=10,即每個(gè)中心有10個(gè)近鄰(圖):gscatter(training(:,1),training(:,2),group,hold
onc3
=
knnclassify(sample,
training,
group,
10)gscatter(sample(:,1),sample(:,2),c3,"mc","o
legend("訓(xùn)練組1","訓(xùn)練組2","組1中的數(shù)據(jù)","中的數(shù)據(jù)")hold
offsvmclassify函數(shù)%
Load
the
data
and
select
features
for
classificationload
fisheririsdata
=
[meas(:,1),
meas(:,2)];%
Extract
the
Setosa
classgroups
=
ismember(species,"setosa");%
Randomly
select
training
and
test
sets[train,
test]
=
crossvalind("holdOut",groups);cp
=
classperf(groups);%
Use
a
linear
support
vector
machine
classifiersvmStruct
=
svmtrain(data(train,:),groups(train),"showpclasses
=
svmclassify(svmStruct,data(test,:),"showplot"%
See
how
well
the
classifier
performedclassperf(cp,classes,test);cp.CorrectRate聚類(lèi)分析聚類(lèi)分析(cluster
analysis),也稱(chēng)為分割分析(segmentation
analysis)或分類(lèi)分析(taxonomyanalysis),根據(jù)數(shù)據(jù)特征將數(shù)據(jù)集分割為類(lèi)型,是一種以對(duì)象組間距離最大,組內(nèi)對(duì)象距離最小為基礎(chǔ),將對(duì)象分為多個(gè)類(lèi)群的方法。聚類(lèi)分析是
一種與判別分析功能相反的多元統(tǒng)計(jì)分析技術(shù)。
本質(zhì)上,聚類(lèi)分析屬于非監(jiān)督分類(lèi),事先并不知
道包含多少種類(lèi)型。判別分析則是監(jiān)督分類(lèi),事
先已知類(lèi)型。明顯地,相對(duì)判別分析而言,聚類(lèi)
分析困難一些,因?yàn)榕袆e分析事先已知類(lèi)型情形,聚類(lèi)分析類(lèi)型事先是未知的。聚類(lèi)分析非常有用,它可以用于探索分析多種類(lèi)型的數(shù)據(jù)集,完成數(shù)
據(jù)挖掘,在工程、生物、醫(yī)療、語(yǔ)言、人類(lèi)學(xué)、
心理學(xué)和市場(chǎng)等許多領(lǐng)域有廣泛應(yīng)用。
聚類(lèi)分析算法實(shí)際是找出一些變量關(guān)系的距離函數(shù)以樣本之間相似性,類(lèi)群之間相離性為基礎(chǔ),分類(lèi)樣本,完成聚類(lèi)。因此聚類(lèi)分析中,需要選擇聚類(lèi)標(biāo)準(zhǔn),確定將形成多少類(lèi)。多數(shù)聚類(lèi)算法只是簡(jiǎn)單地以最大相似性連接樣本對(duì)象對(duì),聚合成類(lèi)群。首先計(jì)算對(duì)象間的相似性,然后以相似性計(jì)算結(jié)果為基礎(chǔ),生成一個(gè)層次樹(shù),即一種表示親緣關(guān)系的譜系圖(dendrogram)。有時(shí)還應(yīng)當(dāng)考慮變量的絕對(duì)值,絕對(duì)值大不一定表示重要。有些環(huán)境數(shù)值盡管絕對(duì)值小,但是其含量對(duì)揭示環(huán)境狀態(tài),卻顯得非常重要。因此需要采用自動(dòng)縮放技術(shù)(autoscaling),通過(guò)校正將數(shù)據(jù)變換均值為0,方差是1的數(shù)據(jù)。其次,為避免負(fù)相關(guān),可使用對(duì)數(shù)比
率轉(zhuǎn)換方法。聚類(lèi)分析類(lèi)型(a1g)gl譜om系er聚at類(lèi)iv方e法hi(erhairecrhaircahlimceatlhcoldu,stAeHrMi)ng。)也:有又人稱(chēng)稱(chēng)凝之聚為層系次統(tǒng)方聚法類(lèi)。它以對(duì)象之間距離計(jì)算為基礎(chǔ),合并鄰近對(duì)象,最終產(chǎn)生表示親緣關(guān)系的譜系圖。聚(類(lèi)2)(分di割vi聚si類(lèi)ve(hpiaertairtcihoincianlgmceltuhsotde,riDnHgM):或正k-好均與值前聚者類(lèi)相。反這,種也方稱(chēng)法為有分許裂多法,基本算法是根據(jù)經(jīng)驗(yàn)選擇一些類(lèi)型中心(比如兩個(gè)類(lèi)),然后以對(duì)象到類(lèi)型中心距離為基礎(chǔ),確認(rèn)哪些對(duì)象該進(jìn)或該出某些類(lèi)型。一旦分割完成,按類(lèi)
型平均值重新計(jì)算類(lèi)型中心。再次合并或分割子類(lèi),直到得到滿(mǎn)足限定條件
的分類(lèi)結(jié)果。其計(jì)算基礎(chǔ)是近鄰方法(the
nearest-neighbor
method)。的譜類(lèi)系群聚;類(lèi)對(duì)和異k-常均值敏聚感類(lèi);都統(tǒng)有計(jì)一特定征的未主知觀等性問(wèn),題甚。至出現(xiàn)空類(lèi);趨于特定分布形狀以(概3)率基密于度模為型中聚心類(lèi)的(有m限od混el合-模ba型se。d
c使lu用st概e率ri模ng型)進(jìn)方行法聚是類(lèi)以的概思率想模開(kāi)型始為于基上礎(chǔ),如世紀(jì)六十年代,1965年Edwards等提出借助有限混合模型,進(jìn)行聚類(lèi)分析問(wèn)題。有限混合模型方法是,假定以加權(quán)組分密度模擬概率密度函數(shù),當(dāng)使用有限混合進(jìn)行聚類(lèi)分析,聚類(lèi)問(wèn)題轉(zhuǎn)換為估計(jì)假設(shè)混合模型的參數(shù),如概率密度
估計(jì)。每個(gè)組分密度對(duì)應(yīng)一個(gè)類(lèi)群,采用后驗(yàn)概率確認(rèn)聚類(lèi)結(jié)果。常用的估
計(jì)有限概率密度參數(shù)方法是EM算法(Expectation-Maximization
algorithm,
EM),它以極大似然估計(jì)為基礎(chǔ)。高斯混合模型聚類(lèi)(Gaussian
mixture
models):是通過(guò)表示觀測(cè)變量的概率密度函數(shù)為多元正態(tài)密度的混合體。聚類(lèi)過(guò)程包括五個(gè)步驟擇((1)選模取式變陳量述):、這特是征聚提類(lèi)取的(初確始定步觀驟測(cè),樣包本括數(shù)選目擇、類(lèi)選群擇數(shù)測(cè)目量、尺特度征、選完成數(shù)據(jù)轉(zhuǎn)換)。類(lèi)(群2)之模間式的鄰距近離度或量鄰:近多程數(shù)度聚,類(lèi)但方是法不要同求的度距量離觀度測(cè)量樣,本可與能其導(dǎo)可致能不歸同屬的數(shù)據(jù)分割結(jié)果。性(的3),分觀組測(cè):樣分本組只是能一是個(gè)屬將于數(shù)或據(jù)不分屬割于為
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年工業(yè)預(yù)測(cè)性維護(hù)算法效果保證協(xié)議
- 密胺餐具模具開(kāi)發(fā)合同
- 檢驗(yàn)科實(shí)驗(yàn)室廢氣的處理制度及流程
- 火災(zāi)報(bào)警處理及日常管理制度內(nèi)容
- 古典概型課件3.1
- 山東省濰坊市諸城一中2025-2026學(xué)年高二上學(xué)期1月期末考試思想政治試卷(含解析)
- 《月有陰晴圓缺》課件
- 2025年信陽(yáng)藝術(shù)職業(yè)學(xué)院馬克思主義基本原理概論期末考試模擬題及答案解析(奪冠)
- 2025年上思縣招教考試備考題庫(kù)帶答案解析(必刷)
- 2024年鄂城鋼鐵廠(chǎng)職工大學(xué)馬克思主義基本原理概論期末考試題帶答案解析
- 陜西省西安市工業(yè)大學(xué)附屬中學(xué)2025-2026學(xué)年上學(xué)期八年級(jí)期末數(shù)學(xué)試題(原卷版+解析版)
- 電工素質(zhì)培訓(xùn)課件
- 2026年陜西省森林資源管理局局屬企業(yè)公開(kāi)招聘工作人員備考題庫(kù)及參考答案詳解一套
- 講解員發(fā)聲技巧培訓(xùn)
- TCTA 011-2026 智能水尺觀測(cè)系統(tǒng)操作規(guī)程
- 律師事務(wù)所年度業(yè)績(jī)考核方案
- 2025年6月江蘇揚(yáng)州經(jīng)濟(jì)技術(shù)開(kāi)發(fā)區(qū)區(qū)屬?lài)?guó)有企業(yè)招聘23人筆試參考題庫(kù)附帶答案詳解(3卷)
- 四川省2025年高職單招職業(yè)技能綜合測(cè)試(中職類(lèi)) 護(hù)理類(lèi)試卷(含答案解析)
- 三體系基礎(chǔ)培訓(xùn)
- DL∕T 5210.5-2018 電力建設(shè)施工質(zhì)量驗(yàn)收規(guī)程 第5部分:焊接
- CJJT67-2015 風(fēng)景園林制圖標(biāo)準(zhǔn)
評(píng)論
0/150
提交評(píng)論