多元統(tǒng)計(jì)分析2012_第1頁(yè)
多元統(tǒng)計(jì)分析2012_第2頁(yè)
多元統(tǒng)計(jì)分析2012_第3頁(yè)
多元統(tǒng)計(jì)分析2012_第4頁(yè)
多元統(tǒng)計(jì)分析2012_第5頁(yè)
已閱讀5頁(yè),還剩128頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

多元統(tǒng)計(jì)分析multivariate

data

analysisOutlines 介紹多元統(tǒng)計(jì)特征,包括多元數(shù)據(jù)之間的距離描述、多元數(shù)據(jù)圖形表達(dá)(可視化)、多元正態(tài)分布、統(tǒng)計(jì)量及顯著性檢驗(yàn)。

結(jié)合主成分分析和因子分析,探討線(xiàn)性維度減小方法。以多維標(biāo)度分析為基礎(chǔ),討論非線(xiàn)性維度減小方法。

介紹判別分布、聚類(lèi)分析等多元數(shù)據(jù)分類(lèi)和聚類(lèi)方法。X=3+randn(100,1)Y=5+6*X+2*randn(100,1)Z=8-3*X+4*X.^2+3*randn(100,1)X1=X(1:50)X2=X(51:100)Y2=Y(51:100)Y1=Y(1:50)Z1=Z(1:50)Z2=Z(51:100)B=[X1

X2

Y1

Y2

Z1

Z2]save

B.mat

B多元數(shù)據(jù)距離測(cè)量

度量空間距離公理論。數(shù)學(xué)上,距離的真實(shí)測(cè)量,稱(chēng)為度量(metric)。它遵守三個(gè)公理:設(shè)dxy表示對(duì)象x和對(duì)象y之間的距離,則公理1:dxy=dyx。公理2:dxy≥0,當(dāng)且僅當(dāng)x=y時(shí),dxy=0。

公理3:dxy≤dxo+doy,o為任意第三個(gè)對(duì)象,即滿(mǎn)足三角形任意兩邊長(zhǎng)度和大于

第三邊長(zhǎng)度。多元數(shù)據(jù)之間的距離:觀測(cè)之間的距離(1)歐幾里得距離(Euclidian

distance)但是在異質(zhì)性的環(huán)境中,樣本之間并不能直接可比。

標(biāo)準(zhǔn)化歐幾里得距離(standardized

Euclideandistance)非歐幾里得距離(non-Euclidean

distance)

歐幾里得距離是一種具體的距離,因?yàn)樗c我們距離的物理概念一致。非歐幾里得距離則有不同方式,用于滿(mǎn)足數(shù)學(xué)度量空間的測(cè)量。流行的非歐幾里得距離包括:Bray-Curtis差異(dissimilarity),L1距離(即曼哈頓距離),Jaccard指數(shù)(用于數(shù)據(jù)元素的有-無(wú)測(cè)量)。非歐幾里得距離是異質(zhì)環(huán)境數(shù)據(jù)之間差異測(cè)量的基礎(chǔ)。Bray-Curtis差異有-無(wú)數(shù)據(jù)(presence-absence

data)的差異測(cè)量?jī)煽傮w或兩樣本之間距離總體與觀測(cè)之間的距離基于比率的距離多元數(shù)據(jù)可視化指標(biāo)變量制圖

采用2、3個(gè)指標(biāo)變量(index

variable),以投影圖形方式描述4個(gè)以上的變量,稱(chēng)為投影尋蹤

(projection

pursuit)。事實(shí)上,主成分分析等多元統(tǒng)計(jì)分析就是生成指標(biāo)變量,以指標(biāo)變量描述整個(gè)變量。指標(biāo)變量制圖優(yōu)點(diǎn)是在二維或三維上,可繪制更多變量。其潛在缺陷是損失或模糊對(duì)象之間的可能差別。

MATLAB中,提供一組函數(shù)scatter3、gscatter、plot3和rotate3d等,用于繪制3D散點(diǎn)圖。x=2+rand(20,1)y=3-rand(20,1)z=5+rand(20,1)subplot(1,2,1);plot3(x,y,z,"*b");

grid

onsubplot(1,2,2);scatter3(x,y,z,"*r")多元散點(diǎn)圖

多元散點(diǎn)圖(draftsman’s

plot)顯示包含一數(shù)值圖,是一個(gè)變量與其它變量之間對(duì)應(yīng)的二維制圖。它包括一組圖形矩陣,也稱(chēng)散點(diǎn)圖矩陣(scatterplot

matrix)。每個(gè)圖形足夠小,以在一個(gè)空間可以同時(shí)查看所有圖形。這種制圖優(yōu)點(diǎn)是在二維空間繪制圖形,適合顯示變量對(duì)之間關(guān)系。缺陷是難以表達(dá)一個(gè)變量與其它多個(gè)變量之間關(guān)系,不適合顯示多變量之間關(guān)系。

MATLAB中,采用函數(shù)plotmatrix、gplotmatrix繪制散點(diǎn)圖矩陣x

=

randn(50,3);y

=

x*[-1

2

1;2

0

1;1

-2

3]";plotmatrix(y,"*b")單個(gè)數(shù)據(jù)點(diǎn)表示

這種圖形顯示每個(gè)對(duì)象的多元數(shù)據(jù),每個(gè)變量是一個(gè)具有大小和方向的符號(hào)。不同變量有不同的

符號(hào)特征,這些符號(hào)組合為人臉或星形玫瑰圖。

這種方法是1979年Fienberg提出的。它的優(yōu)點(diǎn)是可以同時(shí)顯示全部變量情形,缺陷是圖形顯示可能

依賴(lài)對(duì)象獲取的順序,而且只適合于小數(shù)據(jù)量的

多元數(shù)據(jù)(樣本數(shù)小于10,變量數(shù)小于15)。

以MATLAB數(shù)據(jù)carsmall.mat為例,采用glyphplot函數(shù),直接繪出多元數(shù)據(jù)的星形玫瑰圖或Chernoff臉部圖load

carsmall

X

=

[Acceleration

Cylinders

DisplacementHorsepower

MPG

Weight];glyphplot(X,"grid",[2,5])

Chernoff臉譜圖用于說(shuō)明多元數(shù)據(jù)的趨勢(shì),廣泛用于聚類(lèi)、判別和時(shí)間序列分析。選擇face參數(shù)可繪制出臉譜圖。不同部位有不同參數(shù)值,它們決定臉型,如描述耳可以有耳的水平面位置和半徑;眼眉有高度、坡度和長(zhǎng)度;眼睛有高度、大小、分隔距離、偏心率等;臉有寬度、半臉高度偏心率;嘴有中心位置、曲率、長(zhǎng)度和張開(kāi)程度鼻有寬度和長(zhǎng)度。采用不同變量表達(dá)臉譜參數(shù),比較臉譜,顯示出樣本數(shù)據(jù)類(lèi)型:glyphplot(X,

"Glyph","face",

"grid",[2,5])變量剖面圖

變量剖面圖是以橫軸為變量組,逐個(gè)表示變量;變量數(shù)值是縱軸,連接對(duì)象或以順序條形圖表示每個(gè)對(duì)象。該圖優(yōu)點(diǎn)是每個(gè)對(duì)象連接成一個(gè)折線(xiàn)。缺陷是不同量綱的變量不具有可比性,容易誤導(dǎo)讀者。

MATLAB中,還提供一個(gè)函數(shù)slice,可以選擇坐標(biāo)位置,完成3維實(shí)體的切片表示。首先,創(chuàng)建一個(gè)3D柵格:[x,y,z]

=

meshgrid(-3:.1:3,-3:.1:3,-3:.1:3);[n,d]=size(x(:));建立一個(gè)3D分布的數(shù)據(jù):a

=

(2*pi)^(3/2);si=

(x.^2

+

y.^2

+

z.^2);prob

=

exp((-.5)*si)/a;選擇x=0,

y=0,

z=0的平面位置進(jìn)行切片:slice(x,y,z,prob,0,0,0)xlabel("X"),ylabel("Y"),zlabel("Z")Andrews曲線(xiàn)X=[7

15

5

15

2

9

5;

7

7

3

24

25

5

3;

5

25

7

6

15

9

2]t

=

linspace(-pi,pi)f1=7/sqrt(2)+15*sin(t)+5*cos(t)+15*sin(2*t)+2*t)+9*sin(3*t)+5*cos(3*t)f2=7/sqrt(2)+7*sin(t)+3*cos(t)+24*sin(2*t)+25*t)+5*sin(3*t)+3*cos(3*t)f3=5/sqrt(2)+25*sin(t)+7*cos(t)+6*sin(2*t)+15*t)+9*sin(3*t)+2*cos(3*t)plot(t,f1,".",t,f2,"*",t,f3,"o")legend("F1","F2","F3");xlabel("t")平行坐標(biāo)制圖

MATLAB中,平行坐標(biāo)制圖函數(shù)

parallelcoords也可繪制n×p的多元數(shù)據(jù)矩陣

X。在笛卡兒坐標(biāo)系中,坐標(biāo)軸是正交的,如此可以表達(dá)3D。擴(kuò)展笛卡兒坐標(biāo)系,以一組平行坐標(biāo)軸,則能夠可視化多元數(shù)據(jù)。

以MATLAB中的carsmall.mat數(shù)據(jù)為例,取其中部分變量和觀測(cè)結(jié)果,parallelcoords函數(shù)的運(yùn)行結(jié)果…load

carsmall

X

=

[Acceleration

Cylinders

DisplacementHorsepower

MPG

Weight];X1=X(30:40,:)parallelcoords(X1)合成數(shù)據(jù)表達(dá)與餅圖

合成數(shù)據(jù)是一種特定數(shù)據(jù),表示一個(gè)樣本

可能由多個(gè)成分組合而成。MATLAB中,pie、pie3函數(shù)用于表達(dá)合成數(shù)據(jù)。X

=

[19.3

22.1

51.6;

34.2

70.3

82.4;

61.4

8290.8;

50.5

54.9

59.1]x

=

sum(X)A=zeros(size(x))[c,offset]

=

max(x)A(offset)

=

1h

=

pie(x,A);

colormap

summer

得出一個(gè)餅圖,其最大比例部分與其它部分分離。以下給它增加注釋?zhuān)簍extObjs

=

findobj(h,"Type","text");oldStr

=

get(textObjs,{"String"});val

=

get(textObjs,{"Extent"});oldExt

=

cat(1,val{:});Names

=

{"X:

";"Y:

";"Z:

"};newStr

=

strcat(Names,oldStr);set(textObjs,{"String"},newStr)val1

=

get(textObjs,

{"Extent"});newExt

=

cat(1,

val1{:});

offset

=

sign(oldExt(:,1)).*(newExt(:,3)-oldExt(:,3))/2;pos

=

get(textObjs,

{"Position"});

textPos

=cat(1,

pos{:});textPos(:,1)

=textPos(:,1)+offset;set(textObjs,{"Position"},num2cell(textPos,讀者可以自己嘗試pie3函數(shù)繪制3維餅圖。

此外,MATLAB還提供bar,bar3,bar3h,barh,comet,comet3,contour,contour3,contourf,cylinder,errorbar,feather,fill,

fill3,lmesh,meshc,

meshz,pie,pie3,plot,plot3polar,quiver,quiver3,ribbon,scatter,scatter3,semilogx,semilogy,

stairs,stemstem3,surf,surfc,surfl,surfnorm和waterf函數(shù),它們適合于不同制圖情形,讀者可以根據(jù)需要,借助它們合理地完成數(shù)據(jù)可視化。

2009年版的MATLAB統(tǒng)計(jì)工具庫(kù),還有

scatterhist等圖形函數(shù)。多元數(shù)據(jù)分布

多元分布不是新概念,只是單變量概率分布的擴(kuò)展。對(duì)應(yīng)單變量的二項(xiàng)分布、正態(tài)分布和

beta分布,多元分布中有多項(xiàng)式分布(multinomial

distribution)、多元正態(tài)分布(multivariate

normal

distribution)和Diri布。多元正態(tài)分布:也稱(chēng)為多元高斯分布(multivariate

Gaussian

distributio或矩陣正態(tài)分布

多元正態(tài)分布是多元統(tǒng)計(jì)學(xué)中最受歡迎的分布,常常通過(guò)數(shù)學(xué)變換將數(shù)據(jù)擬合為正態(tài)模型。注

意,這種變換依然有爭(zhēng)議,因?yàn)橛袝r(shí)變換是由

于方便和簡(jiǎn)化計(jì)算,結(jié)果卻可能誤導(dǎo)或難以反

回原始變量。盡管如此,多數(shù)推斷性多元統(tǒng)計(jì)

學(xué)利用多元正態(tài)分布。

從單變量正態(tài)分布,到兩變量正態(tài)分布的擴(kuò)展過(guò)程,是理解多元正態(tài)分布的基礎(chǔ)。單變量X的正態(tài)分布函數(shù):

MATLAB中的多元正態(tài)分布:MATLAB中,函數(shù)

mvnrnd產(chǎn)生多元正態(tài)分布的隨機(jī)矩陣。mvnpdf用于計(jì)算多元正態(tài)概率密度函數(shù)。2009年版的

MATLAB中,提供gmdistribution函數(shù),它采用期望最大化(ExpectationMaximization,EM)算法擬合數(shù)據(jù),由高斯混合模型生成一個(gè)多元正

態(tài)分布的混合成分集。

以下是一個(gè)MATLAB的多元正態(tài)概率密度函數(shù)實(shí)例mu

=

[0

0];sigma

=

[.25

.3;

.3

1];x1

=

-3:.2:3;

x2

=

-3:.2:3;[X1,X2]

=

meshgrid(x1,x2);F

=

mvnpdf([X1(:)

X2(:)],mu,sigma);F

=

reshape(F,length(x2),length(x1));surf(x1,x2,F);caxis([min(F(:))-.5*range(F(:)),max(F(:)axis([-3

3

-3

3

0

.4])xlabel("x1");ylabel("x2");zlabel("概率密

2009年版的MATLAB中,提供函數(shù)mvncdf計(jì)算多元正態(tài)分布的累積分布。Dirichlet分布多元數(shù)據(jù)的統(tǒng)計(jì)量分布1.Wishart分布

在多元統(tǒng)計(jì)中,Wishart分布協(xié)方差矩陣分析具有重要意義。Wishart分布名稱(chēng)來(lái)自JohnWishart,是單變量χ2分布的多元擴(kuò)展或gamma分布的非整數(shù)自由度情形。

MATLAB中,函數(shù)wishrnd用于產(chǎn)生Wishart隨機(jī)矩陣。注意,函數(shù)中的sigma參數(shù)即為協(xié)方差矩陣Σ。此外,MATLAB中,還有一個(gè)逆Wishart分布(inverse

Wishart

distribution)函數(shù)iwishrnd用于生成一個(gè)逆Wishart分布的隨機(jī)數(shù)矩陣。2.Hotelling

T2分布

Hotelling

T2統(tǒng)計(jì)因Harold

Hotelling而得名是Student’s

t統(tǒng)計(jì)量在多元假設(shè)檢驗(yàn)中的擴(kuò)展。

MATLAB中,函數(shù)mvtrnd產(chǎn)生一個(gè)多元t分布的隨機(jī)矩陣。2009年版的MATLAB中,函數(shù)

mvtpdf和mvtcdf用于多元t分布的概率密度與累積概率分布。3.Wilks分布

統(tǒng)計(jì)學(xué)中,Wilks

λ分布是F-分布的擴(kuò)展。因

Samuel

S.Wilks而得名,是用于多元假設(shè)檢驗(yàn)的概率分布,尤其是似然比率檢驗(yàn)。MATLAB中,

Wilksλ是用于多元方差分析(MANOVA)函數(shù)的檢驗(yàn)統(tǒng)計(jì)量,用于檢驗(yàn)關(guān)聯(lián)變量組合的可識(shí)別群的均值是否有差異。例如,我們可以將一個(gè)班級(jí)的學(xué)生分為城市和農(nóng)村來(lái)源的兩組,考慮8門(mén)專(zhuān)業(yè)課程(8個(gè)相關(guān)變量的組合),采用

Wilksλ比較這兩組學(xué)生的成績(jī)組合均值是否有顯著差異。1.多元兩樣本均值比較:Hotelling-T^2檢2.Bonferroni校正

多元試驗(yàn)與觀測(cè)產(chǎn)生大量數(shù)據(jù),不同變量類(lèi)型、數(shù)據(jù)類(lèi)型、觀測(cè)數(shù)量和分析目的,決定不同統(tǒng)計(jì)量的采用。比較單變量與多變量顯著性檢驗(yàn),兩者有區(qū)別。設(shè)某單變量參數(shù)的零假設(shè)在0.05顯著性水平上是真實(shí),我們可以得到95%置信概率水平上結(jié)論是正確的。然而,對(duì)雙變量,獲得正確結(jié)論的概率是0.95×0.95=0.90。依此類(lèi)推,p個(gè)變量的情形將是0.95p,即至少出錯(cuò)一次的概率是1-0.95p。這樣,就產(chǎn)生了一個(gè)難以相信的結(jié)果:當(dāng)p越大,正確結(jié)論的置信度就越低。這顯然不符合實(shí)際情形,因此,意大利數(shù)學(xué)家Carlo

EmilioBonferroni提出Bonferroni校正。

多元顯著性檢驗(yàn)的Bonferroni校正是簡(jiǎn)單地給檢驗(yàn)值乘以一個(gè)p值(如果有p次獨(dú)立檢驗(yàn),則每次乘以1/p),將校正后的數(shù)值與0.05顯著性水平比較,確定是否顯著。如果校正值仍小于0.05,則拒絕零假設(shè)。

Bonferroni校正也存在一些有爭(zhēng)議的問(wèn)題,有些應(yīng)用校正情形需要慎重。3.多元多樣本均值比較Bryan

F.J.Manly歸納有4個(gè)統(tǒng)計(jì)量可以描述:(1)Wilks的Λ(lambda)檢驗(yàn)對(duì)應(yīng)的統(tǒng)計(jì)量.(2)Roy最大特征根檢驗(yàn)(3)Pillai跡統(tǒng)計(jì)量。(4)Lawes-Hotelling跡統(tǒng)計(jì)量.PP.318-3194.多元兩樣本與多樣本方差比較MATLAB中多元統(tǒng)計(jì)量比較分析1.MATLAB中多元方差分析m多an元ov方a是差一分種析“(門(mén)mu戶(hù)lt”iv檢ar驗(yàn)ia(tegantaelwyasyitseosft)va。ri如an果ce多,元MAFN-O檢VA驗(yàn))是。顯著的,則可以考慮個(gè)別單變量分析。manova也可以檢測(cè)組合差異。當(dāng)變量之間存在多重共線(xiàn)性時(shí),單純的單變量分析難以發(fā)現(xiàn)這種差異。但是manova對(duì)異常值非常敏感,尤其是樣本數(shù)量比較小時(shí)。manova假定因變量之間存在線(xiàn)性關(guān)系,也不能給出主要因子與重復(fù)因子之間的交互影響效應(yīng)。變ma量no均va滿(mǎn)用足于方同差時(shí)分分析析相多關(guān)個(gè)假相設(shè)互。依其賴(lài)基的本多假元設(shè)情是形,。待它分假析定數(shù):據(jù)①集所X有滿(mǎn)足:每個(gè)變量數(shù)據(jù)集/組(group)對(duì)應(yīng)的總體服從正態(tài)分布;每個(gè)總體的方差、協(xié)方差矩陣相同;所有的觀測(cè)相互獨(dú)立。②因變量之間是線(xiàn)性或多重共線(xiàn)性。MATLAB中,函數(shù)manova1用于實(shí)現(xiàn)單因素多元方差分析。組MA均TL值A(chǔ)B為中基,礎(chǔ)還,有生一成個(gè)譜函系數(shù)圖ma.novacluster。它在MANOVA之后,以2.MATLAB中均值多重比較檢驗(yàn)

MATLAB中,multcompare函數(shù)用于完成多重均值比較。3.多元等方差檢驗(yàn)多元等方差檢驗(yàn),也稱(chēng)為多元方差齊性(homogeneity

of

variance)檢驗(yàn),即檢驗(yàn)k群方差是否相同。它包括兩種檢驗(yàn)方法,Bartlett檢驗(yàn)和

Levene檢驗(yàn),檢驗(yàn)的零假設(shè)都是k群具有相同的方差。MATLAB中,采用vartestn函數(shù)實(shí)現(xiàn)這兩種檢驗(yàn)。(1)Bartlett檢驗(yàn)(2)Levene檢驗(yàn)減小多元數(shù)據(jù)維度:線(xiàn)性方法

多元分析的基本問(wèn)題是Richard

Bellman提出的維度災(zāi)難(curse

of

dimensionality)。在高維空間的觀測(cè)(采樣)比低維空間的更稀疏和更小代表性;高

維空間中,服從某分布的典型數(shù)據(jù)點(diǎn)被采樣的頻率更?。粩?shù)據(jù)集中的某些維度及相應(yīng)的測(cè)量特征在建

模上也沒(méi)有意義,即存在冗余。因此,多元數(shù)據(jù)分

析中,常包含有維度減少(dimension

reduction)方法。維度減少是以更小維度空間,更少的變量表

示多元數(shù)據(jù)。其目的是探索高維數(shù)據(jù)(多元數(shù)據(jù)),找出數(shù)據(jù)模式或結(jié)構(gòu);以二維或三維散點(diǎn)圖可視化

多元數(shù)據(jù)。

經(jīng)典線(xiàn)性維度減少方法包括:多元特征選擇和多元特征轉(zhuǎn)換。其中多元特征轉(zhuǎn)換方法可分為主成分分析(principal

component

analysis)和因子分析

(factor

analysis)。

主成分分析面對(duì)的問(wèn)題是,對(duì)大數(shù)據(jù)量測(cè)量變量,在數(shù)據(jù)集中含有多少冗余屬性信息?該問(wèn)題陳述包括三個(gè)特定問(wèn)題:

①相關(guān)矩陣包含的線(xiàn)性關(guān)系模式是什么?設(shè)屬性信息矩陣X,該問(wèn)題的回答等價(jià)于評(píng)價(jià)X中多重共線(xiàn)性(multicol-linearity)程正是主成分分析目標(biāo)。

②能否給相關(guān)矩陣一個(gè)最為簡(jiǎn)潔的描述?該問(wèn)題的回答等價(jià)于,消除矩陣X中的冗余信息,正是因子分析的定位。

③一個(gè)給定的相關(guān)矩陣中,是否潛藏著某種合理維度?該問(wèn)題的回答等價(jià)于假設(shè)檢驗(yàn),是因子分析要解決的問(wèn)題。

主成分分析與因子分析目的和術(shù)語(yǔ)有大量重疊,兩者都是維度減少技術(shù),都是以更少新變量替

代原有多個(gè)觀測(cè)量。有些人甚至認(rèn)為兩者沒(méi)有

本質(zhì)區(qū)別,因子分析中的一些算法也包含在主

成分分析中。

但是,兩者目的和基本模型還是有不同。概括地說(shuō),如果需要更少的維度去可視化數(shù)據(jù),簡(jiǎn)化和近似數(shù)據(jù),應(yīng)采用主成分分析;如果需要一個(gè)解釋性模型,以理解數(shù)據(jù)之間相關(guān)性,則需要因子分析。

可以認(rèn)為,因子分析是主成分分析的擴(kuò)充。主成分分析通過(guò)坐標(biāo)旋轉(zhuǎn),解釋原始p個(gè)變量的方差分布。因子分析解釋原始p個(gè)變量與公共因子之間相關(guān)性。主成分分析不依賴(lài)任何特定統(tǒng)計(jì)模型,而因子分析則以模型為基礎(chǔ)。1.主成分分析概念與原理

1901年,Karl

Pearson首先提出主成分分析(PCA)概念與描述,直到1933年Hotelling才完成PCA計(jì)算方法。計(jì)算機(jī)技術(shù)出現(xiàn)后,才有可能分析更多變量的主成分問(wèn)題。

作為最簡(jiǎn)單的多元分析方法之一,PCA通過(guò)檢測(cè)變量之間線(xiàn)性獨(dú)立性,以嚴(yán)格定量分析為基礎(chǔ),簡(jiǎn)化或合并相似特征的變量,或找出眾多變量中對(duì)系統(tǒng)行為起控制作用的變量。用一組少量的變量,替代原來(lái)眾多變量集,減少信息冗余。以PCA方法產(chǎn)生的新變量集,是原有數(shù)據(jù)變量集的子集,稱(chēng)為主成分(principalcomponents,PC)。主成分可以表達(dá)原有數(shù)據(jù)集特征,每個(gè)主成分是原有數(shù)據(jù)集中變量的線(xiàn)性組合。每個(gè)主

成分之間相互正交,這樣就沒(méi)有冗余問(wèn)題。這正是多

元分析所涉及的如何避免重復(fù)屬性信息的重復(fù)計(jì)算問(wèn)

盡管線(xiàn)性分析中,以多變量為基礎(chǔ),建立正交基方法非常多(詳細(xì)資料,請(qǐng)參閱線(xiàn)性代數(shù)相關(guān)內(nèi)容),但是主成分分析的特殊是在于:

①線(xiàn)性空間中,第一主成分是一個(gè)坐標(biāo)軸。將每個(gè)觀測(cè)(樣本)投影在該坐標(biāo)軸,其結(jié)果形成一個(gè)新變量。在所有可能選擇的坐標(biāo)軸上,該變量方差最大。

②第二主成分是垂直于第一主成分的坐標(biāo)軸。將每個(gè)觀測(cè)(樣本)投影在該坐標(biāo)軸上,產(chǎn)生另一個(gè)新變量,該變量的方差在所有可能選擇的第二坐標(biāo)軸中是最大的。

理論上,主成分包含的變量集可以和原始數(shù)據(jù)中所有的變量數(shù)目一樣多,但是實(shí)際上最初主成分之間方差和應(yīng)當(dāng)是不小于原始數(shù)據(jù)總方差的80%。

主成分常用于環(huán)境系統(tǒng)變化驅(qū)動(dòng)力分析,如環(huán)境變化、土地利用與覆蓋變化的主要驅(qū)動(dòng)力分析。

應(yīng)當(dāng)提醒,主成分分析不是萬(wàn)能技術(shù)。主成分分析期待主成分的方差集中在少數(shù)成分上,這樣可以采用少數(shù)具有較大方差的Z值,表達(dá)變量X,將X轉(zhuǎn)換為更少變量的Z成分集。如果原始數(shù)據(jù)的變量X之間沒(méi)有任何相關(guān)性,是相互獨(dú)立的,則主成分分析沒(méi)有任何意義。只有在原始數(shù)據(jù)中變量之間存在非常高的相關(guān)性,主成分分析才可能將原始數(shù)據(jù)中的眾多變量(甚至變量數(shù)p>20),縮減為2~3個(gè)主成分。變量之間強(qiáng)相關(guān),意味著原始數(shù)據(jù)中存在非常大的冗余。

從這種意義上,目前土地評(píng)價(jià)、生態(tài)評(píng)價(jià)、環(huán)境評(píng)價(jià)工作中,憑個(gè)人喜好和經(jīng)驗(yàn)選擇變量(因子),不考慮變量之間相關(guān)關(guān)系,直接加權(quán)評(píng)分,得到評(píng)價(jià)結(jié)論的方法,其過(guò)程與結(jié)論都是值得懷疑的。如果變量之

間有強(qiáng)相關(guān)性,意味著工作重復(fù)和忽略了真正的重要

變量,盡管這些變量數(shù)值可能微不足道。個(gè)人喜好是

難以被人重復(fù)的,因此,評(píng)價(jià)工作中就將出現(xiàn)不同觀

察角度,選擇不同變量和權(quán)重。從統(tǒng)計(jì)學(xué)角度,這些

評(píng)價(jià)方法不嚴(yán)謹(jǐn),也沒(méi)有說(shuō)服力。也許主成分分析考慮因子之間相關(guān)性,能讓類(lèi)似的評(píng)價(jià)工作更經(jīng)得起討論。3.主成分分析計(jì)算過(guò)程

主成分分析過(guò)程:①標(biāo)準(zhǔn)化變量X,使其均值為0、方差是1,以消除量綱影響。②計(jì)算標(biāo)準(zhǔn)化變量的協(xié)方差矩陣C。對(duì)標(biāo)準(zhǔn)化變量,矩陣C是相關(guān)矩陣。③找出矩陣C的特征根λi及其對(duì)應(yīng)特征向量ai=[a1i,a2i,…,a第i個(gè)主成分系數(shù)是ai的元素,λi是它的方差。④舍棄任何小方差對(duì)應(yīng)的主成分。例如,計(jì)算了10個(gè)變量的數(shù)據(jù)集,如果前三個(gè)主成分方差和占90%比例,則舍棄其它7個(gè)成分。4.主成分計(jì)算的兩種方法這里進(jìn)一步介紹主成分計(jì)算的兩種方法:

①使用樣本協(xié)方差矩陣計(jì)算主成分。以協(xié)方差矩陣為基礎(chǔ)的主成分分析優(yōu)點(diǎn)是,統(tǒng)計(jì)推斷方法相對(duì)容易,易于理解。

②使用樣本相關(guān)系數(shù)矩陣計(jì)算主成分。當(dāng)原始維度上方差差異明顯。例如,一些變量的方差相對(duì)其它變量的方差非常大,可以采用相關(guān)系數(shù)矩陣分析主成分。5.主成分幾何意義主成分幾何解釋是以相關(guān)矩陣C的特征函數(shù)為基礎(chǔ)。Daniel

A.Griffith以Z1和Z2為原始圖形軸,主要特征向量表示一條穿越散布z-得分點(diǎn)的直線(xiàn),z-得分點(diǎn)到該直線(xiàn)的垂直距離是最小的。所謂的主成分得分(principalcomponent

scores)是合成變量(主成分)的度量。主特征值給定了直線(xiàn)的相對(duì)長(zhǎng)度。第二特征向量必須垂直第一特征向量,確保兩個(gè)主成分之間相對(duì)獨(dú)立,其相對(duì)長(zhǎng)度由第二特征值給定。變量Z1與Z2之間相關(guān)系數(shù)是特征向量與原始z-得分坐標(biāo)之間形成的夾角,該系數(shù)用于創(chuàng)建合成變量集F。假如變量x1與x2之間是完全隨機(jī)(無(wú)相交),則相應(yīng)相關(guān)系數(shù)是0(ρ=0),Z1與Z2之間也是隨機(jī)的。這種情形下,z-得分值點(diǎn)散布是一個(gè)圓環(huán),特征值等于1,特征向量是z-得分?jǐn)?shù)軸。如果x1與x2之間是部分相關(guān),則相應(yīng)相關(guān)系數(shù)是0<ρ<1,z-得分值點(diǎn)散布是一個(gè)橢圓環(huán),特征值等于橢圓半軸,特征向量與z-得分?jǐn)?shù)軸有一個(gè)夾角。如果x1與x2完全相關(guān),相關(guān)系數(shù)為ρ=1。z-得分值點(diǎn)散布橢圓變成直線(xiàn),相對(duì)長(zhǎng)度等于2,第二特征向量的相對(duì)長(zhǎng)度是0。在三維情形下,z-得分值點(diǎn)散布是特征向量為軸的橢球或球。MATLAB中主成分分析實(shí)現(xiàn)

MATLAB中,princomp函數(shù)計(jì)算數(shù)據(jù)集的主成分,基本要求是需要一個(gè)原始的數(shù)據(jù)集,以供分析。假如缺乏原始數(shù)據(jù),但是有樣本數(shù)據(jù)之間協(xié)方差或相關(guān)系數(shù),也可以采用pcacov函數(shù)完成主成分分析。X=3+randn(30,1)Y=5+6*X+2*randn(30,1)Z=8-3*X+4*X.^2+3*randn(30,1)X1=X(1:15)X2=X(16:30)Y2=Y(16:30)Y1=Y(1:15)Z1=Z(1:15)Z2=Z(16:30)B=[X1

X2

Y1

Y2

Z1

Z2]save

B.mat

Bboxplot(B)stdr=std(B)meanr=mean(B)meanr=repmat(meanr,15,1)sr=(B-meanr)./repmat(stdr,15,1)[coefs,

scores,

variance,t2]=princomp(srI=coefs"*coefsplot(scores(:,1),scores(:,2),"+")percent_explained=100*variance/sum(varipareto(percent_explained)[st2,index]=sort(t2,"descend")extreme=index(1)extreme=index(2)corrmatrix=corrcoef(sr)corrmatrix=flipud(corrmatrix)imagesc(corrmatrix),colormap(gray)Colorbar[coefs,scores,variances,t2]=princomp(sr

主成分的表達(dá):采用圖形,顯示出不同主成分上的變量分布及其相關(guān)性,見(jiàn)PP338-340.因子分析 環(huán)境問(wèn)題中,一個(gè)區(qū)域污染可能是大氣污染,也可能是水污染和土壤污染,因此環(huán)境監(jiān)測(cè)變量可以歸于大氣因子、水因子和土壤因子。就象競(jìng)技體育的十項(xiàng)全能運(yùn)動(dòng)一樣,有的是力量型,有的是速度型項(xiàng)目。因子分析是以變量之間組合(相互依賴(lài)關(guān)系)因子為基礎(chǔ),以因子代替變量,達(dá)到減少維度的目的。

歸納起來(lái),因子分析用于擬合多元數(shù)據(jù)模型,估計(jì)變量之間某種相互依賴(lài)關(guān)系。因子分析模型中,原始數(shù)據(jù)中測(cè)量變量依賴(lài)于更少的未測(cè)量因子,因?yàn)槊總€(gè)因子可以影響更多的變量,它們是公共因子(common

factor)。假定每個(gè)變量與公共因子之間有線(xiàn)性關(guān)聯(lián),相關(guān)系數(shù)稱(chēng)載荷(loadings),每個(gè)測(cè)量變量也包括一個(gè)獨(dú)立隨機(jī)變異成分,稱(chēng)個(gè)性變差(specificvariance),因?yàn)閷?duì)每個(gè)變量是特定的。2.因子分析步驟與方法因子分析包括3個(gè)步驟:(1)確定臨時(shí)因子載荷aij:臨時(shí)因子F*之間可能有相關(guān),或個(gè)性變差之間存在相關(guān)。aij的數(shù)值越接近于零,則xi與Fj之間越無(wú)關(guān)。aij的數(shù)值絕對(duì)值越大,則xi與F間相關(guān)關(guān)系越強(qiáng)。(2)因子旋轉(zhuǎn):方差最大旋轉(zhuǎn)(varimax

rotation)方法是非常好的標(biāo)準(zhǔn)因子分析方法,由Kaiser提出并加以改進(jìn)。它基于一個(gè)假設(shè),可借助j因子的載荷平方方差解釋j因子,即,如果方差大,則趨向于0或1。方差

最大旋轉(zhuǎn)就是最大化所有因子方差和,最后找出一組

不相關(guān)的因子。在方差分析中,放棄因子之間相互獨(dú)

立思想,使因子載荷盡可能簡(jiǎn)單。

(3)計(jì)算因子分值:因子分值用于校驗(yàn)變量與因子之間相關(guān)程度,采用類(lèi)似主成分分析的方法計(jì)算它們,稱(chēng)為主成分因子分析(principal

components

factoranalysis)。3.MATLAB中因子分析實(shí)現(xiàn)

MATLAB中,采用函數(shù)factoran實(shí)現(xiàn)極大似然公共因子分析。

[lambda,psi,T,stats,F]=factoran(sr,2,"sco

ssion")具體解釋見(jiàn)PP343-344減小多元數(shù)據(jù)維度:非線(xiàn)性方法

非線(xiàn)性維度縮減是將高維空間映射到低維空間,常用方法包括多維標(biāo)度分析(multidimensional

scaling),有些中文資料中也譯為“多維標(biāo)度”。多維標(biāo)度分析概念

可視化數(shù)據(jù)的重要目標(biāo)之一是直觀感覺(jué)數(shù)據(jù)點(diǎn)之間相對(duì)距離的遠(yuǎn)近,散點(diǎn)圖就是一種良好的

工具。有些統(tǒng)計(jì)分析情形中,數(shù)據(jù)根本就不是

以點(diǎn)的形式存在,而是以?xún)蓛上嗨苹虿町惖姆?/p>

式出現(xiàn)。沒(méi)有任何數(shù)據(jù)點(diǎn),就不能繪制散點(diǎn)圖。退一步說(shuō),即使有些數(shù)據(jù)是以點(diǎn)的形式出現(xiàn),

不是兩兩點(diǎn)之間距離關(guān)系表示,散點(diǎn)圖也可能

沒(méi)有意義。因?yàn)橛行?shù)據(jù)之間兩點(diǎn)鄰近的度量

不是采用歐幾里得距離,而是必須使用非歐幾

里得距離,如城市街區(qū)距離。對(duì)這種情形的多

元變量,很難用一般圖形刻畫(huà)出觀測(cè)(樣本)之間的相似和差異關(guān)系。因此,減少維度,又

盡量不損失信息量的多維標(biāo)度分析成為一種必

要手段。

多維標(biāo)度分析(multidimensional

scaling,MDS是適應(yīng)上述情形的一組方法集,它可視化點(diǎn)對(duì)

之間在多種距離上是如何相近或差異,在更低維度空間上表示數(shù)據(jù)。MDS也不必要求采用原始數(shù)據(jù),只需要兩兩距離或相異的矩陣。有些中文多元統(tǒng)計(jì)分析著作中,多維標(biāo)度分析被稱(chēng)為多維標(biāo)度法。

多維標(biāo)度分析最初可能是用于數(shù)學(xué)心理學(xué)領(lǐng)域。

1952年,Torgerson首先提出多維標(biāo)度分析的數(shù)學(xué)模型。目前它已經(jīng)廣泛應(yīng)用在交通、生態(tài)、

地學(xué)與社會(huì)經(jīng)濟(jì)領(lǐng)域。多維標(biāo)度分析是通過(guò)模

型等方法,如采用距離、相似系數(shù)、稀疏系數(shù)

等,描述對(duì)象之間親緣關(guān)系變量,把高維對(duì)象轉(zhuǎn)換為低維情形,在較低維度空間標(biāo)度、描述更

高維度的對(duì)象,以揭示數(shù)據(jù)中隱含結(jié)構(gòu)。

與聚類(lèi)分析比較,多維標(biāo)度分析彌補(bǔ)了聚類(lèi)分析上的不足。聚類(lèi)分析歸類(lèi)相似樣本,以譜系圖反映樣本之間親緣關(guān)系,將高維樣本納入在一維譜系中,這種簡(jiǎn)化可能導(dǎo)致數(shù)據(jù)失真,使聚類(lèi)結(jié)果具有一定主觀性。多維標(biāo)度分析則將高維對(duì)象簡(jiǎn)化為較低維度,卻最大限度地保持對(duì)象之間原有相關(guān)關(guān)系。與主成分分析比較,兩者都是降低樣本空間維度。多維標(biāo)度分析更趨向以圖形方法,顯示對(duì)象之間關(guān)系。這種圖形可以是一維、二維、三維或更高的維度。一個(gè)多維標(biāo)度環(huán)境問(wèn)題實(shí)例

假設(shè)以天津n條街道/道路為對(duì)象,考慮它們之間環(huán)境質(zhì)量差異。任意兩條街道(r,s)之間差異

(dissimilarity)(有些中文教程,也將dissimilar譯為不相似。)的描述量為,表示r與s之間沒(méi)有差異,表示r與s之間環(huán)境質(zhì)量完全不同。兩兩街道比較的結(jié)果,的取值有n(n-1)/2種可能。如果不同的判斷角度,則有i角度的差異描述結(jié)果。

多維標(biāo)度分析的基本思想,是尋找到一個(gè)更小維度空間,通常是歐幾里得空間。以空間中的每個(gè)點(diǎn)表示一個(gè)對(duì)象(街道),以點(diǎn)之間的距離匹配初始的差異。兩條相似的街道由多維空間中兩個(gè)距離相近的點(diǎn)表示,兩條相異的街道則由多維空間兩個(gè)距離較遠(yuǎn)的點(diǎn)表示。多維標(biāo)度分析類(lèi)型(1)經(jīng)典MDS:

(2)度量最小二乘標(biāo)度分析(Metric

leastsquares

scaling):(3)非度量MDS:4.鄰近式鄰上近的(接pr近ox。im對(duì)it象ie之s)間的鄰字近面的理測(cè)解量,有就兩是者在類(lèi)空型間:、相時(shí)似間或其它方(similarity,)與差異(dissimilarity)。距差離異、可城以市采街用區(qū)距距離離來(lái)、表M達(dá)ah,al包an括ob歐is幾距里離得、距Mi離nk、ow加sk權(quán)i度歐量幾距里離得等。MATLAB中經(jīng)典多維標(biāo)度分析的實(shí)現(xiàn)

MATLAB中,采用cmdscale函數(shù)計(jì)算經(jīng)典多維標(biāo)度問(wèn)題。cmdscale函數(shù)采用相關(guān)點(diǎn)距離矩陣為輸入,創(chuàng)建點(diǎn)構(gòu)圖。理論上,這些點(diǎn)是在2維或3維的,以它們之間的歐幾里得距離為基礎(chǔ),建立原始距離矩陣。這樣,cmdscale創(chuàng)建點(diǎn)散點(diǎn)圖可以可視表達(dá)原始距離。其句法是:

[Y,e]=cmdscale(D)D=pdist(B,"euclidean")[Y,e]

=

cmdscale(D)[e

e/max(abs(e))]dim

=

sum(e

>

eps^(3/4))maxerr2

=

max(abs(pdist(B)

-

pdist(Y(:,1:見(jiàn)PP348-349非度量多維標(biāo)度分析PP.349-353Procrustes分析Procrustes是古希臘傳說(shuō)中Attica的強(qiáng)盜,他將被他抓到的人放在一張鐵床上,身高比床長(zhǎng)的人,被其砍去長(zhǎng)出的部分;身高比床短的人,被其強(qiáng)行拉長(zhǎng)。理解了Procrustes,就能知道Procrustes分析是比較形狀的統(tǒng)計(jì)過(guò)程。Procrustes分析,有些中文翻譯為“普魯克分析”,起源于生物學(xué)研究中的動(dòng)物形態(tài)

測(cè)定,但是很快就廣泛用于考古、天文、土木工程、地理、網(wǎng)絡(luò)設(shè)計(jì)和物理化學(xué)。相信它在環(huán)境污染模

式和環(huán)境模擬上也將有應(yīng)用價(jià)值。

Procrustes分析常用于統(tǒng)計(jì)分析的預(yù)處理步驟,它需要應(yīng)用一個(gè)標(biāo)記數(shù)據(jù)集(landmark

dataset),其中有意義的重要總體特征被標(biāo)記為具體的幾何位置。借助保留形狀的歐幾里得空間變換,最小化在位置、旋轉(zhuǎn)和尺度上的變異,Procrustes分析計(jì)算出兩個(gè)數(shù)據(jù)集中的標(biāo)記最好擬合重疊情形。MATLAB中,函數(shù)procrustes

MATLAB中,函數(shù)procrustes執(zhí)行procrustes分析,其基本句法為:d

=

procrustes(X,Y)判別分析1分類(lèi)與判別分析概述1.分類(lèi)的分?jǐn)?shù)類(lèi)據(jù)是模已型知,數(shù)稱(chēng)據(jù)為類(lèi)分型類(lèi),器將(新cl數(shù)as據(jù)si歸fi類(lèi)er的s)過(guò)。程一。個(gè)我分們類(lèi)將器類(lèi)的型建響造應(yīng),首先需要訓(xùn)練數(shù)據(jù),該數(shù)據(jù)的類(lèi)型是已知的。在一定置信水平上,分類(lèi)器將新的待分類(lèi)數(shù)據(jù)指定不同的類(lèi)型。與聚類(lèi)(cluster)不一樣,分類(lèi)是事先已知類(lèi)型,而聚類(lèi)是事先不知道類(lèi)型。(分d類(lèi)is方cr法im可in歸an納t

a為na兩ly種si:s)①。參它數(shù)以方訓(xùn)法練,數(shù)如據(jù)判為別基分礎(chǔ)析,擬合參數(shù)模型,分類(lèi)新數(shù)據(jù)。②非參數(shù)方法,如分類(lèi)樹(shù)(classification

trees)。類(lèi)似于非線(xiàn)性回歸中討論的回歸樹(shù)方法。2.判別分析(判d別is函c-數(shù)ri分mi析na(ntdiasncarliymsinsa)nt。f判un別ct分io析n

a是na多l(xiāng)y元si統(tǒng)s)計(jì),分簡(jiǎn)析稱(chēng)中判,別用分于析判別某觀測(cè)或樣本所屬類(lèi)型的一種統(tǒng)計(jì)分析方法。注意,不管采用什么樣的判別分析方法,有兩個(gè)基本假設(shè)是必需的:(1)對(duì)所有類(lèi)型,類(lèi)內(nèi)的協(xié)方差矩陣是相等的。(2)對(duì)顯著性檢

驗(yàn),類(lèi)內(nèi)數(shù)據(jù)服從多元正態(tài)分布。另外,還要求誤差獨(dú)立。

面對(duì)的問(wèn)題是用某種方法把研究對(duì)象分成若干類(lèi)型的情形下,判斷和確認(rèn)某新觀測(cè)的類(lèi)型歸屬。

判別分析首先指出最佳判別變量,以提供兩個(gè)類(lèi)群的最佳區(qū)別;然后,確定一個(gè)新觀測(cè)(樣本)與已知類(lèi)型的接近程度,即建立判別函數(shù)。

判別函數(shù)是判別變量的線(xiàn)性組合,判別函數(shù)的值稱(chēng)為判別得分。判別函數(shù)目標(biāo)是使判別組間平方和與組內(nèi)平方和之比值為最大,再利用判別得分將觀察值歸類(lèi)。

最后,指定一些判別規(guī)則,判定樣本或觀測(cè)的類(lèi)型歸屬。判別規(guī)則可以是隨機(jī)的,如Fisher準(zhǔn)則和

Bayesian準(zhǔn)則;也可以是確定的,只考慮判別函數(shù)值(得分)的大小。

判別分析有多種類(lèi)型,按判別的組數(shù)分為兩組判別分析(即樣本只能屬于A或B組)和多組判別分析;按模型分為線(xiàn)性判別和非線(xiàn)性判別;按處理過(guò)程分為逐步判別和序貫判別。

與主成分分析、因子分析比較,判別分析不需要標(biāo)準(zhǔn)化數(shù)據(jù),判別分析結(jié)果不受單個(gè)變量尺度的影響。

判別分析更類(lèi)似于回歸分析,探索獨(dú)立變量的線(xiàn)性組合,獲取獨(dú)立變量方差的最好解釋。類(lèi)似于回歸問(wèn)題,判別分析主要是針對(duì)區(qū)間變量和比率變量。當(dāng)對(duì)數(shù)回歸與判別分析的假設(shè)都滿(mǎn)足時(shí),它們趨于得到同樣結(jié)果。與聚類(lèi)分析比較,在判別分析中,至少有一個(gè)已經(jīng)明確知道類(lèi)別的“訓(xùn)練樣本”。

利用這個(gè)數(shù)據(jù),建立判別準(zhǔn)則,判別未知類(lèi)別觀測(cè)值的歸屬。聚類(lèi)分析中,一般人們事先并不知道或一定要明確應(yīng)該分成幾類(lèi),完全根據(jù)數(shù)據(jù)來(lái)確定。

環(huán)境統(tǒng)計(jì)中,判別分析面對(duì)環(huán)境質(zhì)量分級(jí)或污染性質(zhì)分類(lèi)等具體情形,目的有二:

①評(píng)價(jià)區(qū)域環(huán)境對(duì)象分類(lèi)或分區(qū)的合理性。多數(shù)環(huán)境問(wèn)題是區(qū)域性問(wèn)題,以多元分析為基礎(chǔ),指明區(qū)域之間的環(huán)境差異。因此,判別分析應(yīng)當(dāng)回答的問(wèn)題是,p個(gè)預(yù)測(cè)變量最有力的線(xiàn)性組合關(guān)系是什么?以此為基礎(chǔ),才能建構(gòu)環(huán)境特征歸類(lèi)或區(qū)域的最大分割。

②對(duì)新采樣的環(huán)境樣本,或面臨新的環(huán)境區(qū)域,與以往類(lèi)型進(jìn)行比較,判斷樣本或區(qū)域?qū)傩裕瑢儆谀姆N類(lèi)型。即提出適當(dāng)計(jì)算規(guī)則,有效地歸納新樣本到既有類(lèi)型中。在區(qū)域問(wèn)題處理上,判別分析也可以用于遙感圖象數(shù)據(jù)解釋與計(jì)算處理。2判別分析方法與準(zhǔn)則

判別分析方法很多,包括Mahalanobis距離判別法、Fisher判別法、Bayesian判別法、典型判別函數(shù)、逐步判別函數(shù)分析、觀測(cè)

的Jackknife分類(lèi)和Logistic回歸等。1.使用Mahalanobis距離的判別分析

最簡(jiǎn)單的判別分析辦法,就是計(jì)算到哪個(gè)類(lèi)型中心距離最近,按最近距離判別對(duì)象屬于哪一類(lèi)。通常使用的距離是Mahalanobis距離。

判別函數(shù)(discriminant

function)是用來(lái)比較個(gè)中心距離的數(shù)學(xué)函數(shù)。這種根據(jù)距離遠(yuǎn)近進(jìn)行判別的方法,原理簡(jiǎn)單,直觀易懂。利用

Mahalanobis距離進(jìn)行判別分析,是以m個(gè)樣本平均向量為基礎(chǔ),估計(jì)真實(shí)n個(gè)平均向量的類(lèi)

型。計(jì)算個(gè)體到每個(gè)類(lèi)中心的Mahalanobis距離判斷每個(gè)個(gè)體更趨于歸屬哪個(gè)類(lèi)。2.典型判別函數(shù)

典型判別函數(shù)(canonical

discriminantfunctions)思想來(lái)源于1936年Fisher的研究它建立在以方差分析為基礎(chǔ)的F-統(tǒng)計(jì)量上,找出p個(gè)變量的線(xiàn)性組合,使類(lèi)間差異最大,類(lèi)內(nèi)差異最小。找出線(xiàn)性組合實(shí)際是一個(gè)特征值問(wèn)題,與類(lèi)間的線(xiàn)性組合無(wú)關(guān)。3.Fisher判別分析(P359-361)4.Bayesian判別分析

Bayesian判別的統(tǒng)計(jì)思想是,假定對(duì)研究對(duì)象已有一定認(rèn)識(shí),常用先驗(yàn)概率分布來(lái)描述這種

認(rèn)識(shí);然后我們?nèi)〉靡粋€(gè)樣本,用樣本修正已

有知識(shí)(先驗(yàn)概率分布),得到后驗(yàn)概率分布,各種統(tǒng)計(jì)推斷都通過(guò)后驗(yàn)概率分布來(lái)進(jìn)行。將

這種思想用于判別分析,就得到Bayesian判別。5.逐步判別分析MATLAB中判別分析的實(shí)現(xiàn)

判別分析應(yīng)用訓(xùn)練數(shù)據(jù),估計(jì)自變量的判別函數(shù)參數(shù)。判別函數(shù)決定自變量不同類(lèi)型空間的邊界。1.函數(shù)classify

MATLAB中,函數(shù)classify用于判別分析。其語(yǔ)法規(guī)則是:class=classify(sample,

training,

group,

ty[class,

err,

posterior,

logp]=classify(…)

以MATLAB自帶的數(shù)據(jù)fisheriris.mat為例,討論判別分析過(guò)程。

(1)先選擇訓(xùn)練數(shù)據(jù),采用散點(diǎn)圖觀察數(shù)據(jù)類(lèi)型:從圖可見(jiàn),該數(shù)據(jù)包括兩種類(lèi)型,而且沒(méi)有很明顯的區(qū)分界限。load

fisheririsSL

=

meas(51:end,1);SW

=

meas(51:end,2);group

=

species(51:end);h1

=

gscatter(SL,SW,group);set(h1,"LineWidth",2)legend("組1","組2","Location","NW")

(2)采用函數(shù)classify進(jìn)行判別分類(lèi):為了表達(dá)分類(lèi)在同樣尺度上,可以采用meshgrid函數(shù)繪制格網(wǎng)。[X,Y]

=

meshgrid(linspace(4,8),linspace(X

=

X(:);

Y

=

Y(:);

[class,err,posterior,logp]

=

classify([XSW],group,"quadratic")(3)可視化分類(lèi)結(jié)果(圖):hold

ongscatter(X,Y,class,"wb",".",1,"off")axis([4.5

8

2

4])xlabel("萼片長(zhǎng)度(SL)")ylabel("萼片寬度(SW)")當(dāng)然,也可以直接列舉出分類(lèi)結(jié)果。如:load

discrimsample

=

ratings(idx,:)training

=

ratings(1:200,:)g

=

group(1:200)class

=

classify(sample,training,g)first5

=

class(1:5)first5

=

2

2

2

2

2函數(shù)knnclassify和函數(shù)svmclassify

MATLAB中,函數(shù)svmclassify和函數(shù)knnclassi也是判別分類(lèi)函數(shù)。其中函數(shù)svmclassify是以支持向量機(jī)(a

support

vector

machine)為基礎(chǔ)的分類(lèi)器,函數(shù)knnclassify是以近鄰方法為基礎(chǔ)的數(shù)據(jù)分類(lèi)。knnclassify函數(shù)基本句法是:

class

=

knnclassify(Sample,

Training,

Groudistance,

rule)svmclassify函數(shù)基本句法是:

group

=

svmclassify(SVMStruct,

Sample,"PropertyName",

PropertyValue...)以下是一個(gè)簡(jiǎn)單例子:sample

=

[.9

.8;.1

.3;.2

.6]training=[0

0;.5

.5;1

1]group

=

[1;2;3]class

=

knnclassify(sample,

training,

group)class

=

3

1

2更大一些的數(shù)據(jù)集,我們可以隨機(jī)產(chǎn)生一組隨機(jī)正態(tài)分布訓(xùn)練數(shù)據(jù):training

=

[mvnrnd([

1

1],

eye(2),

100);

mvnrnd([2*eye(2),

100)]指定類(lèi)型,并繪制訓(xùn)練數(shù)據(jù)類(lèi)型分布(圖):group

=

[repmat(1,100,1);

repmat(2,100,1)]gscatter(training(:,1),training

(:,2),group,"rlegend("訓(xùn)練組1","訓(xùn)練組2");hold

on再生成一個(gè)連續(xù)均勻分布的樣本分類(lèi)(圖):sample

=

unifrnd(-5,

5,

100,

2)c

=

knnclassify(sample,

training,

group)gscatter(sample(:,1),sample(:,2),c,"mc");

ho

legend("訓(xùn)練組1","訓(xùn)練組2","組1中的數(shù)據(jù)","中的數(shù)據(jù)")hold

off現(xiàn)在指定k=10,即每個(gè)中心有10個(gè)近鄰(圖):gscatter(training(:,1),training(:,2),group,hold

onc3

=

knnclassify(sample,

training,

group,

10)gscatter(sample(:,1),sample(:,2),c3,"mc","o

legend("訓(xùn)練組1","訓(xùn)練組2","組1中的數(shù)據(jù)","中的數(shù)據(jù)")hold

offsvmclassify函數(shù)%

Load

the

data

and

select

features

for

classificationload

fisheririsdata

=

[meas(:,1),

meas(:,2)];%

Extract

the

Setosa

classgroups

=

ismember(species,"setosa");%

Randomly

select

training

and

test

sets[train,

test]

=

crossvalind("holdOut",groups);cp

=

classperf(groups);%

Use

a

linear

support

vector

machine

classifiersvmStruct

=

svmtrain(data(train,:),groups(train),"showpclasses

=

svmclassify(svmStruct,data(test,:),"showplot"%

See

how

well

the

classifier

performedclassperf(cp,classes,test);cp.CorrectRate聚類(lèi)分析聚類(lèi)分析(cluster

analysis),也稱(chēng)為分割分析(segmentation

analysis)或分類(lèi)分析(taxonomyanalysis),根據(jù)數(shù)據(jù)特征將數(shù)據(jù)集分割為類(lèi)型,是一種以對(duì)象組間距離最大,組內(nèi)對(duì)象距離最小為基礎(chǔ),將對(duì)象分為多個(gè)類(lèi)群的方法。聚類(lèi)分析是

一種與判別分析功能相反的多元統(tǒng)計(jì)分析技術(shù)。

本質(zhì)上,聚類(lèi)分析屬于非監(jiān)督分類(lèi),事先并不知

道包含多少種類(lèi)型。判別分析則是監(jiān)督分類(lèi),事

先已知類(lèi)型。明顯地,相對(duì)判別分析而言,聚類(lèi)

分析困難一些,因?yàn)榕袆e分析事先已知類(lèi)型情形,聚類(lèi)分析類(lèi)型事先是未知的。聚類(lèi)分析非常有用,它可以用于探索分析多種類(lèi)型的數(shù)據(jù)集,完成數(shù)

據(jù)挖掘,在工程、生物、醫(yī)療、語(yǔ)言、人類(lèi)學(xué)、

心理學(xué)和市場(chǎng)等許多領(lǐng)域有廣泛應(yīng)用。

聚類(lèi)分析算法實(shí)際是找出一些變量關(guān)系的距離函數(shù)以樣本之間相似性,類(lèi)群之間相離性為基礎(chǔ),分類(lèi)樣本,完成聚類(lèi)。因此聚類(lèi)分析中,需要選擇聚類(lèi)標(biāo)準(zhǔn),確定將形成多少類(lèi)。多數(shù)聚類(lèi)算法只是簡(jiǎn)單地以最大相似性連接樣本對(duì)象對(duì),聚合成類(lèi)群。首先計(jì)算對(duì)象間的相似性,然后以相似性計(jì)算結(jié)果為基礎(chǔ),生成一個(gè)層次樹(shù),即一種表示親緣關(guān)系的譜系圖(dendrogram)。有時(shí)還應(yīng)當(dāng)考慮變量的絕對(duì)值,絕對(duì)值大不一定表示重要。有些環(huán)境數(shù)值盡管絕對(duì)值小,但是其含量對(duì)揭示環(huán)境狀態(tài),卻顯得非常重要。因此需要采用自動(dòng)縮放技術(shù)(autoscaling),通過(guò)校正將數(shù)據(jù)變換均值為0,方差是1的數(shù)據(jù)。其次,為避免負(fù)相關(guān),可使用對(duì)數(shù)比

率轉(zhuǎn)換方法。聚類(lèi)分析類(lèi)型(a1g)gl譜om系er聚at類(lèi)iv方e法hi(erhairecrhaircahlimceatlhcoldu,stAeHrMi)ng。)也:有又人稱(chēng)稱(chēng)凝之聚為層系次統(tǒng)方聚法類(lèi)。它以對(duì)象之間距離計(jì)算為基礎(chǔ),合并鄰近對(duì)象,最終產(chǎn)生表示親緣關(guān)系的譜系圖。聚(類(lèi)2)(分di割vi聚si類(lèi)ve(hpiaertairtcihoincianlgmceltuhsotde,riDnHgM):或正k-好均與值前聚者類(lèi)相。反這,種也方稱(chēng)法為有分許裂多法,基本算法是根據(jù)經(jīng)驗(yàn)選擇一些類(lèi)型中心(比如兩個(gè)類(lèi)),然后以對(duì)象到類(lèi)型中心距離為基礎(chǔ),確認(rèn)哪些對(duì)象該進(jìn)或該出某些類(lèi)型。一旦分割完成,按類(lèi)

型平均值重新計(jì)算類(lèi)型中心。再次合并或分割子類(lèi),直到得到滿(mǎn)足限定條件

的分類(lèi)結(jié)果。其計(jì)算基礎(chǔ)是近鄰方法(the

nearest-neighbor

method)。的譜類(lèi)系群聚;類(lèi)對(duì)和異k-常均值敏聚感類(lèi);都統(tǒng)有計(jì)一特定征的未主知觀等性問(wèn),題甚。至出現(xiàn)空類(lèi);趨于特定分布形狀以(概3)率基密于度模為型中聚心類(lèi)的(有m限od混el合-模ba型se。d

c使lu用st概e率ri模ng型)進(jìn)方行法聚是類(lèi)以的概思率想模開(kāi)型始為于基上礎(chǔ),如世紀(jì)六十年代,1965年Edwards等提出借助有限混合模型,進(jìn)行聚類(lèi)分析問(wèn)題。有限混合模型方法是,假定以加權(quán)組分密度模擬概率密度函數(shù),當(dāng)使用有限混合進(jìn)行聚類(lèi)分析,聚類(lèi)問(wèn)題轉(zhuǎn)換為估計(jì)假設(shè)混合模型的參數(shù),如概率密度

估計(jì)。每個(gè)組分密度對(duì)應(yīng)一個(gè)類(lèi)群,采用后驗(yàn)概率確認(rèn)聚類(lèi)結(jié)果。常用的估

計(jì)有限概率密度參數(shù)方法是EM算法(Expectation-Maximization

algorithm,

EM),它以極大似然估計(jì)為基礎(chǔ)。高斯混合模型聚類(lèi)(Gaussian

mixture

models):是通過(guò)表示觀測(cè)變量的概率密度函數(shù)為多元正態(tài)密度的混合體。聚類(lèi)過(guò)程包括五個(gè)步驟擇((1)選模取式變陳量述):、這特是征聚提類(lèi)取的(初確始定步觀驟測(cè),樣包本括數(shù)選目擇、類(lèi)選群擇數(shù)測(cè)目量、尺特度征、選完成數(shù)據(jù)轉(zhuǎn)換)。類(lèi)(群2)之模間式的鄰距近離度或量鄰:近多程數(shù)度聚,類(lèi)但方是法不要同求的度距量離觀度測(cè)量樣,本可與能其導(dǎo)可致能不歸同屬的數(shù)據(jù)分割結(jié)果。性(的3),分觀組測(cè):樣分本組只是能一是個(gè)屬將于數(shù)或據(jù)不分屬割于為

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論