多元統(tǒng)計(jì)分析2012

上傳人：1*** IP屬地：未知上傳時(shí)間：2023-12-06 格式：PPTX 頁(yè)數(shù)：133 大?。?.15MB 積分：6 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩128頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

多元統(tǒng)計(jì)分析multivariate

data

analysisOutlines 介紹多元統(tǒng)計(jì)特征，包括多元數(shù)據(jù)之間的距離描述、多元數(shù)據(jù)圖形表達(dá)（可視化）、多元正態(tài)分布、統(tǒng)計(jì)量及顯著性檢驗(yàn)。

結(jié)合主成分分析和因子分析，探討線(xiàn)性維度減小方法。以多維標(biāo)度分析為基礎(chǔ)，討論非線(xiàn)性維度減小方法。

介紹判別分布、聚類(lèi)分析等多元數(shù)據(jù)分類(lèi)和聚類(lèi)方法。X=3+randn(100,1)Y=5+6*X+2*randn(100,1)Z=8-3*X+4*X.^2+3*randn(100,1)X1=X(1:50)X2=X(51:100)Y2=Y(51:100)Y1=Y(1:50)Z1=Z(1:50)Z2=Z(51:100)B=[X1

Z2]save

B.mat

B多元數(shù)據(jù)距離測(cè)量

度量空間距離公理論。數(shù)學(xué)上，距離的真實(shí)測(cè)量，稱(chēng)為度量（metric）。它遵守三個(gè)公理：設(shè)dxy表示對(duì)象x和對(duì)象y之間的距離，則公理1：dxy=dyx。公理2：dxy≥0，當(dāng)且僅當(dāng)x=y時(shí)，dxy=0。

公理3：dxy≤dxo+doy，o為任意第三個(gè)對(duì)象，即滿(mǎn)足三角形任意兩邊長(zhǎng)度和大于

第三邊長(zhǎng)度。多元數(shù)據(jù)之間的距離:觀測(cè)之間的距離（1）歐幾里得距離（Euclidian

distance）但是在異質(zhì)性的環(huán)境中，樣本之間并不能直接可比。

標(biāo)準(zhǔn)化歐幾里得距離（standardized

Euclideandistance）非歐幾里得距離（non-Euclidean

distance）

歐幾里得距離是一種具體的距離，因?yàn)樗c我們距離的物理概念一致。非歐幾里得距離則有不同方式，用于滿(mǎn)足數(shù)學(xué)度量空間的測(cè)量。流行的非歐幾里得距離包括：Bray-Curtis差異（dissimilarity）,L1距離（即曼哈頓距離），Jaccard指數(shù)（用于數(shù)據(jù)元素的有-無(wú)測(cè)量）。非歐幾里得距離是異質(zhì)環(huán)境數(shù)據(jù)之間差異測(cè)量的基礎(chǔ)。Bray-Curtis差異有-無(wú)數(shù)據(jù)（presence-absence

data）的差異測(cè)量?jī)煽傮w或兩樣本之間距離總體與觀測(cè)之間的距離基于比率的距離多元數(shù)據(jù)可視化指標(biāo)變量制圖

采用2、3個(gè)指標(biāo)變量（index

variable），以投影圖形方式描述4個(gè)以上的變量,稱(chēng)為投影尋蹤

(projection

pursuit)。事實(shí)上，主成分分析等多元統(tǒng)計(jì)分析就是生成指標(biāo)變量，以指標(biāo)變量描述整個(gè)變量。指標(biāo)變量制圖優(yōu)點(diǎn)是在二維或三維上，可繪制更多變量。其潛在缺陷是損失或模糊對(duì)象之間的可能差別。

MATLAB中，提供一組函數(shù)scatter3、gscatter、plot3和rotate3d等，用于繪制3D散點(diǎn)圖。x=2+rand(20,1)y=3-rand(20,1)z=5+rand(20,1)subplot(1,2,1);plot3(x,y,z,"*b");

grid

onsubplot(1,2,2);scatter3(x,y,z,"*r")多元散點(diǎn)圖

多元散點(diǎn)圖（draftsman’s

plot）顯示包含一數(shù)值圖，是一個(gè)變量與其它變量之間對(duì)應(yīng)的二維制圖。它包括一組圖形矩陣，也稱(chēng)散點(diǎn)圖矩陣（scatterplot

matrix）。每個(gè)圖形足夠小，以在一個(gè)空間可以同時(shí)查看所有圖形。這種制圖優(yōu)點(diǎn)是在二維空間繪制圖形，適合顯示變量對(duì)之間關(guān)系。缺陷是難以表達(dá)一個(gè)變量與其它多個(gè)變量之間關(guān)系，不適合顯示多變量之間關(guān)系。

MATLAB中，采用函數(shù)plotmatrix、gplotmatrix繪制散點(diǎn)圖矩陣x

randn(50,3);y

x*[-1

1;2

1;1

-2

3]";plotmatrix(y,"*b")單個(gè)數(shù)據(jù)點(diǎn)表示

這種圖形顯示每個(gè)對(duì)象的多元數(shù)據(jù)，每個(gè)變量是一個(gè)具有大小和方向的符號(hào)。不同變量有不同的

符號(hào)特征，這些符號(hào)組合為人臉或星形玫瑰圖。

這種方法是1979年Fienberg提出的。它的優(yōu)點(diǎn)是可以同時(shí)顯示全部變量情形，缺陷是圖形顯示可能

依賴(lài)對(duì)象獲取的順序，而且只適合于小數(shù)據(jù)量的

多元數(shù)據(jù)（樣本數(shù)小于10，變量數(shù)小于15）。

以MATLAB數(shù)據(jù)carsmall.mat為例，采用glyphplot函數(shù)，直接繪出多元數(shù)據(jù)的星形玫瑰圖或Chernoff臉部圖load

carsmall

[Acceleration

Cylinders

DisplacementHorsepower

MPG

Weight];glyphplot(X,"grid",[2,5])

Chernoff臉譜圖用于說(shuō)明多元數(shù)據(jù)的趨勢(shì)，廣泛用于聚類(lèi)、判別和時(shí)間序列分析。選擇face參數(shù)可繪制出臉譜圖。不同部位有不同參數(shù)值，它們決定臉型，如描述耳可以有耳的水平面位置和半徑；眼眉有高度、坡度和長(zhǎng)度；眼睛有高度、大小、分隔距離、偏心率等；臉有寬度、半臉高度偏心率；嘴有中心位置、曲率、長(zhǎng)度和張開(kāi)程度鼻有寬度和長(zhǎng)度。采用不同變量表達(dá)臉譜參數(shù)，比較臉譜，顯示出樣本數(shù)據(jù)類(lèi)型:glyphplot(X,

"Glyph","face",

"grid",[2,5])變量剖面圖

變量剖面圖是以橫軸為變量組，逐個(gè)表示變量；變量數(shù)值是縱軸，連接對(duì)象或以順序條形圖表示每個(gè)對(duì)象。該圖優(yōu)點(diǎn)是每個(gè)對(duì)象連接成一個(gè)折線(xiàn)。缺陷是不同量綱的變量不具有可比性，容易誤導(dǎo)讀者。

MATLAB中，還提供一個(gè)函數(shù)slice，可以選擇坐標(biāo)位置，完成3維實(shí)體的切片表示。首先，創(chuàng)建一個(gè)3D柵格:[x,y,z]

meshgrid(-3:.1:3,-3:.1:3,-3:.1:3);[n,d]=size(x(:));建立一個(gè)3D分布的數(shù)據(jù)：a

(2*pi)^(3/2);si=

(x.^2

y.^2

z.^2);prob

exp((-.5)*si)/a;選擇x=0,

y=0,

z=0的平面位置進(jìn)行切片：slice(x,y,z,prob,0,0,0)xlabel("X"),ylabel("Y"),zlabel("Z")Andrews曲線(xiàn)X=[7

2]t

linspace(-pi,pi)f1=7/sqrt(2)+15*sin(t)+5*cos(t)+15*sin(2*t)+2*t)+9*sin(3*t)+5*cos(3*t)f2=7/sqrt(2)+7*sin(t)+3*cos(t)+24*sin(2*t)+25*t)+5*sin(3*t)+3*cos(3*t)f3=5/sqrt(2)+25*sin(t)+7*cos(t)+6*sin(2*t)+15*t)+9*sin(3*t)+2*cos(3*t)plot(t,f1,".",t,f2,"*",t,f3,"o")legend("F1","F2","F3");xlabel("t")平行坐標(biāo)制圖

MATLAB中，平行坐標(biāo)制圖函數(shù)

parallelcoords也可繪制n×p的多元數(shù)據(jù)矩陣

X。在笛卡兒坐標(biāo)系中，坐標(biāo)軸是正交的，如此可以表達(dá)3D。擴(kuò)展笛卡兒坐標(biāo)系，以一組平行坐標(biāo)軸，則能夠可視化多元數(shù)據(jù)。

以MATLAB中的carsmall.mat數(shù)據(jù)為例，取其中部分變量和觀測(cè)結(jié)果，parallelcoords函數(shù)的運(yùn)行結(jié)果…load

carsmall

[Acceleration

Cylinders

DisplacementHorsepower

MPG

Weight];X1=X(30:40,:)parallelcoords(X1)合成數(shù)據(jù)表達(dá)與餅圖

合成數(shù)據(jù)是一種特定數(shù)據(jù)，表示一個(gè)樣本

可能由多個(gè)成分組合而成。MATLAB中，pie、pie3函數(shù)用于表達(dá)合成數(shù)據(jù)。X

[19.3

22.1

51.6;

34.2

70.3

82.4;

61.4

8290.8;

50.5

54.9

59.1]x

sum(X)A=zeros(size(x))[c,offset]

max(x)A(offset)

pie(x,A);

colormap

summer

得出一個(gè)餅圖，其最大比例部分與其它部分分離。以下給它增加注釋?zhuān)簍extObjs

findobj(h,"Type","text");oldStr

get(textObjs,{"String"});val

get(textObjs,{"Extent"});oldExt

cat(1,val{:});Names

{"X:

";"Y:

";"Z:

"};newStr

strcat(Names,oldStr);set(textObjs,{"String"},newStr)val1

get(textObjs,

{"Extent"});newExt

cat(1,

val1{:});

offset

sign(oldExt(:,1)).*(newExt(:,3)-oldExt(:,3))/2;pos

get(textObjs,

{"Position"});

textPos

=cat(1,

pos{:});textPos(:,1)

=textPos(:,1)+offset;set(textObjs,{"Position"},num2cell(textPos,讀者可以自己嘗試pie3函數(shù)繪制3維餅圖。

此外，MATLAB還提供bar，bar3，bar3h，barh，comet，comet3，contour，contour3，contourf，cylinder，errorbar，feather，fill，

fill3，lmesh，meshc，

meshz，pie，pie3，plot，plot3polar，quiver，quiver3，ribbon，scatter，scatter3，semilogx，semilogy，

stairs，stemstem3，surf，surfc，surfl，surfnorm和waterf函數(shù)，它們適合于不同制圖情形，讀者可以根據(jù)需要，借助它們合理地完成數(shù)據(jù)可視化。

2009年版的MATLAB統(tǒng)計(jì)工具庫(kù)，還有

scatterhist等圖形函數(shù)。多元數(shù)據(jù)分布

多元分布不是新概念，只是單變量概率分布的擴(kuò)展。對(duì)應(yīng)單變量的二項(xiàng)分布、正態(tài)分布和

beta分布，多元分布中有多項(xiàng)式分布（multinomial

distribution）、多元正態(tài)分布（multivariate

normal

distribution）和Diri布。多元正態(tài)分布：也稱(chēng)為多元高斯分布（multivariate

Gaussian

distributio或矩陣正態(tài)分布

多元正態(tài)分布是多元統(tǒng)計(jì)學(xué)中最受歡迎的分布，常常通過(guò)數(shù)學(xué)變換將數(shù)據(jù)擬合為正態(tài)模型。注

意，這種變換依然有爭(zhēng)議，因?yàn)橛袝r(shí)變換是由

于方便和簡(jiǎn)化計(jì)算，結(jié)果卻可能誤導(dǎo)或難以反

回原始變量。盡管如此，多數(shù)推斷性多元統(tǒng)計(jì)

學(xué)利用多元正態(tài)分布。

從單變量正態(tài)分布，到兩變量正態(tài)分布的擴(kuò)展過(guò)程，是理解多元正態(tài)分布的基礎(chǔ)。單變量X的正態(tài)分布函數(shù)：

MATLAB中的多元正態(tài)分布：MATLAB中，函數(shù)

mvnrnd產(chǎn)生多元正態(tài)分布的隨機(jī)矩陣。mvnpdf用于計(jì)算多元正態(tài)概率密度函數(shù)。2009年版的

MATLAB中，提供gmdistribution函數(shù)，它采用期望最大化（ExpectationMaximization，EM）算法擬合數(shù)據(jù)，由高斯混合模型生成一個(gè)多元正

態(tài)分布的混合成分集。

以下是一個(gè)MATLAB的多元正態(tài)概率密度函數(shù)實(shí)例mu

0];sigma

[.25

.3;

1];x1

-3:.2:3;

-3:.2:3;[X1,X2]

meshgrid(x1,x2);F

mvnpdf([X1(:)

X2(:)],mu,sigma);F

reshape(F,length(x2),length(x1));surf(x1,x2,F);caxis([min(F(:))-.5*range(F(:)),max(F(:)axis([-3

-3

.4])xlabel("x1");ylabel("x2");zlabel("概率密

2009年版的MATLAB中，提供函數(shù)mvncdf計(jì)算多元正態(tài)分布的累積分布。Dirichlet分布多元數(shù)據(jù)的統(tǒng)計(jì)量分布1．Wishart分布

在多元統(tǒng)計(jì)中，Wishart分布協(xié)方差矩陣分析具有重要意義。Wishart分布名稱(chēng)來(lái)自JohnWishart，是單變量χ2分布的多元擴(kuò)展或gamma分布的非整數(shù)自由度情形。

MATLAB中，函數(shù)wishrnd用于產(chǎn)生Wishart隨機(jī)矩陣。注意，函數(shù)中的sigma參數(shù)即為協(xié)方差矩陣Σ。此外，MATLAB中，還有一個(gè)逆Wishart分布（inverse

Wishart

distribution）函數(shù)iwishrnd用于生成一個(gè)逆Wishart分布的隨機(jī)數(shù)矩陣。2．Hotelling

T2分布

Hotelling

T2統(tǒng)計(jì)因Harold

Hotelling而得名是Student’s

t統(tǒng)計(jì)量在多元假設(shè)檢驗(yàn)中的擴(kuò)展。

MATLAB中，函數(shù)mvtrnd產(chǎn)生一個(gè)多元t分布的隨機(jī)矩陣。2009年版的MATLAB中，函數(shù)

mvtpdf和mvtcdf用于多元t分布的概率密度與累積概率分布。3．Wilks分布

統(tǒng)計(jì)學(xué)中，Wilks

λ分布是F-分布的擴(kuò)展。因

Samuel

S.Wilks而得名，是用于多元假設(shè)檢驗(yàn)的概率分布，尤其是似然比率檢驗(yàn)。MATLAB中，

Wilksλ是用于多元方差分析（MANOVA）函數(shù)的檢驗(yàn)統(tǒng)計(jì)量，用于檢驗(yàn)關(guān)聯(lián)變量組合的可識(shí)別群的均值是否有差異。例如，我們可以將一個(gè)班級(jí)的學(xué)生分為城市和農(nóng)村來(lái)源的兩組，考慮8門(mén)專(zhuān)業(yè)課程（8個(gè)相關(guān)變量的組合），采用

Wilksλ比較這兩組學(xué)生的成績(jī)組合均值是否有顯著差異。1．多元兩樣本均值比較：Hotelling-T^2檢2．Bonferroni校正

多元試驗(yàn)與觀測(cè)產(chǎn)生大量數(shù)據(jù)，不同變量類(lèi)型、數(shù)據(jù)類(lèi)型、觀測(cè)數(shù)量和分析目的，決定不同統(tǒng)計(jì)量的采用。比較單變量與多變量顯著性檢驗(yàn)，兩者有區(qū)別。設(shè)某單變量參數(shù)的零假設(shè)在0.05顯著性水平上是真實(shí)，我們可以得到95%置信概率水平上結(jié)論是正確的。然而，對(duì)雙變量，獲得正確結(jié)論的概率是0.95×0.95=0.90。依此類(lèi)推，p個(gè)變量的情形將是0.95p，即至少出錯(cuò)一次的概率是1-0.95p。這樣，就產(chǎn)生了一個(gè)難以相信的結(jié)果：當(dāng)p越大，正確結(jié)論的置信度就越低。這顯然不符合實(shí)際情形，因此，意大利數(shù)學(xué)家Carlo

EmilioBonferroni提出Bonferroni校正。

多元顯著性檢驗(yàn)的Bonferroni校正是簡(jiǎn)單地給檢驗(yàn)值乘以一個(gè)p值（如果有p次獨(dú)立檢驗(yàn)，則每次乘以1/p），將校正后的數(shù)值與0.05顯著性水平比較，確定是否顯著。如果校正值仍小于0.05，則拒絕零假設(shè)。

Bonferroni校正也存在一些有爭(zhēng)議的問(wèn)題，有些應(yīng)用校正情形需要慎重。3．多元多樣本均值比較Bryan

F.J.Manly歸納有4個(gè)統(tǒng)計(jì)量可以描述：（1）Wilks的Λ（lambda）檢驗(yàn)對(duì)應(yīng)的統(tǒng)計(jì)量.（2）Roy最大特征根檢驗(yàn)（3）Pillai跡統(tǒng)計(jì)量。（4）Lawes-Hotelling跡統(tǒng)計(jì)量.PP.318-3194．多元兩樣本與多樣本方差比較MATLAB中多元統(tǒng)計(jì)量比較分析1．MATLAB中多元方差分析m多an元ov方a是差一分種析“（門(mén)mu戶(hù)lt”iv檢ar驗(yàn)ia（tegantaelwyasyitseosft）va。ri如an果ce多，元MAFN-O檢VA驗(yàn)）是。顯著的，則可以考慮個(gè)別單變量分析。manova也可以檢測(cè)組合差異。當(dāng)變量之間存在多重共線(xiàn)性時(shí)，單純的單變量分析難以發(fā)現(xiàn)這種差異。但是manova對(duì)異常值非常敏感，尤其是樣本數(shù)量比較小時(shí)。manova假定因變量之間存在線(xiàn)性關(guān)系，也不能給出主要因子與重復(fù)因子之間的交互影響效應(yīng)。變ma量no均va滿(mǎn)用足于方同差時(shí)分分析析相多關(guān)個(gè)假相設(shè)互。依其賴(lài)基的本多假元設(shè)情是形，。待它分假析定數(shù)：據(jù)①集所X有滿(mǎn)足：每個(gè)變量數(shù)據(jù)集/組（group）對(duì)應(yīng)的總體服從正態(tài)分布；每個(gè)總體的方差、協(xié)方差矩陣相同；所有的觀測(cè)相互獨(dú)立。②因變量之間是線(xiàn)性或多重共線(xiàn)性。MATLAB中，函數(shù)manova1用于實(shí)現(xiàn)單因素多元方差分析。組MA均TL值A(chǔ)B為中基，礎(chǔ)還，有生一成個(gè)譜函系數(shù)圖ma.novacluster。它在MANOVA之后，以2．MATLAB中均值多重比較檢驗(yàn)

MATLAB中，multcompare函數(shù)用于完成多重均值比較。3．多元等方差檢驗(yàn)多元等方差檢驗(yàn)，也稱(chēng)為多元方差齊性（homogeneity

variance）檢驗(yàn)，即檢驗(yàn)k群方差是否相同。它包括兩種檢驗(yàn)方法，Bartlett檢驗(yàn)和

Levene檢驗(yàn)，檢驗(yàn)的零假設(shè)都是k群具有相同的方差。MATLAB中，采用vartestn函數(shù)實(shí)現(xiàn)這兩種檢驗(yàn)。（1）Bartlett檢驗(yàn)（2）Levene檢驗(yàn)減小多元數(shù)據(jù)維度：線(xiàn)性方法

多元分析的基本問(wèn)題是Richard

Bellman提出的維度災(zāi)難（curse

dimensionality）。在高維空間的觀測(cè)（采樣）比低維空間的更稀疏和更小代表性；高

維空間中，服從某分布的典型數(shù)據(jù)點(diǎn)被采樣的頻率更?。粩?shù)據(jù)集中的某些維度及相應(yīng)的測(cè)量特征在建

模上也沒(méi)有意義，即存在冗余。因此，多元數(shù)據(jù)分

析中，常包含有維度減少（dimension

reduction）方法。維度減少是以更小維度空間，更少的變量表

示多元數(shù)據(jù)。其目的是探索高維數(shù)據(jù)（多元數(shù)據(jù)），找出數(shù)據(jù)模式或結(jié)構(gòu)；以二維或三維散點(diǎn)圖可視化

多元數(shù)據(jù)。

經(jīng)典線(xiàn)性維度減少方法包括：多元特征選擇和多元特征轉(zhuǎn)換。其中多元特征轉(zhuǎn)換方法可分為主成分分析（principal

component

analysis）和因子分析

(factor

analysis)。

主成分分析面對(duì)的問(wèn)題是，對(duì)大數(shù)據(jù)量測(cè)量變量，在數(shù)據(jù)集中含有多少冗余屬性信息？該問(wèn)題陳述包括三個(gè)特定問(wèn)題：

①相關(guān)矩陣包含的線(xiàn)性關(guān)系模式是什么？設(shè)屬性信息矩陣X，該問(wèn)題的回答等價(jià)于評(píng)價(jià)X中多重共線(xiàn)性（multicol-linearity）程正是主成分分析目標(biāo)。

②能否給相關(guān)矩陣一個(gè)最為簡(jiǎn)潔的描述？該問(wèn)題的回答等價(jià)于，消除矩陣X中的冗余信息，正是因子分析的定位。

③一個(gè)給定的相關(guān)矩陣中，是否潛藏著某種合理維度？該問(wèn)題的回答等價(jià)于假設(shè)檢驗(yàn)，是因子分析要解決的問(wèn)題。

主成分分析與因子分析目的和術(shù)語(yǔ)有大量重疊，兩者都是維度減少技術(shù)，都是以更少新變量替

代原有多個(gè)觀測(cè)量。有些人甚至認(rèn)為兩者沒(méi)有

本質(zhì)區(qū)別，因子分析中的一些算法也包含在主

成分分析中。

但是，兩者目的和基本模型還是有不同。概括地說(shuō)，如果需要更少的維度去可視化數(shù)據(jù)，簡(jiǎn)化和近似數(shù)據(jù)，應(yīng)采用主成分分析；如果需要一個(gè)解釋性模型，以理解數(shù)據(jù)之間相關(guān)性，則需要因子分析。

可以認(rèn)為，因子分析是主成分分析的擴(kuò)充。主成分分析通過(guò)坐標(biāo)旋轉(zhuǎn)，解釋原始p個(gè)變量的方差分布。因子分析解釋原始p個(gè)變量與公共因子之間相關(guān)性。主成分分析不依賴(lài)任何特定統(tǒng)計(jì)模型，而因子分析則以模型為基礎(chǔ)。1．主成分分析概念與原理

1901年，Karl

Pearson首先提出主成分分析（PCA）概念與描述，直到1933年Hotelling才完成PCA計(jì)算方法。計(jì)算機(jī)技術(shù)出現(xiàn)后，才有可能分析更多變量的主成分問(wèn)題。

作為最簡(jiǎn)單的多元分析方法之一，PCA通過(guò)檢測(cè)變量之間線(xiàn)性獨(dú)立性，以嚴(yán)格定量分析為基礎(chǔ)，簡(jiǎn)化或合并相似特征的變量，或找出眾多變量中對(duì)系統(tǒng)行為起控制作用的變量。用一組少量的變量，替代原來(lái)眾多變量集，減少信息冗余。以PCA方法產(chǎn)生的新變量集，是原有數(shù)據(jù)變量集的子集，稱(chēng)為主成分（principalcomponents，PC）。主成分可以表達(dá)原有數(shù)據(jù)集特征，每個(gè)主成分是原有數(shù)據(jù)集中變量的線(xiàn)性組合。每個(gè)主

成分之間相互正交，這樣就沒(méi)有冗余問(wèn)題。這正是多

元分析所涉及的如何避免重復(fù)屬性信息的重復(fù)計(jì)算問(wèn)

盡管線(xiàn)性分析中，以多變量為基礎(chǔ)，建立正交基方法非常多（詳細(xì)資料，請(qǐng)參閱線(xiàn)性代數(shù)相關(guān)內(nèi)容），但是主成分分析的特殊是在于：

①線(xiàn)性空間中，第一主成分是一個(gè)坐標(biāo)軸。將每個(gè)觀測(cè)（樣本）投影在該坐標(biāo)軸，其結(jié)果形成一個(gè)新變量。在所有可能選擇的坐標(biāo)軸上，該變量方差最大。

②第二主成分是垂直于第一主成分的坐標(biāo)軸。將每個(gè)觀測(cè)（樣本）投影在該坐標(biāo)軸上，產(chǎn)生另一個(gè)新變量，該變量的方差在所有可能選擇的第二坐標(biāo)軸中是最大的。

理論上，主成分包含的變量集可以和原始數(shù)據(jù)中所有的變量數(shù)目一樣多，但是實(shí)際上最初主成分之間方差和應(yīng)當(dāng)是不小于原始數(shù)據(jù)總方差的80%。

主成分常用于環(huán)境系統(tǒng)變化驅(qū)動(dòng)力分析，如環(huán)境變化、土地利用與覆蓋變化的主要驅(qū)動(dòng)力分析。

應(yīng)當(dāng)提醒，主成分分析不是萬(wàn)能技術(shù)。主成分分析期待主成分的方差集中在少數(shù)成分上，這樣可以采用少數(shù)具有較大方差的Z值，表達(dá)變量X，將X轉(zhuǎn)換為更少變量的Z成分集。如果原始數(shù)據(jù)的變量X之間沒(méi)有任何相關(guān)性，是相互獨(dú)立的，則主成分分析沒(méi)有任何意義。只有在原始數(shù)據(jù)中變量之間存在非常高的相關(guān)性，主成分分析才可能將原始數(shù)據(jù)中的眾多變量（甚至變量數(shù)p＞20），縮減為2～3個(gè)主成分。變量之間強(qiáng)相關(guān)，意味著原始數(shù)據(jù)中存在非常大的冗余。

從這種意義上，目前土地評(píng)價(jià)、生態(tài)評(píng)價(jià)、環(huán)境評(píng)價(jià)工作中，憑個(gè)人喜好和經(jīng)驗(yàn)選擇變量（因子），不考慮變量之間相關(guān)關(guān)系，直接加權(quán)評(píng)分，得到評(píng)價(jià)結(jié)論的方法，其過(guò)程與結(jié)論都是值得懷疑的。如果變量之

間有強(qiáng)相關(guān)性，意味著工作重復(fù)和忽略了真正的重要

變量，盡管這些變量數(shù)值可能微不足道。個(gè)人喜好是

難以被人重復(fù)的，因此，評(píng)價(jià)工作中就將出現(xiàn)不同觀

察角度，選擇不同變量和權(quán)重。從統(tǒng)計(jì)學(xué)角度，這些

評(píng)價(jià)方法不嚴(yán)謹(jǐn),也沒(méi)有說(shuō)服力。也許主成分分析考慮因子之間相關(guān)性，能讓類(lèi)似的評(píng)價(jià)工作更經(jīng)得起討論。3．主成分分析計(jì)算過(guò)程

主成分分析過(guò)程：①標(biāo)準(zhǔn)化變量X，使其均值為0、方差是1，以消除量綱影響。②計(jì)算標(biāo)準(zhǔn)化變量的協(xié)方差矩陣C。對(duì)標(biāo)準(zhǔn)化變量，矩陣C是相關(guān)矩陣。③找出矩陣C的特征根λi及其對(duì)應(yīng)特征向量ai=[a1i,a2i,…，a第i個(gè)主成分系數(shù)是ai的元素，λi是它的方差。④舍棄任何小方差對(duì)應(yīng)的主成分。例如，計(jì)算了10個(gè)變量的數(shù)據(jù)集，如果前三個(gè)主成分方差和占90%比例，則舍棄其它7個(gè)成分。4．主成分計(jì)算的兩種方法這里進(jìn)一步介紹主成分計(jì)算的兩種方法：

①使用樣本協(xié)方差矩陣計(jì)算主成分。以協(xié)方差矩陣為基礎(chǔ)的主成分分析優(yōu)點(diǎn)是，統(tǒng)計(jì)推斷方法相對(duì)容易，易于理解。

②使用樣本相關(guān)系數(shù)矩陣計(jì)算主成分。當(dāng)原始維度上方差差異明顯。例如，一些變量的方差相對(duì)其它變量的方差非常大，可以采用相關(guān)系數(shù)矩陣分析主成分。5．主成分幾何意義主成分幾何解釋是以相關(guān)矩陣C的特征函數(shù)為基礎(chǔ)。Daniel

A.Griffith以Z1和Z2為原始圖形軸，主要特征向量表示一條穿越散布z-得分點(diǎn)的直線(xiàn)，z-得分點(diǎn)到該直線(xiàn)的垂直距離是最小的。所謂的主成分得分（principalcomponent

scores）是合成變量（主成分）的度量。主特征值給定了直線(xiàn)的相對(duì)長(zhǎng)度。第二特征向量必須垂直第一特征向量，確保兩個(gè)主成分之間相對(duì)獨(dú)立，其相對(duì)長(zhǎng)度由第二特征值給定。變量Z1與Z2之間相關(guān)系數(shù)是特征向量與原始z-得分坐標(biāo)之間形成的夾角，該系數(shù)用于創(chuàng)建合成變量集F。假如變量x1與x2之間是完全隨機(jī)（無(wú)相交），則相應(yīng)相關(guān)系數(shù)是0(ρ=0),Z1與Z2之間也是隨機(jī)的。這種情形下，z-得分值點(diǎn)散布是一個(gè)圓環(huán)，特征值等于1，特征向量是z-得分?jǐn)?shù)軸。如果x1與x2之間是部分相關(guān)，則相應(yīng)相關(guān)系數(shù)是0＜ρ＜1，z-得分值點(diǎn)散布是一個(gè)橢圓環(huán)，特征值等于橢圓半軸，特征向量與z-得分?jǐn)?shù)軸有一個(gè)夾角。如果x1與x2完全相關(guān)，相關(guān)系數(shù)為ρ=1。z-得分值點(diǎn)散布橢圓變成直線(xiàn)，相對(duì)長(zhǎng)度等于2，第二特征向量的相對(duì)長(zhǎng)度是0。在三維情形下，z-得分值點(diǎn)散布是特征向量為軸的橢球或球。MATLAB中主成分分析實(shí)現(xiàn)

MATLAB中，princomp函數(shù)計(jì)算數(shù)據(jù)集的主成分，基本要求是需要一個(gè)原始的數(shù)據(jù)集，以供分析。假如缺乏原始數(shù)據(jù)，但是有樣本數(shù)據(jù)之間協(xié)方差或相關(guān)系數(shù)，也可以采用pcacov函數(shù)完成主成分分析。X=3+randn(30,1)Y=5+6*X+2*randn(30,1)Z=8-3*X+4*X.^2+3*randn(30,1)X1=X(1:15)X2=X(16:30)Y2=Y(16:30)Y1=Y(1:15)Z1=Z(1:15)Z2=Z(16:30)B=[X1

Z2]save

B.mat

Bboxplot(B)stdr=std(B)meanr=mean(B)meanr=repmat(meanr,15,1)sr=(B-meanr)./repmat(stdr,15,1)[coefs,

scores,

variance,t2]=princomp(srI=coefs"*coefsplot(scores(:,1),scores(:,2),"+")percent_explained=100*variance/sum(varipareto(percent_explained)[st2,index]=sort(t2,"descend")extreme=index(1)extreme=index(2)corrmatrix=corrcoef(sr)corrmatrix=flipud(corrmatrix)imagesc(corrmatrix),colormap(gray)Colorbar[coefs,scores,variances,t2]=princomp(sr

主成分的表達(dá):采用圖形,顯示出不同主成分上的變量分布及其相關(guān)性,見(jiàn)PP338-340.因子分析環(huán)境問(wèn)題中，一個(gè)區(qū)域污染可能是大氣污染，也可能是水污染和土壤污染，因此環(huán)境監(jiān)測(cè)變量可以歸于大氣因子、水因子和土壤因子。就象競(jìng)技體育的十項(xiàng)全能運(yùn)動(dòng)一樣，有的是力量型，有的是速度型項(xiàng)目。因子分析是以變量之間組合（相互依賴(lài)關(guān)系）因子為基礎(chǔ)，以因子代替變量，達(dá)到減少維度的目的。

歸納起來(lái)，因子分析用于擬合多元數(shù)據(jù)模型，估計(jì)變量之間某種相互依賴(lài)關(guān)系。因子分析模型中，原始數(shù)據(jù)中測(cè)量變量依賴(lài)于更少的未測(cè)量因子，因?yàn)槊總€(gè)因子可以影響更多的變量，它們是公共因子（common

factor）。假定每個(gè)變量與公共因子之間有線(xiàn)性關(guān)聯(lián)，相關(guān)系數(shù)稱(chēng)載荷（loadings），每個(gè)測(cè)量變量也包括一個(gè)獨(dú)立隨機(jī)變異成分，稱(chēng)個(gè)性變差（specificvariance），因?yàn)閷?duì)每個(gè)變量是特定的。2．因子分析步驟與方法因子分析包括3個(gè)步驟：（1）確定臨時(shí)因子載荷aij：臨時(shí)因子F*之間可能有相關(guān)，或個(gè)性變差之間存在相關(guān)。aij的數(shù)值越接近于零，則xi與Fj之間越無(wú)關(guān)。aij的數(shù)值絕對(duì)值越大，則xi與F間相關(guān)關(guān)系越強(qiáng)。（2）因子旋轉(zhuǎn)：方差最大旋轉(zhuǎn)（varimax

rotation）方法是非常好的標(biāo)準(zhǔn)因子分析方法，由Kaiser提出并加以改進(jìn)。它基于一個(gè)假設(shè)，可借助j因子的載荷平方方差解釋j因子，即，如果方差大，則趨向于0或1。方差

最大旋轉(zhuǎn)就是最大化所有因子方差和，最后找出一組

不相關(guān)的因子。在方差分析中，放棄因子之間相互獨(dú)

立思想，使因子載荷盡可能簡(jiǎn)單。

（3）計(jì)算因子分值：因子分值用于校驗(yàn)變量與因子之間相關(guān)程度，采用類(lèi)似主成分分析的方法計(jì)算它們，稱(chēng)為主成分因子分析（principal

components

factoranalysis）。3．MATLAB中因子分析實(shí)現(xiàn)

MATLAB中，采用函數(shù)factoran實(shí)現(xiàn)極大似然公共因子分析。

[lambda,psi,T,stats,F]=factoran(sr,2,"sco

ssion")具體解釋見(jiàn)PP343-344減小多元數(shù)據(jù)維度：非線(xiàn)性方法

非線(xiàn)性維度縮減是將高維空間映射到低維空間，常用方法包括多維標(biāo)度分析（multidimensional

scaling）,有些中文資料中也譯為“多維標(biāo)度”。多維標(biāo)度分析概念

可視化數(shù)據(jù)的重要目標(biāo)之一是直觀感覺(jué)數(shù)據(jù)點(diǎn)之間相對(duì)距離的遠(yuǎn)近，散點(diǎn)圖就是一種良好的

工具。有些統(tǒng)計(jì)分析情形中，數(shù)據(jù)根本就不是

以點(diǎn)的形式存在，而是以?xún)蓛上嗨苹虿町惖姆?/p>

式出現(xiàn)。沒(méi)有任何數(shù)據(jù)點(diǎn)，就不能繪制散點(diǎn)圖。退一步說(shuō)，即使有些數(shù)據(jù)是以點(diǎn)的形式出現(xiàn)，

不是兩兩點(diǎn)之間距離關(guān)系表示，散點(diǎn)圖也可能

沒(méi)有意義。因?yàn)橛行?shù)據(jù)之間兩點(diǎn)鄰近的度量

不是采用歐幾里得距離，而是必須使用非歐幾

里得距離，如城市街區(qū)距離。對(duì)這種情形的多

元變量，很難用一般圖形刻畫(huà)出觀測(cè)（樣本）之間的相似和差異關(guān)系。因此，減少維度，又

盡量不損失信息量的多維標(biāo)度分析成為一種必

要手段。

多維標(biāo)度分析（multidimensional

scaling，MDS是適應(yīng)上述情形的一組方法集，它可視化點(diǎn)對(duì)

之間在多種距離上是如何相近或差異，在更低維度空間上表示數(shù)據(jù)。MDS也不必要求采用原始數(shù)據(jù)，只需要兩兩距離或相異的矩陣。有些中文多元統(tǒng)計(jì)分析著作中，多維標(biāo)度分析被稱(chēng)為多維標(biāo)度法。

多維標(biāo)度分析最初可能是用于數(shù)學(xué)心理學(xué)領(lǐng)域。

1952年，Torgerson首先提出多維標(biāo)度分析的數(shù)學(xué)模型。目前它已經(jīng)廣泛應(yīng)用在交通、生態(tài)、

地學(xué)與社會(huì)經(jīng)濟(jì)領(lǐng)域。多維標(biāo)度分析是通過(guò)模

型等方法，如采用距離、相似系數(shù)、稀疏系數(shù)

等,描述對(duì)象之間親緣關(guān)系變量，把高維對(duì)象轉(zhuǎn)換為低維情形，在較低維度空間標(biāo)度、描述更

高維度的對(duì)象，以揭示數(shù)據(jù)中隱含結(jié)構(gòu)。

與聚類(lèi)分析比較，多維標(biāo)度分析彌補(bǔ)了聚類(lèi)分析上的不足。聚類(lèi)分析歸類(lèi)相似樣本，以譜系圖反映樣本之間親緣關(guān)系，將高維樣本納入在一維譜系中，這種簡(jiǎn)化可能導(dǎo)致數(shù)據(jù)失真，使聚類(lèi)結(jié)果具有一定主觀性。多維標(biāo)度分析則將高維對(duì)象簡(jiǎn)化為較低維度，卻最大限度地保持對(duì)象之間原有相關(guān)關(guān)系。與主成分分析比較，兩者都是降低樣本空間維度。多維標(biāo)度分析更趨向以圖形方法，顯示對(duì)象之間關(guān)系。這種圖形可以是一維、二維、三維或更高的維度。一個(gè)多維標(biāo)度環(huán)境問(wèn)題實(shí)例

假設(shè)以天津n條街道/道路為對(duì)象，考慮它們之間環(huán)境質(zhì)量差異。任意兩條街道（r,s）之間差異

(dissimilarity)（有些中文教程，也將dissimilar譯為不相似。）的描述量為,表示r與s之間沒(méi)有差異，表示r與s之間環(huán)境質(zhì)量完全不同。兩兩街道比較的結(jié)果，的取值有n(n-1)/2種可能。如果不同的判斷角度，則有i角度的差異描述結(jié)果。

多維標(biāo)度分析的基本思想，是尋找到一個(gè)更小維度空間，通常是歐幾里得空間。以空間中的每個(gè)點(diǎn)表示一個(gè)對(duì)象（街道），以點(diǎn)之間的距離匹配初始的差異。兩條相似的街道由多維空間中兩個(gè)距離相近的點(diǎn)表示，兩條相異的街道則由多維空間兩個(gè)距離較遠(yuǎn)的點(diǎn)表示。多維標(biāo)度分析類(lèi)型（1）經(jīng)典MDS：

（2）度量最小二乘標(biāo)度分析（Metric

leastsquares

scaling）：（3）非度量MDS：4．鄰近式鄰上近的（接pr近ox。im對(duì)it象ie之s）間的鄰字近面的理測(cè)解量，有就兩是者在類(lèi)空型間：、相時(shí)似間或其它方（similarity，）與差異（dissimilarity）。距差離異、可城以市采街用區(qū)距距離離來(lái)、表M達(dá)ah，al包an括ob歐is幾距里離得、距Mi離nk、ow加sk權(quán)i度歐量幾距里離得等。MATLAB中經(jīng)典多維標(biāo)度分析的實(shí)現(xiàn)

MATLAB中，采用cmdscale函數(shù)計(jì)算經(jīng)典多維標(biāo)度問(wèn)題。cmdscale函數(shù)采用相關(guān)點(diǎn)距離矩陣為輸入，創(chuàng)建點(diǎn)構(gòu)圖。理論上，這些點(diǎn)是在2維或3維的，以它們之間的歐幾里得距離為基礎(chǔ)，建立原始距離矩陣。這樣，cmdscale創(chuàng)建點(diǎn)散點(diǎn)圖可以可視表達(dá)原始距離。其句法是：

[Y，e]=cmdscale(D)D=pdist(B,"euclidean")[Y,e]

cmdscale(D)[e

e/max(abs(e))]dim

sum(e

eps^(3/4))maxerr2

max(abs(pdist(B)

pdist(Y(:,1:見(jiàn)PP348-349非度量多維標(biāo)度分析PP.349-353Procrustes分析Procrustes是古希臘傳說(shuō)中Attica的強(qiáng)盜,他將被他抓到的人放在一張鐵床上,身高比床長(zhǎng)的人,被其砍去長(zhǎng)出的部分；身高比床短的人,被其強(qiáng)行拉長(zhǎng)。理解了Procrustes，就能知道Procrustes分析是比較形狀的統(tǒng)計(jì)過(guò)程。Procrustes分析，有些中文翻譯為“普魯克分析”，起源于生物學(xué)研究中的動(dòng)物形態(tài)

測(cè)定，但是很快就廣泛用于考古、天文、土木工程、地理、網(wǎng)絡(luò)設(shè)計(jì)和物理化學(xué)。相信它在環(huán)境污染模

式和環(huán)境模擬上也將有應(yīng)用價(jià)值。

Procrustes分析常用于統(tǒng)計(jì)分析的預(yù)處理步驟，它需要應(yīng)用一個(gè)標(biāo)記數(shù)據(jù)集（landmark

dataset）,其中有意義的重要總體特征被標(biāo)記為具體的幾何位置。借助保留形狀的歐幾里得空間變換，最小化在位置、旋轉(zhuǎn)和尺度上的變異，Procrustes分析計(jì)算出兩個(gè)數(shù)據(jù)集中的標(biāo)記最好擬合重疊情形。MATLAB中，函數(shù)procrustes

MATLAB中，函數(shù)procrustes執(zhí)行procrustes分析，其基本句法為：d

procrustes(X,Y)判別分析1分類(lèi)與判別分析概述1．分類(lèi)的分?jǐn)?shù)類(lèi)據(jù)是模已型知,數(shù)稱(chēng)據(jù)為類(lèi)分型類(lèi)，器將（新cl數(shù)as據(jù)si歸fi類(lèi)er的s）過(guò)。程一。個(gè)我分們類(lèi)將器類(lèi)的型建響造應(yīng)，首先需要訓(xùn)練數(shù)據(jù)，該數(shù)據(jù)的類(lèi)型是已知的。在一定置信水平上，分類(lèi)器將新的待分類(lèi)數(shù)據(jù)指定不同的類(lèi)型。與聚類(lèi)（cluster）不一樣，分類(lèi)是事先已知類(lèi)型，而聚類(lèi)是事先不知道類(lèi)型。（分d類(lèi)is方cr法im可in歸an納t

a為na兩ly種si：s）①。參它數(shù)以方訓(xùn)法練，數(shù)如據(jù)判為別基分礎(chǔ)析,擬合參數(shù)模型，分類(lèi)新數(shù)據(jù)。②非參數(shù)方法，如分類(lèi)樹(shù)（classification

trees）。類(lèi)似于非線(xiàn)性回歸中討論的回歸樹(shù)方法。2．判別分析（判d別is函c-數(shù)ri分mi析na（ntdiasncarliymsinsa）nt。f判un別ct分io析n

a是na多l(xiāng)y元si統(tǒng)s）計(jì)，分簡(jiǎn)析稱(chēng)中判，別用分于析判別某觀測(cè)或樣本所屬類(lèi)型的一種統(tǒng)計(jì)分析方法。注意，不管采用什么樣的判別分析方法，有兩個(gè)基本假設(shè)是必需的：（1）對(duì)所有類(lèi)型，類(lèi)內(nèi)的協(xié)方差矩陣是相等的。（2）對(duì)顯著性檢

驗(yàn)，類(lèi)內(nèi)數(shù)據(jù)服從多元正態(tài)分布。另外，還要求誤差獨(dú)立。

面對(duì)的問(wèn)題是用某種方法把研究對(duì)象分成若干類(lèi)型的情形下，判斷和確認(rèn)某新觀測(cè)的類(lèi)型歸屬。

判別分析首先指出最佳判別變量，以提供兩個(gè)類(lèi)群的最佳區(qū)別；然后,確定一個(gè)新觀測(cè)（樣本）與已知類(lèi)型的接近程度，即建立判別函數(shù)。

判別函數(shù)是判別變量的線(xiàn)性組合，判別函數(shù)的值稱(chēng)為判別得分。判別函數(shù)目標(biāo)是使判別組間平方和與組內(nèi)平方和之比值為最大，再利用判別得分將觀察值歸類(lèi)。

最后，指定一些判別規(guī)則，判定樣本或觀測(cè)的類(lèi)型歸屬。判別規(guī)則可以是隨機(jī)的，如Fisher準(zhǔn)則和

Bayesian準(zhǔn)則；也可以是確定的,只考慮判別函數(shù)值（得分）的大小。

判別分析有多種類(lèi)型，按判別的組數(shù)分為兩組判別分析（即樣本只能屬于A或B組）和多組判別分析；按模型分為線(xiàn)性判別和非線(xiàn)性判別；按處理過(guò)程分為逐步判別和序貫判別。

與主成分分析、因子分析比較，判別分析不需要標(biāo)準(zhǔn)化數(shù)據(jù)，判別分析結(jié)果不受單個(gè)變量尺度的影響。

判別分析更類(lèi)似于回歸分析，探索獨(dú)立變量的線(xiàn)性組合，獲取獨(dú)立變量方差的最好解釋。類(lèi)似于回歸問(wèn)題，判別分析主要是針對(duì)區(qū)間變量和比率變量。當(dāng)對(duì)數(shù)回歸與判別分析的假設(shè)都滿(mǎn)足時(shí)，它們趨于得到同樣結(jié)果。與聚類(lèi)分析比較，在判別分析中，至少有一個(gè)已經(jīng)明確知道類(lèi)別的“訓(xùn)練樣本”。

利用這個(gè)數(shù)據(jù)，建立判別準(zhǔn)則，判別未知類(lèi)別觀測(cè)值的歸屬。聚類(lèi)分析中，一般人們事先并不知道或一定要明確應(yīng)該分成幾類(lèi)，完全根據(jù)數(shù)據(jù)來(lái)確定。

環(huán)境統(tǒng)計(jì)中，判別分析面對(duì)環(huán)境質(zhì)量分級(jí)或污染性質(zhì)分類(lèi)等具體情形，目的有二：

①評(píng)價(jià)區(qū)域環(huán)境對(duì)象分類(lèi)或分區(qū)的合理性。多數(shù)環(huán)境問(wèn)題是區(qū)域性問(wèn)題，以多元分析為基礎(chǔ)，指明區(qū)域之間的環(huán)境差異。因此，判別分析應(yīng)當(dāng)回答的問(wèn)題是，p個(gè)預(yù)測(cè)變量最有力的線(xiàn)性組合關(guān)系是什么？以此為基礎(chǔ)，才能建構(gòu)環(huán)境特征歸類(lèi)或區(qū)域的最大分割。

②對(duì)新采樣的環(huán)境樣本，或面臨新的環(huán)境區(qū)域，與以往類(lèi)型進(jìn)行比較，判斷樣本或區(qū)域?qū)傩裕瑢儆谀姆N類(lèi)型。即提出適當(dāng)計(jì)算規(guī)則，有效地歸納新樣本到既有類(lèi)型中。在區(qū)域問(wèn)題處理上，判別分析也可以用于遙感圖象數(shù)據(jù)解釋與計(jì)算處理。2判別分析方法與準(zhǔn)則

判別分析方法很多，包括Mahalanobis距離判別法、Fisher判別法、Bayesian判別法、典型判別函數(shù)、逐步判別函數(shù)分析、觀測(cè)

的Jackknife分類(lèi)和Logistic回歸等。1．使用Mahalanobis距離的判別分析

最簡(jiǎn)單的判別分析辦法，就是計(jì)算到哪個(gè)類(lèi)型中心距離最近，按最近距離判別對(duì)象屬于哪一類(lèi)。通常使用的距離是Mahalanobis距離。

判別函數(shù)(discriminant

function)是用來(lái)比較個(gè)中心距離的數(shù)學(xué)函數(shù)。這種根據(jù)距離遠(yuǎn)近進(jìn)行判別的方法，原理簡(jiǎn)單，直觀易懂。利用

Mahalanobis距離進(jìn)行判別分析，是以m個(gè)樣本平均向量為基礎(chǔ)，估計(jì)真實(shí)n個(gè)平均向量的類(lèi)

型。計(jì)算個(gè)體到每個(gè)類(lèi)中心的Mahalanobis距離判斷每個(gè)個(gè)體更趨于歸屬哪個(gè)類(lèi)。2．典型判別函數(shù)

典型判別函數(shù)（canonical

discriminantfunctions）思想來(lái)源于1936年Fisher的研究它建立在以方差分析為基礎(chǔ)的F-統(tǒng)計(jì)量上，找出p個(gè)變量的線(xiàn)性組合，使類(lèi)間差異最大，類(lèi)內(nèi)差異最小。找出線(xiàn)性組合實(shí)際是一個(gè)特征值問(wèn)題，與類(lèi)間的線(xiàn)性組合無(wú)關(guān)。3．Fisher判別分析(P359-361)4．Bayesian判別分析

Bayesian判別的統(tǒng)計(jì)思想是，假定對(duì)研究對(duì)象已有一定認(rèn)識(shí)，常用先驗(yàn)概率分布來(lái)描述這種

認(rèn)識(shí)；然后我們?nèi)〉靡粋€(gè)樣本，用樣本修正已

有知識(shí)（先驗(yàn)概率分布），得到后驗(yàn)概率分布，各種統(tǒng)計(jì)推斷都通過(guò)后驗(yàn)概率分布來(lái)進(jìn)行。將

這種思想用于判別分析，就得到Bayesian判別。5．逐步判別分析MATLAB中判別分析的實(shí)現(xiàn)

判別分析應(yīng)用訓(xùn)練數(shù)據(jù)，估計(jì)自變量的判別函數(shù)參數(shù)。判別函數(shù)決定自變量不同類(lèi)型空間的邊界。1．函數(shù)classify

MATLAB中，函數(shù)classify用于判別分析。其語(yǔ)法規(guī)則是：class=classify(sample,

training,

group,

ty[class,

err,

posterior,

logp]=classify(…)

以MATLAB自帶的數(shù)據(jù)fisheriris.mat為例，討論判別分析過(guò)程。

（1）先選擇訓(xùn)練數(shù)據(jù)，采用散點(diǎn)圖觀察數(shù)據(jù)類(lèi)型：從圖可見(jiàn)，該數(shù)據(jù)包括兩種類(lèi)型，而且沒(méi)有很明顯的區(qū)分界限。load

fisheririsSL

meas(51:end,1);SW

meas(51:end,2);group

species(51:end);h1

gscatter(SL,SW,group);set(h1,"LineWidth",2)legend("組1","組2","Location","NW")

（2）采用函數(shù)classify進(jìn)行判別分類(lèi)：為了表達(dá)分類(lèi)在同樣尺度上，可以采用meshgrid函數(shù)繪制格網(wǎng)。[X,Y]

meshgrid(linspace(4,8),linspace(X

X(:);

Y(:);

[class,err,posterior,logp]

classify([XSW],group,"quadratic")（3）可視化分類(lèi)結(jié)果（圖）：hold

ongscatter(X,Y,class,"wb",".",1,"off")axis([4.5

4])xlabel("萼片長(zhǎng)度（SL）")ylabel("萼片寬度（SW）")當(dāng)然，也可以直接列舉出分類(lèi)結(jié)果。如：load

discrimsample

ratings(idx,:)training

ratings(1:200,:)g

group(1:200)class

classify(sample,training,g)first5

class(1:5)first5

2函數(shù)knnclassify和函數(shù)svmclassify

MATLAB中，函數(shù)svmclassify和函數(shù)knnclassi也是判別分類(lèi)函數(shù)。其中函數(shù)svmclassify是以支持向量機(jī)（a

support

vector

machine）為基礎(chǔ)的分類(lèi)器，函數(shù)knnclassify是以近鄰方法為基礎(chǔ)的數(shù)據(jù)分類(lèi)。knnclassify函數(shù)基本句法是：

class

knnclassify(Sample,

Training,

Groudistance,

rule)svmclassify函數(shù)基本句法是：

group

svmclassify(SVMStruct,

Sample,"PropertyName",

PropertyValue...)以下是一個(gè)簡(jiǎn)單例子：sample

[.9

.8;.1

.3;.2

.6]training=[0

0;.5

.5;1

1]group

[1;2;3]class

knnclassify(sample,

training,

group)class

2更大一些的數(shù)據(jù)集，我們可以隨機(jī)產(chǎn)生一組隨機(jī)正態(tài)分布訓(xùn)練數(shù)據(jù)：training

[mvnrnd([

1],

eye(2),

100);

mvnrnd([2*eye(2),

100)]指定類(lèi)型，并繪制訓(xùn)練數(shù)據(jù)類(lèi)型分布（圖）：group

[repmat(1,100,1);

repmat(2,100,1)]gscatter(training(:,1),training

(:,2),group,"rlegend("訓(xùn)練組1","訓(xùn)練組2");hold

on再生成一個(gè)連續(xù)均勻分布的樣本分類(lèi)（圖）：sample

unifrnd(-5,

100,

2)c

knnclassify(sample,

training,

group)gscatter(sample(:,1),sample(:,2),c,"mc");

legend("訓(xùn)練組1","訓(xùn)練組2","組1中的數(shù)據(jù)","中的數(shù)據(jù)")hold

off現(xiàn)在指定k=10，即每個(gè)中心有10個(gè)近鄰（圖）：gscatter(training(:,1),training(:,2),group,hold

onc3

knnclassify(sample,

training,

group,

10)gscatter(sample(:,1),sample(:,2),c3,"mc","o

legend("訓(xùn)練組1","訓(xùn)練組2","組1中的數(shù)據(jù)","中的數(shù)據(jù)")hold

offsvmclassify函數(shù)%

Load

the

data

and

select

features

for

classificationload

fisheririsdata

[meas(:,1),

meas(:,2)];%

Extract

the

Setosa

classgroups

ismember(species,"setosa");%

Randomly

select

training

and

test

sets[train,

test]

crossvalind("holdOut",groups);cp

classperf(groups);%

Use

linear

support

vector

machine

classifiersvmStruct

svmtrain(data(train,:),groups(train),"showpclasses

svmclassify(svmStruct,data(test,:),"showplot"%

See

how

well

the

classifier

performedclassperf(cp,classes,test);cp.CorrectRate聚類(lèi)分析聚類(lèi)分析(cluster

analysis)，也稱(chēng)為分割分析（segmentation

analysis）或分類(lèi)分析（taxonomyanalysis）,根據(jù)數(shù)據(jù)特征將數(shù)據(jù)集分割為類(lèi)型，是一種以對(duì)象組間距離最大，組內(nèi)對(duì)象距離最小為基礎(chǔ)，將對(duì)象分為多個(gè)類(lèi)群的方法。聚類(lèi)分析是

一種與判別分析功能相反的多元統(tǒng)計(jì)分析技術(shù)。

本質(zhì)上，聚類(lèi)分析屬于非監(jiān)督分類(lèi)，事先并不知

道包含多少種類(lèi)型。判別分析則是監(jiān)督分類(lèi)，事

先已知類(lèi)型。明顯地，相對(duì)判別分析而言，聚類(lèi)

分析困難一些，因?yàn)榕袆e分析事先已知類(lèi)型情形，聚類(lèi)分析類(lèi)型事先是未知的。聚類(lèi)分析非常有用，它可以用于探索分析多種類(lèi)型的數(shù)據(jù)集，完成數(shù)

據(jù)挖掘，在工程、生物、醫(yī)療、語(yǔ)言、人類(lèi)學(xué)、

心理學(xué)和市場(chǎng)等許多領(lǐng)域有廣泛應(yīng)用。

聚類(lèi)分析算法實(shí)際是找出一些變量關(guān)系的距離函數(shù)以樣本之間相似性，類(lèi)群之間相離性為基礎(chǔ)，分類(lèi)樣本，完成聚類(lèi)。因此聚類(lèi)分析中，需要選擇聚類(lèi)標(biāo)準(zhǔn)，確定將形成多少類(lèi)。多數(shù)聚類(lèi)算法只是簡(jiǎn)單地以最大相似性連接樣本對(duì)象對(duì)，聚合成類(lèi)群。首先計(jì)算對(duì)象間的相似性，然后以相似性計(jì)算結(jié)果為基礎(chǔ)，生成一個(gè)層次樹(shù)，即一種表示親緣關(guān)系的譜系圖（dendrogram）。有時(shí)還應(yīng)當(dāng)考慮變量的絕對(duì)值，絕對(duì)值大不一定表示重要。有些環(huán)境數(shù)值盡管絕對(duì)值小，但是其含量對(duì)揭示環(huán)境狀態(tài)，卻顯得非常重要。因此需要采用自動(dòng)縮放技術(shù)（autoscaling）,通過(guò)校正將數(shù)據(jù)變換均值為0，方差是1的數(shù)據(jù)。其次，為避免負(fù)相關(guān)，可使用對(duì)數(shù)比

率轉(zhuǎn)換方法。聚類(lèi)分析類(lèi)型（a1g）gl譜om系er聚at類(lèi)iv方e法hi（erhairecrhaircahlimceatlhcoldu，stAeHrMi）ng。）也：有又人稱(chēng)稱(chēng)凝之聚為層系次統(tǒng)方聚法類(lèi)。它以對(duì)象之間距離計(jì)算為基礎(chǔ)，合并鄰近對(duì)象，最終產(chǎn)生表示親緣關(guān)系的譜系圖。聚（類(lèi)2）（分di割vi聚si類(lèi)ve（hpiaertairtcihoincianlgmceltuhsotde，riDnHgM）：或正k-好均與值前聚者類(lèi)相。反這，種也方稱(chēng)法為有分許裂多法，基本算法是根據(jù)經(jīng)驗(yàn)選擇一些類(lèi)型中心(比如兩個(gè)類(lèi))，然后以對(duì)象到類(lèi)型中心距離為基礎(chǔ)，確認(rèn)哪些對(duì)象該進(jìn)或該出某些類(lèi)型。一旦分割完成，按類(lèi)

型平均值重新計(jì)算類(lèi)型中心。再次合并或分割子類(lèi)，直到得到滿(mǎn)足限定條件

的分類(lèi)結(jié)果。其計(jì)算基礎(chǔ)是近鄰方法（the

nearest-neighbor

method）。的譜類(lèi)系群聚；類(lèi)對(duì)和異k-常均值敏聚感類(lèi)；都統(tǒng)有計(jì)一特定征的未主知觀等性問(wèn)，題甚。至出現(xiàn)空類(lèi)；趨于特定分布形狀以（概3）率基密于度模為型中聚心類(lèi)的（有m限od混el合-模ba型se。d

c使lu用st概e率ri模ng型）進(jìn)方行法聚是類(lèi)以的概思率想模開(kāi)型始為于基上礎(chǔ)，如世紀(jì)六十年代，1965年Edwards等提出借助有限混合模型，進(jìn)行聚類(lèi)分析問(wèn)題。有限混合模型方法是，假定以加權(quán)組分密度模擬概率密度函數(shù)，當(dāng)使用有限混合進(jìn)行聚類(lèi)分析，聚類(lèi)問(wèn)題轉(zhuǎn)換為估計(jì)假設(shè)混合模型的參數(shù)，如概率密度

估計(jì)。每個(gè)組分密度對(duì)應(yīng)一個(gè)類(lèi)群，采用后驗(yàn)概率確認(rèn)聚類(lèi)結(jié)果。常用的估

計(jì)有限概率密度參數(shù)方法是EM算法（Expectation-Maximization

algorithm，

EM）,它以極大似然估計(jì)為基礎(chǔ)。高斯混合模型聚類(lèi)（Gaussian

mixture

models）：是通過(guò)表示觀測(cè)變量的概率密度函數(shù)為多元正態(tài)密度的混合體。聚類(lèi)過(guò)程包括五個(gè)步驟擇（（1）選模取式變陳量述）：、這特是征聚提類(lèi)取的（初確始定步觀驟測(cè)，樣包本括數(shù)選目擇、類(lèi)選群擇數(shù)測(cè)目量、尺特度征、選完成數(shù)據(jù)轉(zhuǎn)換）。類(lèi)（群2）之模間式的鄰距近離度或量鄰：近多程數(shù)度聚，類(lèi)但方是法不要同求的度距量離觀度測(cè)量樣，本可與能其導(dǎo)可致能不歸同屬的數(shù)據(jù)分割結(jié)果。性（的3），分觀組測(cè)：樣分本組只是能一是個(gè)屬將于數(shù)或據(jù)不分屬割于為

人人文庫(kù)> 全部分類(lèi)> 應(yīng)用文書(shū) > 作業(yè)報(bào)告

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

多元統(tǒng)計(jì)分析2012

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

多元統(tǒng)計(jì)分析2012

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔