2023年多元統(tǒng)計分析知識點多元統(tǒng)計分析課件_第1頁
2023年多元統(tǒng)計分析知識點多元統(tǒng)計分析課件_第2頁
2023年多元統(tǒng)計分析知識點多元統(tǒng)計分析課件_第3頁
2023年多元統(tǒng)計分析知識點多元統(tǒng)計分析課件_第4頁
2023年多元統(tǒng)計分析知識點多元統(tǒng)計分析課件_第5頁
已閱讀5頁,還剩65頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

我也代;,,以大號

多元統(tǒng)計分析(1)

題目:多元記錄分析知識點

研究生_____________________

專業(yè)_____________________

指導教師_____________________

完畢日期12月

目錄

第一章緒論.......................................................錯誤!未定義書簽。

§1.1什么是多元記錄分析.....................................錯誤!未定義書簽。

§1.2多元記錄分析能處理哪些實際問題........................錯誤!未定義書簽。

§13重要內(nèi)容安排...........................................錯誤!未定義書簽。

第二章多元正態(tài)分布...............................................錯誤!未定義書簽。

§2.1基本概念................................................錯誤!未定義書簽。

§2.2多元正態(tài)分布的定義及基本性質(zhì)...........................錯誤!未定義書簽。

1.(多元正態(tài)分布)定義.................................錯誤!未定義書簽。

2.多元正態(tài)變量的基本性質(zhì)...............................錯誤!未定義書簽。

§23多元正態(tài)分布的參數(shù)估計X=(X、,X”…,XV............錯誤!未定義書簽。

1.多元樣本的概念及表達法...............................錯誤!未定義書簽。

2.多元樣本的數(shù)值特性..................................................12

3.〃和2的最大似然估計及基本性質(zhì)..................錯誤!未定義書簽。

4.Wishart分布..........................................錯誤!未定義書簽"

第五章聚類分析..................................................錯誤!未定義書簽。

§5.1什么是聚類分析..........................................錯誤!未定義書簽。

§5.2距離和相似系數(shù).........................................錯誤!未定義書簽。

1.0一型聚類分析常用日勺距離和相似系數(shù).................................20

2.R型聚類分析常用H勺距離和相似系數(shù)....................錯誤!未定義書簽。

§5.3八種系統(tǒng)聚類措施.......................................錯誤!未定義書簽。

1.最短距離法............................................錯誤!未定義書簽。

2.最長距離法...........................................錯誤!未定義書簽。

3.中間距離法............................................錯誤!未定義書簽。

4.重心法................................................錯誤!未定義書簽。

5.類平均法..............................................錯誤!未定義書簽。

6.可變類平均法.........................................錯誤!未定義書簽。

7.可■變法................................................錯誤!未定義書簽。

8.離差平方和法(Word措施)...........................錯誤!未定義書簽。

第六章鑒別分析...................................................錯誤!未定義書簽。

§6.1什么是鑒別分析.........................................錯誤!未定義書簽。

§6.2距離鑒別法..............................................錯誤!未定義書簽。

1.兩個總體的距離鑒別法................................................40

2.多總體的距離鑒別法...................................錯誤!未定義書簽。

§6.3費歇(Fisher)鑒別法....................................錯誤!未定義書簽。

1.不等協(xié)方差矩陣兩總體Fisher鑒別法....................錯誤!未定義書簽。

2.多總體費歇(Fisher)鑒別法............................錯誤!未定義書簽。

§6.4貝葉斯(Bayes)鑒別法..................................錯誤!未定義書簽。

1.基本思想..............................................錯誤!未定義書簽。

2.多元正態(tài)總體的Bayes鑒別法..........................錯誤!未定義書簽。

§6.5逐漸鑒別法..............................................錯誤!未定義書簽。

1.基本思想...........................................錯誤!未定義書簽。

2.引入和剔除變量所用的檢查記錄量......................錯誤!未定義書簽。

3.Bartlett近似公式........................................錯誤!未定義書簽。

第一章緒論

§1.1什么是多元記錄分析

在自然科學、社會科學以及經(jīng)濟領(lǐng)域中,常常需要同步觀測多種指

標。例如,要衡量一種地區(qū)的經(jīng)濟發(fā)展,需要觀測日勺指標有:

總產(chǎn)值(XI)、利潤(X2)、效益(X3)、勞動生產(chǎn)率(X4)、萬元生

產(chǎn)值能耗(X5)、固定資產(chǎn)(X6)、流動資金周轉(zhuǎn)率(X7)、物價(X8)、

信貸(X9)及稅收(X10)也就是說一種地區(qū)口勺經(jīng)濟發(fā)展,受多種指

標共同作用歐I影響,我們把每一種指標當作一種隨機變量,可以單獨

研究每個隨機變量,但這只能揭示該地區(qū)經(jīng)濟發(fā)展的J一種方面,更多

的時候需要把把這渚個隨機變量一起研究揭示多種隨機變量對該地

區(qū)經(jīng)濟發(fā)展的共同影響,以及揭示這些隨機變量內(nèi)在變化規(guī)律。

例如,研究某企業(yè)的經(jīng)營狀況,需要觀測企業(yè)日勺財務(wù)指標有:

每股凈資產(chǎn)(XI)、凈資產(chǎn)收益率(X2)、每股收益(X3)、每

股現(xiàn)金流(X4)、負債率(X5)、流動比率(X6)及速動比率(X7)。

可以單獨研究每個隨機變量,更多的I時候需要把這諸個隨機變量一

起研究,揭示這些隨機變量內(nèi)在變化規(guī)律。

多元記錄分析一一研究多種隨機變量之間互相依賴關(guān)系以及內(nèi)

在記錄規(guī)律性日勺一門記錄學科。

多元記錄分析包括的重要內(nèi)容:多元(正態(tài))總體的參數(shù)估計和假設(shè)

檢查、聚類分析、鑒別分析、主成分分析、因子分析、對應(yīng)分析、經(jīng)

典有關(guān)分析、多重多元回歸分析等。

簡介多元記錄分析措施時,需要的時候增長某些線性代數(shù)的知識。

§1.2多元記錄分析能處理哪些實際問題

⑴經(jīng)濟學:對我國32個省市自治區(qū)的社會狀況進行分析。

⑵工業(yè):服裝廠生產(chǎn)服裝。為了適應(yīng)大多數(shù)顧客日勺需要,怎樣確

定服裝的重要指標及分類的型號。指標:身長、袖長、胸圍、腰圍、

肩寬、肩厚等十幾種指標(重要指標:長度、胖瘦)

⑶投資組合:

§1.3重要內(nèi)容安排

多元(正態(tài))總體的參數(shù)估計、聚類分析、鑒別分析、主成分分

析、因子分析、經(jīng)典有關(guān)分析等。上機操蚱。

第二章多元正態(tài)分布

§2.1基本概念

1.隨機向量的概率分布

定義1將p個隨機變量的整體稱為p維隨機向量,記為

在多元記錄分析中,仍然將所研究對象的全體稱為總體。

一元總體分布函數(shù)和分別密度定義:

為隨機變量X的概率分布,記為。

離散型:

P(X=xk)=pkk=1,2,3,…

(l)P(X=.vA)=A>0;(2)Za=1

k

持續(xù)型:

X

F(x)=P(X<x)=\f(t)dt

+<o

(1)/(r)>0;12)]*/?)力=1

-co

定義2設(shè)是p維隨機向量,它的多元分別函數(shù)定義為

"(x)=F(Xi內(nèi),?.//,)=P(X[<xpX2<x2<,Xp<xp)

記為,其中記為。

定義3設(shè)是p維隨機向量,若存在有限個或可列個p維數(shù)向量

,,記(k=l,2,3,…),且滿足,,則稱X為離散型隨機

向量,稱(k=l,2,3,…)為歐I概率分布。

設(shè)p維隨機向量,,若存在一種非負函數(shù),使得對一切,有

NEXP

F(A)=F(APX2,--,X/,)=JJ---j,3[,小…,ipMt/L…dtp

—00-GO-30

⑴則稱X為持續(xù)隨機向量,稱為分布密度函數(shù),易見

,(2)

例1試證函數(shù)

、"3勺)x>0,x,>0

o其它

為隨機向量XJ:)日勺密度函數(shù)。

證:(1)易見

+?+00+<?-HC

(xX2)

(2)jjf(x[,x2)dt1dt2=jje^clx{clx2

—30-co00

X?H?-FX

二J(JL四)《飛血=J(-?];—

000

X2

=je~dx2=1

0

定義4設(shè)是p維隨機向量,稱由q(<p)個分量構(gòu)成的子向量

時分布為日勺邊緣(或邊際)分布(通過變換中各分量的次序,總

可以假定恰好是時前q個分量,其他p-q個分量為),即,對應(yīng)

的取值也可以提成兩部分oH勺邊緣分布函數(shù)為

^V<1)W=P(^i<xl,X2<x2f,X<x)

=P(X]<xl,X2<x299X(/<xt/i)

二〃(X|W玉,X?W/,,Xgw”,Xq7<8,Xg+2W8,,X“+2W8)

=F(xpx2,,xd,oo,,co)

當有分布密度時,則W、J分布密度為

+O0-KO

-<x?-00

fvA

例2對例1中日勺X=1求邊緣密度函數(shù)。

解:當時

+CC0+C0

((Xl+X2)Xl

/X1)=Jf(x^x2)d):2=jOdx2+Je~dx2=e~

F-CO0

當王<0時

+<x>+00

/(內(nèi))=j/(x,w)四=jOdq=0

-X-00

從而有

X)>0

/a)=,

X)<0

同理可得到

0x2<0

定義5若p維隨機向量的聯(lián)合分次等于各自邊緣分布日勺乘積,

則稱是互相獨立的

X

尸(X內(nèi),…?)=用(X])FXS2),,F(xiàn)xp(%)

一切工=(%,毛,,與)‘£農(nóng)〃

對于持續(xù)型隨機變量,有

心(%,々,與,,?%)=P(內(nèi))P*2),,P(Xp)一切X=(X],9,,%JwR〃

(有時候根據(jù)兒何圖形判斷概率,根據(jù)試驗日勺背景判斷獨立性)

例3例2中日勺與與否互相獨立?

解:例1中密度函數(shù)

例2中求得的邊緣分布

「、X>0口「,、(e~X2X,>0

「(3=《1及『(MX

[0X]<0[0丁0

因此有f(xt,Xj)=/X1(Xj)fXi(x2),KpX]與X2互相獨立。

假如互相獨立,則任何與獨立,反之不真。

2.隨機向量的數(shù)字特性

定義6設(shè),若(i=l,2,3,…)存在,則稱為X日勺均值(向量)

或期望,也記為

'EX]

EX、〃2

EX=二〃

EXJ

均值向量性質(zhì):

⑴E(AX)=4E(X)

(2)E(AXB)=AE(X)B

⑶其中X、Y為隨機向量,A.B為常數(shù)矩陣。

(X]仔、

定義7設(shè)乂=",丫="稱

?9?

、xj匕

D(X)=E[(X-EX)(X-EX)r]

Cov(X^X2)…CMX「Xp)、

C^P(X,X,)Cov(X,X)…Cov(X.X)

=222???2/}

口))

Cov(Xp,Xj)Cov(Xp,X2)…Cov(XX

為X日勺方差矩陣或協(xié)方差矩陣,有時簡記為

D(X)=E[(X-EX)(X-EX)1

叫xp=Z=(%)~

稱隨機向量X和Y日勺協(xié)方差矩陣為

Cov(X,y)=E[(.¥-EX)(y-EY)1]

'Cov{X[,X)CowX|,L)CowX|,};)、

COV(X2,YY)COV(X2,Y2)CoviX^)

、C°p(Xp,K)Cov(Xp,Y2)CoWXp%),

若X日勺協(xié)方差矩陣存在,且每個分量的方差不小于零,則X的有

關(guān)系數(shù)矩陣為

R=,)i

其中

C(?v(XX)_<7.

p?(i,j=l,2,3,…,p)

「War(X鄧a;(Xj)一寸

為Xj與々KJ有關(guān)系數(shù)。記原則離差矩陣

則有

Y=V2RV2R=V2YV2

易見。實際上,對于任意非零向量,

a/a=aDct

=aE[(X-EX)(X-EXy]a

=Ea\X-EX)(X-EX)'a=E[a\X-EX)'"(X-EX)']

=E[r/(X-EXy]2>0

R,V為半正定矩陣。

例4設(shè)

,則可得

,11、

1——

64

輕易驗證/?=";工『:==2_[_J_

63"H

1_1,

J12)

若,稱X與Y不有關(guān)。若X與Y獨立,則X與Y不有關(guān),反

之不成立。(正態(tài)分布反之成立)

協(xié)方差矩陣性質(zhì):

(l)D(X)>0;

(2)D(X+a)=D(X);

(3)O(AX)=AD(X)4;

,

(4)Cov(AXyBY)=ACov(X,Y)B。

§2.2多元正態(tài)分布的定義及基本性質(zhì)

多元正態(tài)分布在多元記錄分析中所處的地位,如同一元記錄分析中

一元正態(tài)分布所處的地位同樣重要,多元記錄分析中的許多理論和

措施都是直接或間接建立在正態(tài)分布的基礎(chǔ)上,多元正態(tài)分布是多

元記錄分析的基礎(chǔ)C此外,在實用中碰到的隨機向量常常是服從或近

似服從正態(tài)分布。因此,現(xiàn)實世界中許多實際問題的處理措施都是以

總體服從止態(tài)分布或近似止態(tài)分布為前提,

1.(多元正態(tài)分布)定義

定義8若P維隨機向量X=(XI,X”…,xj的密度函數(shù)為

/x(石,9,…,巧,)=————大exp(X-〃)工」(X-4)’]

*區(qū)P」

其中,而是p為常數(shù)向量,是p階正定矩陣,則稱X服從p

元正態(tài)分布,也稱X為p維正態(tài)隨機向量,簡記為X?o(是退化

矩陣時,用特性函數(shù)的措施定義)

當p=l時,記為一元正態(tài)分布密度函數(shù)。

當p=2時,有

£|=-f=①52(1一~—)=5I%?。一流)

0"22

二元正態(tài)分布密度函數(shù)可以寫成

/(xpx2)

%2-<TYX|-A?

1112

(2^)7(To-(l-p2)P

1I22l21x?-〃2J。11。22(1-012)1-4l51火、2-

2

11(X[一必)(X2-〃2)?(X2-/A)

)-2P11

(2^)70-110-22(1-p)2P2(1一就)&T]I

%。22

2.多元正態(tài)變量的基本性質(zhì)

⑴若X?,當是p階對角矩陣時,互相獨立;

⑵若X?,為常數(shù)矩陣,d為s維常數(shù)向量,則

AX+d~月工4)

⑶若X?,將X作如下劃分:

丫(X?vfl..ZI21

則~,?。

闡明:

⑴多元正態(tài)分布的任何邊緣分布為正態(tài)分布,反之不真。

⑵協(xié)方差矩陣⑵)=0(表明不有關(guān))日勺充足必要

條件是X⑴與X⑵獨立。

例5,其中

/\

Ai%02心

〃2,z=/l%2%3

%243,

設(shè)。=(()01)',A=\

(00-1J

⑴?,其中

(

51。12

〃Z二(oo1)42=外,

。1)。21。22

k°31032

BPx3~N(403)。

⑵?,其中

A

00A

4〃=〃2

100

⑶記(分塊矩陣),,,則

(Y\

X“='?N"),Z")

kA27

多元記錄中的諸多記錄措施,大都假定數(shù)據(jù)來自多元正態(tài)總體。不過

要判斷已經(jīng)有的數(shù)據(jù)與否來自多元正態(tài)總體不是一件輕易的事,不

過要肯定數(shù)據(jù)不是來自多元正態(tài)總體,有某些簡易的措施,例如

服從P元正態(tài)分布,則它的每一種分量必須服從一元正態(tài)分布,因

此把某個分量的n個樣本作成直方圖,如堅決定不呈正態(tài)分布,則

可以斷定也不服從p元正態(tài)分布。

§2.3多元正態(tài)分布的參數(shù)估計x=(x,x?,

在實際應(yīng)用中,多元正態(tài)總體中均值向量和協(xié)方差矩陣一般是未

知的,需由樣本來估計,而參數(shù)的估計措施有諸多,這里用常見的極

大似然估計給出其估計量。

1.多元樣本的概念及表達法

設(shè)是P元總體中抽取的互相獨立的隨機樣本,簡稱為樣本,

每個稱為一種樣品。其中為第個樣品對第j個指標的觀測值。

rA1I/yr/\

斗2人⑴

X;2)

孫X22為,

X〃xp-£

—“IXn21

%,nxp

每一行都是總體的簡樸隨機樣本。

⑴每個樣本各分量之間有有關(guān)關(guān)系,不一樣樣本之間一定互相獨立;

⑵多元記錄中樣本常常是橫截面數(shù)據(jù),不一樣于時間序列中樣本數(shù)

據(jù)(縱向數(shù)據(jù))。

⑴2.多元樣本的數(shù)值特性

⑵定義設(shè)為來自p元總體的樣本,其中。

⑶樣本均值向量定義為

(4)

X

+…+工川耳

/+心+…+心

n

Xp+4p+.+X叩J

⑵樣本離差矩陣定義為

^=z(x(a)-x)(x(a)-xy=(5..u

a=l

其中SQ=£(X、_£)(Xaj-xja;=1,2,3,p)

a=\

S4=t(x(D(x⑻-燈

a?l

Xa2~X2

X

為一工42一耳%一&aP-\

a-l/3T

(3獷(%一吊)&2-弓)(%--)(%-石)(%-*)(%「一%)

(%2-&)(%F(心一耳A&2一耳)(/3一工)(%一耳)(%f)

(/3F(4絲一針(%3T)("%)

a=l(%一%)(/2-耳)

(%〃一可)(%-工)(2一%)(42一蒼)(X“廠目)(X0「%)(“可)2

⑶樣本協(xié)方差矩陣定義為

匕/=:S=:£(X(a「N)(X⑷一區(qū))'=:,).=“兒沖

〃〃a-\〃

⑷樣本有關(guān)系數(shù)矩陣定義為

Rpxp=(%)pxp

其中%=jj

樣本均值向量卻離差矩陣也可以用樣本資料矩陣x,/表達。記

,則

二之九)二(X⑴X(2)..X5))L=;X&1,岡

〃a=]〃〃

Spxp空(Xg「町(X⑻一燈=之(兒「刃.晨一燈

4=1。=1

=£(X(a)X:0r

-xx;a)-x(a)x+xx')

a=\

=EX⑺X晨之XX;a)-±X(aX+〃歡

a=la=\a=\

由于

E雙葭=這X1)=X(±X”=X(X;xJwiy=?X(-X;xJXJ=〃戲

a=\a=la=\〃

(Nx(*y=N^;a廣〃歡

a=la=l

£d(麗)』雙’

a=l

人⑴

X;,"=(X⑴X⑵…x(”J’

=x(I)x;I)+x(2)x;2)+...+x(n)x;)

=tSa)

a=\

因此

"X;X〃x/-而

=XX_,X1mQX=X,(/“_,l“/x”)X

nn

3.〃和工時最大似然估計及基本性質(zhì)

均值向量〃和協(xié)方差矩陣Z的最大似然估計及基本性質(zhì)

設(shè)…為來自p元正態(tài)總體的容量為n的樣本,每個樣本,

樣本資料矩陣為

〃和Z日勺最大似然估計為

S_?111

H=x,V=-S,=-X7/—11;)X

n/xpnnnHX1XH

和的估計量的性質(zhì):

⑴,即是的無偏估計;

,即不是時無偏估計。

叱占%)=4含小”=含時%)

(2),即是的J無偏估計。

⑶X,/分別是Az的有效估計;(最小方差無偏估計)

n-\"

-1-1

⑷x,S(或X,S)分別是日勺一致估計量(相合估計

〃n-I?

量)。

設(shè)為參數(shù)的估計量,若對于任意,當時,以概率收斂到

,則稱是口勺一致估計量。

由于

〃E(X-//)(X-//)=-E[(EX「")(EX

.」〃

力(x⑻-4)(〃-町=-力(幾)-〃)(又-〃)

a=la=\

=-力X⑻一〃〃(又_〃)'=_/方

_a=l_L〃a=l

=-〃(因""一月)’

E(Sp”)=E]£(X⑷-燈(X⑷一燈

La=l.

=E[g[(X(a)_〃)+(〃—又)][(Ns.〃)+(〃—又)]

=H:£(X⑷-〃)(X⑺")[-2同之(X⑷一〃)(〃_又)’+〃E(又_〃)(又一")]

La=l」[_a=\

=£1力(X⑻一〃'+?[(又_〃)(》_〃j

La=lJL

二d之(X⑷一〃)(X⑷一〃)[—〃£1?一〃)(又一4

=〃H(〃T)Z

定理(P27)設(shè)分別是正態(tài)總體的樣本均值和離差矩陣,則

⑴又?N,(〃,-X);

n

⑵離差矩陣可以寫為:

s=Zn-\z.z:

a=l

其中,獨立同服從分布;

(3)區(qū)與S互相獨立;

⑷S為正定矩陣的充要條件是〃>〃。

4.Wishart分布

在實際應(yīng)用中,常采用分別作為的估計。

定義設(shè)?,且互相獨立,則由構(gòu)成日勺隨機矩陣

匕?=£%/篙9=125)

a=l

日勺分布稱為非中心Wishart分布,記為,其中;當所有=0

時,稱為中心晅shart分布,記為,密度函數(shù)見書P28。

當時,密度函數(shù)就是出J分布密度,Wishart分布是克方分布

在P為正態(tài)狀況下向推廣。

⑴基本性質(zhì):

⑵設(shè)?且互相獨立,則樣本離差矩陣?,其中。

?且互相獨立,則

S=S|+S?+…+S“?+%+???+4,》

⑶若?,為非奇異矩陣,則

CXC?叱,(〃,江。')。

第五章聚類分析

§5.1什么是聚類分析

聚類分析又稱為群分析,它是數(shù)理記錄中研究“物以類聚”的一

種記錄分析措施。在數(shù)值分類方面,可以分為兩大類問題,一類是已

知研究對象的分類狀況,將某些未知個體歸屬其中某一類(判企業(yè)歸

宿),這是鑒別分析所要處理的問題;另一類問題不存在一種事前分

類的狀況下,而進行數(shù)據(jù)構(gòu)造日勺分類,這就是本章聚類分析所要處理

W、J問題(怎么把企業(yè)聚類)。

聚類分析來源于分類學,在考古日勺分類學中,人們重要依托經(jīng)驗

和專業(yè)知識來實現(xiàn)分類。伴隨生產(chǎn)技術(shù)和科學的發(fā)展,人類日勺認知不

停加深,分類越來越細,規(guī)定也越來越高,有時光憑經(jīng)驗和專業(yè)知識

是不能進行確切分類的,往往需要定性和定量分析結(jié)合起來去分類,

于是數(shù)學工具逐漸被引進分類學中,形成了數(shù)值分類學。伴隨多元分

析的引進,聚類分析又逐漸從數(shù)值分類學中分離出來而形成一種相

對獨立W、J分支。

在社會經(jīng)濟領(lǐng)域存在大量分類問題:例如,⑴根據(jù)某些經(jīng)濟指標將全

國32個省市自治辨別類;⑵根據(jù)上市企業(yè)總股本、流通股本、每股

收益等指標,將2400多家上市企業(yè)分類;⑶根據(jù)N個國家的森林面

積、森林覆蓋面積、林木積蓄量及草原面積把N個國家進行科學分

類;⑷學生按各科考試成績分類;⑸酒提成好、中、次分析;⑹將杭

州市所有企業(yè)按經(jīng)濟類型、生產(chǎn)規(guī)模分類,這些都屬于聚類問題。

聚類問題內(nèi)容豐富,有系統(tǒng)聚類法、動態(tài)聚類法、模糊聚類法、圖論,

其中系統(tǒng)聚類法是目前國內(nèi)外應(yīng)用最為廣泛的一種措施,本章僅簡

介此種措施聚類法c

§5.2距離和相似系數(shù)

變量(一在不一樣日勺個體上取不一樣的值,這個量稱為變量)類

型:

①間隔尺度(數(shù)值尺度)一變量是用數(shù)值來表達的((D-(3));

②有序尺度一變量度量時沒有明顯數(shù)量關(guān)系,有次序關(guān)系(⑸);

③名義尺度一變量度量時既無數(shù)量關(guān)系又無次序關(guān)系,只是用

特性和狀態(tài)來描述(⑹)。

重要研究具有間隔尺度H勺變量。

設(shè)是p項指標(P維隨機向量)中抽取日勺n個樣本數(shù)

據(jù),有資料矩陣

X,XXp

=^^22f=X(2)

nxp

?????????.

A?2X,Jxp

W弓…弓

Ms?…s’

其中為第個樣品對第j個指標內(nèi)觀測值。第i個樣本為

矩陣H勺W、J第i行,因此第i個樣本與第j個樣本日勺相似性

可用中W、J第i行與第j行的J相似性來描述;兩個變量與

日勺相似性,可以通過第i列與第j列來描述。

為了將樣本或變量分類,就需要研究樣本(變量)之間的關(guān)系:

一種研究措施是將每個樣本(變量)當作p(n)維空間的一

種點,在p(n)維空間定義兩點之間的距離,距離較近的點歸

為一類,距離較遠的I點歸為不一樣的類;另一種措施是用相似

系數(shù),定義日勺相似系數(shù)應(yīng)當使性質(zhì)越靠近的變量(樣本)相似

系數(shù)出J絕對值越靠近1,而彼此無關(guān)系或關(guān)系甚微出J變量(樣

本)日勺相似系數(shù)靠近0,我們把性質(zhì)比較靠近的變量(樣本)

歸為一類,不怎么靠近歸為不一樣日勺類。

1.Q一型聚類分析常用日勺距離和相似系數(shù)

對樣本分類(Q—型聚類分析)常用H勺距離和相似系數(shù)

⑴距離

i)明氏(Minkowski)距離

4,⑷"

\?=i/

當q=l時,是絕對值距離

4⑴=2限7用

a=\

當q=2時,是歐氏距離

")=、愎%f>

Va=\

當q二時,是切比雪夫距離

4/8)=max,。一%』

IMaMp

歐氏距離平方

4(2)=£(九7%)2

?=1

明氏距離的缺陷:與個分量的量綱有關(guān)。

例向量X=?!?3七)'有4個樣本

*公與x4(*0.01)

X')1222300(3.00)

X;2)1172320(3.20)

X:.“244460(4.60)

X、2184290(2.90)

假如用絕對值距離,那么

J12(i)=|l-l|+|22-17|+|2-2|+|30()-320|=25

=17,=34

44⑴>九⑴>九⑴

變量的差異很大,第四個分量要比第一、三個分量大幾十倍到近

百倍。與的第一、三個分量雖然只相差1或2個單位,但想對它

們的第四個分量日勺差異而言要大得多;與的第一、三個分量相等,

第二、四個分量來拼相差不大。這些闡明與的距離應(yīng)當比與

時距離大,可與成果不一致。既然第四個分量比第一、三個分量大近

百倍,我們可以讓第三個分量日勺量綱不變,而讓第四個分量縮小100

倍,仍用絕對值距離,則有

4式1)=4.3>&2⑴=5.2>4式1)=7.1

總之,此例闡明,在計算距離或相似系數(shù)之前,應(yīng)先對數(shù)據(jù)進行

合適的變換。

原則化變換

令X;="3(z=1,2,3,,〃;j=1,2,3,,p)

%

I

]n|n2

Xj=-Z%i,%=?一毛)2,C/=l,2,3,,p)、

na=\L〃a=\_

此時,第個樣本與第個樣本的原則化形式為

歐氏距離為

極差原則化變換

=(』,2,3,—2,3,,p)

正規(guī)化變換

V.%一嗎訪(勺)

(i=l,2,3,,〃;j=1,2,3,,/?)

max(勺)-min(馬)

ii)馬氏(Mahalanohis)距離

樣本X⑴與樣本九的馬氏距離為

4(M)=(X⑺-XQZk-x⑺)

其中向量的協(xié)方差矩陣常用樣本協(xié)方差矩陣估計,

樣本X⑴到總體的馬斯距離定義為

d?(X?M)=(X⑴-〃)'工”(X⑴-〃)

其中是總體的均值向量,是協(xié)方差矩陣。

馬氏距離既排除了變量之間日勺有關(guān)性干擾,并且還不受各指標

量綱日勺影響,用馬氏距離時不需對原始數(shù)據(jù)變換。

iii)蘭氏(Canberra)距離(x〃>0)

小1(鼠一叫「.”、

J;.(L)=—>--------(z,j=l,2,?,/?)

PaTXia+Xja

假如把任何兩個樣本的距離計算出來后,可得到距離矩陣

d〃2…4〃九.

其中主對角線上元素均為零。(.10.9)

是一種是對?稱矩陣,只需計算上(或下)三角形矩陣,矩陣中日勺元素較小的I,闡明兩樣

本點的距離近,否則較遠。也可以對非數(shù)值尺度變量之間定義距離,舉例闡明。

⑵相似系數(shù)

i)夾角余弦

P

cos%=1-1<cos0[j<1(。)=1,2,?,,〃)

Va=\a=\

當=1時,闡明兩個樣本與完全相似;

當1時,闡明兩個樣本與相似親密;

當=0時,闡明兩個樣本與完全不一樣樣;

當。時,闡明兩個樣本與差異大。

把所有的相似系數(shù)都算出來,可以排成相似系數(shù)矩陣

(8S%cos%…cos。J”

其中主對角線上元素均為lo應(yīng)把相似日勺歸為一類,不相似的歸

為不一樣的類。

ii)有關(guān)系數(shù)

(i"=l,2,??,〃)

(行平均數(shù))

樣本有關(guān)系數(shù)矩陣

其中主對角線上元素均為1。

2.R型聚類分析常用時距離和相似系數(shù)

對指標分類(R—型聚類分析)常用n勺距離和相似系數(shù)

令為表達變量2?…/)'與變量X/=(內(nèi)/%

之間的距離(第i列與第j歹II)

i)明氏距離(第i個變量x,與第j個變量X"勺)

%(?)=力%

\a=\)

ii)馬氏距離(第i個變量X,與第j個變量X津勺馬氏距離為)

G(M)=(X,-XJZ"(Xj-Xj)

其中協(xié)方差矩陣,而

iii)蘭氏(Canberra)距離(招>0)

(0=1,2,,p)

Pa=l(+%

⑵相似系數(shù)

i)夾角余弦

cosoti<\("=1,2,…,p)

此時的相似系數(shù)矩陣

(cos/cos/???cos%'

COSft]cosft???COS9

。=2

cos9picos3l)2cos%J

其中主對角線上元素均為1。根據(jù)同中元素對P個變量進行分類。

ii)有關(guān)系數(shù)

£(為一毛)(”一引

5="I---------1</;<1("=1,2,,〃)

\忙((-耳)吃(%/3)2?

Va=la=l

這里虧」之%(7=1,2,..,/7)

〃a=l

變量的有關(guān)系數(shù)矩陣

§5.3八種系統(tǒng)聚類措施

討論系統(tǒng)聚類分析措施之前,先闡明一種事實,令

那么任何相似系數(shù)都可以轉(zhuǎn)化為距離,下面只討論距離。

系統(tǒng)聚類分析法的基本思想:把n個樣本(或p個變量)各自當作一

類,規(guī)定樣本(或變量)之間的距離以及類與類之間的距離,選擇距

離最小的一對聚成一種新類,計算新類與其他類的距離,再將距離最

小時兩類合并,每次并類至少減少一種類,直至所有的樣本(或變量)

都聚成一類為止。

當樣本(變量)之間的距離選定后,還必須規(guī)定類與類之間的距離.對

于類與類之間的距離可以定義兩類中近來兩點的距離,也可以定義

最遠兩點的距離,還可以定義中心之間的I距離,…,不一樣定義方式

產(chǎn)生不一樣的系統(tǒng)聚類分析法。

如下用(或)表達樣本與之間的距離(變量與變量的距離),

用(或)表達類與類之間的距離。

1.最短距離法

類。與類G,之間日勺距離定義為

2=min⑷

1%應(yīng)*“嗎11

設(shè)類與類合并成一種新類,則任意一類與新類的距離是

4=min⑷

X⑺wG*,XdG,1

=min{min(d“),min(4)}

Xg€Gk,Xi)FG,X^eGkyX{}}eGpXu>eGk.X(j)eGg

=min{Qs,Q%)

最短距離法聚類環(huán)節(jié):

(1)定義樣G心???G?

本之間的距

離,得一距

離矩陣

i(=41)???%(=".)

。12(="12)

(—d”)???

G2%(=為)D2n(=4〃)

???????????????

G?%(=4i)???Dj=d,Q

。"2(=)

主對角線上元素均為0.

(2)找出非主對角線最小元素,設(shè)其為,則將和合并成為

新類,記為,即0

(3)給出計算新類與其他類的距離公式:

2”min{%,。叼]

將中第p、q行及p、q列用上面的公式并成一種新行新列,新

行新列對應(yīng),所得矩陣記為(有也許同步并為兩個新類或三類并

成一種新類)。

(4)對G,={1}G={2}G3={3.5}a={7}5={9}

反復上述

對的

(2)、(3)

兩步的;

如此下去,

直到所有

的元素并

成一類為

止。

例1五個

樣本:

二1、

二2、

=3.5、

二7和

=9,試

用最短距

離法對五

個樣本進

行分類。

(1)樣本

之間采用

絕對值距

離,得距

離矩陣

G={1}012.568

G?={2}101.557

@={3.5}2.51.503.55.5

G4={7}653.502

G§={9}875.520

(2)最小元素,新類

(3)新類與其他類的距離,按公式

£>/6=min{D,pDf2|(z=3,4,5)

D36=inin{/?31,£>32]=min{2.5,1.5}=1.5,=min{/)4l,/>42}=min{6,5}=5

£>%=min{£)5PD52)=min{8,7}=7

得距離矩陣W)

G.GGG5

Gs01.557

G31.503.55.5

G53.502

G75.520

(4)中Ga

非主對角

線最小元

素是1.5,

則將對應(yīng)

日勺兩類

和合并

成新類,

再按公式

計算各類

與的距

離,得距

離矩陣

G,03.55.5

53.502

G,5.520

(5)距離矩陣。⑶(G8=G4UG5)

a

G,03.5

G&3.50

Gq=G72G0

(作樹枝圖或聚類圖)

5個樣本提成兩類比較合理,第一類{1,2,3.5};第二類{7,9}。

在實際應(yīng)用中,有時給出一種閾值T,規(guī)定類與類之間口勺距離不

不小于T,因此有些樣本也許歸不了類,這樣的樣本常稱為孤立點。

最短距離法也可以用于指標(變量)分類,分類時可以用距離,也

可以用相似系數(shù),用相似系數(shù)時把公式

Dkr=min{£>S,)換成公式

%=max{Rs,R3(以二1-4)

2.最長距離法

定義類與類之間的距離為兩類最近樣本日勺距離,即

D,=max{d..]

Jx",x:,J

最長距離法與最短距離法W、J并類環(huán)節(jié)完全同樣,也是將各樣本

先各自當作一類,然后合并距離近來W、J兩類。

設(shè)類與類合并成一種新類,則任意一類與新類的距離是

Dkr=Y嗎/"J

=max{max(J.),max(4)}

X“產(chǎn)G#,X⑺wG,X”產(chǎn)G*,X4.wG。XgwGhMjiwGg

=max{%2/

再找非主對角線上最小元素的兩類合并,直至所有日勺樣本全歸

為一類為止。最長距離法與最短距離法有兩點不一樣:一是類與類之

間的距離不一樣;二是新類與其他類的距離計算所用日勺公式不一樣。

聚類方略完全同樣。

將例1應(yīng)用最長距離法按環(huán)節(jié)聚類。

(1)樣本Q={1}G2={2}5={3.5}a={7}G={9}

之間采用

絕對值距

離,得距

離矩陣

G={1}012.568

G2={2}101.557

@={3.5}2.51.503.55.5

G4={7}653.502

G§={9}875.520

(2)最小元素,新類

(3)新類與其他類的距離,按公式

%=max{Du,Di2}(/=3,4,5)

/%6-max{/A,=max{2.5,1.5}=2.5;

D46=max{£>41,D42]=max{6,5}=6:D56=max{D51,D52}=max{8,7}=8

得距離矩陣Q⑴

G.GGG5

Gs02.568

G32.503.55.5

G63.50

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論