典型相關(guān)分析的基本思想 Canonical Correlation Analysis_第1頁
典型相關(guān)分析的基本思想 Canonical Correlation Analysis_第2頁
典型相關(guān)分析的基本思想 Canonical Correlation Analysis_第3頁
典型相關(guān)分析的基本思想 Canonical Correlation Analysis_第4頁
典型相關(guān)分析的基本思想 Canonical Correlation Analysis_第5頁
已閱讀5頁,還剩66頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

典型相關(guān)分析的基本思想CanonicalCorrelationAnalysis

CCA典型相關(guān)分析

(canonicalcorrelationanalysis)利用綜合變量對之間的相關(guān)關(guān)系來反映兩組指

標(biāo)之間的整體相關(guān)性的多元統(tǒng)計分析方法。它的基本原理是:為了從總體上把握

兩組指標(biāo)之間的相關(guān)關(guān)系,分別在兩組變量中提取有代表性的兩個綜合變量U1

和V1(分別為兩個變量組中各變量的線性組合),利用這兩個綜合變量之間的

相關(guān)關(guān)系來反映兩組指標(biāo)之間的整體相關(guān)性。

CanonicalCorrelationAnalysis典范相關(guān)分析/CanonicalCorrespondence

Analysis典范對應(yīng)分析

簡單相關(guān)系數(shù)描述兩組變量的相關(guān)關(guān)系的缺點:只是孤立考慮單個X與單個Y間

的相關(guān),沒有考慮X、Y變量組內(nèi)部各變量間的相關(guān)。兩組間有許多簡單相關(guān)系

數(shù),使問題顯得復(fù)雜,難以從整體描述。典型相關(guān)是簡單相關(guān)、多重相關(guān)的推廣。

典型相關(guān)是研究兩組變量之間相關(guān)性的一種統(tǒng)計分析方法。也是一種降維技術(shù)。

1936年,Hotelling提出典型相關(guān)分析??紤]兩組變量的線性組合,并研究它們

之間的相關(guān)系數(shù)p(u,v).在所有的線性組合中,找一對相關(guān)系數(shù)最大的線性組合,

用這個組合的單相關(guān)系數(shù)來表示兩組變量的相關(guān)性,叫做兩組變量的典型相關(guān)

系數(shù),而這兩個線性組合叫做一對典型變量。在兩組多變量的情形下,需要用若

干對典型變量才能完全反映出它們之間的相關(guān)性C下一步,再在兩組變量的與

u1,v1不相關(guān)的線性組合中,找一對相關(guān)系數(shù)最大的線性組合,它就是第二對典

型變量,而且P(u2,v2)就是第二個典型相關(guān)系數(shù)。這樣下去,可以得到若干對典

型變量,從而提取出兩組變量間的全部信息。

典型相關(guān)分析的實質(zhì)就是在兩組隨機變量中選取若干個有代表性的綜合指標(biāo)(變

量的線性組合),用這些指標(biāo)的相關(guān)關(guān)系來表示原來的兩組變量的相關(guān)關(guān)系。這

在兩組變量的相關(guān)性分析中,可以起到合理的簡化變量的作用;當(dāng)?shù)湫拖嚓P(guān)系數(shù)

足夠大時,可以像回歸分析那樣,由一組變量的數(shù)值預(yù)測另一組變量的線性組合

的數(shù)值。

典型關(guān)聯(lián)分析(CanonicalCorrelationAnalysis)

[pdf版本]典型相關(guān)分析.pdf

1.問題

在線性回歸中,我們使用直線來擬合樣本點,尋找n維特征向量X和輸出結(jié)果

(或者叫做label)丫之間的線性關(guān)系。其中----,,2。然而當(dāng)丫也是多維

時,或者說Y也有多個特征時,我們希望分析出X和Y的關(guān)系。

當(dāng)然我們?nèi)匀豢梢允褂没貧w的方法來分析,做法如下:

假設(shè)盤薩,¥任臚,那么可以建立等式Y(jié)=AX如下

%

.*

Wi

其中加=W”,形式和線性回歸一樣,需要訓(xùn)練m次得到m個%。

這樣做的一個缺點是,Y中的每個特征都與X的所有特征關(guān)聯(lián),Y中的特征之間

沒有什么聯(lián)系。

我們想換一種思路來看這個問題,如果將X和丫都看成整體,考察這兩個整體

之間的關(guān)系。我們將整體表示成X和丫各自特征間的線性組合,也就是考察

和之間的關(guān)系。

這樣的應(yīng)用其實很多,舉個簡單的例子。我們想考察一個人解題能力X(解題速

度E,解題正確率)為與他/她的閱讀能力Y(閱讀速度二!,理解程度)立之間

的關(guān)系,那么形式化為:

u=a工+a2xa和v=及+與力

然后使用Pearson相關(guān)系數(shù)

?EA”_印1便?*)1

心6

來度量u和v的美系,我們期望尋求一組最優(yōu)的解a和b,使得Corr(u,v)最大,

這樣得到的a和b就是使得u和v就有最大關(guān)聯(lián)的權(quán)重。

到這里,基本上介紹了典型相關(guān)分析的目的。

2.CCA表示與求解

給定兩組向量$和內(nèi)(替換之前的X為暇,y為。),匕維度為外,必維度為內(nèi),

默認(rèn)酎4%。形式化表示如下:

x=E)巾1=高”=配閭

£是X的協(xié)方差矩陣;左上角是-自己的協(xié)方差矩陣;右上角是械依V%。;左下

角是QK卬金,也是工始的轉(zhuǎn)置;右下角是胃的協(xié)方差矩陣。

與之前一樣,我們從Q和火,的整體入手,定義

UI-KJ.、*節(jié)區(qū):

我們可以算出u和v的方差和協(xié)方差:

Mar(u/?11aVtr(v)=從工22bCov(uv)-

上面的結(jié)果其實很好算,推導(dǎo)一下第一個吧;

JV比

VirOO=0rxi-0TBJ'=尸/心說一2%=0工遇

最后,我們需要算Corr(u,v)了

c/、“‘工12b

Corr(uFv)..,

我們期望Corr(u,v)越大越好,關(guān)于Pearson相關(guān)系數(shù),《數(shù)據(jù)挖掘?qū)д摗方o出

了一個很好的圖來說明:

Scatterplots

showingthe

similarityfrom

-1to1.

KumarmtrodoctiontoDatsMimno4/18/200463

橫軸是u,縱軸是V,這里我們期望通過調(diào)整a和b使得u和V的關(guān)系越像最后

一個圖越好。其實第一個圖和最后一個圖有聯(lián)系的,我們可以調(diào)整a和b的符

號,使得從第一個圖變?yōu)樽詈笠粋€。

接下來我們求解a和b。

回想在LDA中,也得到了類似Corr(u,v)的公式,我們在求解時固定了分母,來

求分子(避免a和b同時擴大n倍仍然符號解條件的情況出現(xiàn))。這里我們同

樣這么做。

這個優(yōu)化問題的條件是:

Maximizea%.

Subjectto:1

求解方法是構(gòu)造Lagrangian等式,這里我簡單推導(dǎo)如下:

f=*QF工修5—:(a開工_1)—日加沏一以)

求導(dǎo),得

az

9£

萬.X一無他

令導(dǎo)數(shù)為0后,得到方程組:

工"b一人工口。=o

工n”一二夏一卜二C

第一個等式左乘一,第尸二個左乘?,再根據(jù)-----,得到

外=訝:=,際當(dāng)立方

也就是說求出的即是,Corr(u,v),只需找最大,即可。

讓我們把上面的方程組進一步簡化,并寫成矩陣形式,得到

工="

以X-社

寫成矩陣形式

恃£4加3■啕

那么上式可以寫作:

顯然,又回到了求特征值的老路上了,只要求得肥胃的最大特征值入一,那么

Corr(u,v)和a和b都可以求出。

在上面的推導(dǎo)過程中,我們假設(shè)了-和乙,均可逆。一般情況下都是可逆的,只

有存在特征間線性相關(guān)時會出現(xiàn)不可逆的情況,在本文最后會提到不可逆的處理

辦法。

再次審視一下,如果直接去計算才的特征值,復(fù)雜度有點高。我們將第二個

式子代入第一個,得

工if%.受金工:取。=心<1

這樣先對£隔1曼松*求特征值/和特征向量。,然后根據(jù)第二個式子求得幾

待會舉個例子說明求解過程。

假設(shè)按照上述過程,得到了最大時的和;心。那么q和嘛為典型變量

(canonicalvariates),即是u和v的相關(guān)系數(shù)。

最后,我們得到u和v的等式為:

U:二砥:X,1r伊二珞七

我們也可以接著去尋找第二組典型變量對,其最優(yōu)化條件是

Maximize或私、聲

g.Tr?-*krv&1

Subjectto:“好1分2—//心也4-

n◎.,b。工■---▼%????1

ffi

其實第二組約束條件就是

計算步驟同第一組計算方法,只不過是取二?匕兒必,”的第二人特征值。

得到的和5其實也滿足

片工匕瓦=。?乂=0即F、、"O.Covgth)=0

總結(jié)一下,i和j分別表示和丁得到結(jié)果

Corr(uf/vf)=勺叫=Q

Corr(v^v^)■0Con^UpVy)―0((

3.CCA計算例子

我們回到之前的評價一個人解題和其閱讀能力的關(guān)系的例子。假設(shè)我們通過對樣

本計算協(xié)方差矩陣得到如下結(jié)果:

1.4.5.6

工??41.3.4

.5.31.2

.4.21

%七九七:3:…昌才

然后求£不?25m,得

…總工密T裁嚏]

這里的A和前面的1質(zhì),=W中的A不是一回事(這里符號有點亂,不好意思)。

然后對A求特征值和特征向量,得到

腐=4W履..0009盥嚏

然后求b,之前我們說的方法是根據(jù)工=工道=動求b,這里,我們也可以采用

類似求a的方法來求b。

回想之前的等式

工二=船

我們將上面的式子代入下面的,得

.7%工充%b-Mb

然后直接對求特征向量即可,注意2ML■工五「和七V匕Q及'的特

征值相同,這個可以自己證明下。

不管使用哪種方法,

^4]

這里我們得到a和b的兩組向量,到這還沒完,我們需要讓它們滿足之前的約

束條件

工找4?1

這里的應(yīng)該是我們之前得到的VecA中的列向量的m倍,我們只需要求得m,

然后將VecA中的列向量乘以m即可。

m21TRa<=1

這里的是VecA的列向量。

1.230V-

A=VecA0.636協(xié)B='"B0.804)

因此最后的a和b為:

.856-.677.545-.863

andB=

.2781.055.737.706

第一組典型變量為

L-.85公二+%-545種一:朝現(xiàn)電

相關(guān)系數(shù)

CorTf%.%).R=v-5457=.74

第二組典型變量為

Un三一.677“+1,0552,%旃4樹石力

相關(guān)系數(shù)

Conf七,『“■促.V.OwO?■.03

這里的(解題速度),辦公(解題正確率),工,(閱讀速度),&(閱讀理解程

度)。他們前面的系數(shù)意思不是特征對單個u或v的貢獻比重,而是從u和v

整體關(guān)系看,當(dāng)兩者關(guān)系最密切時,特征計算時的權(quán)重。

4.KernelCanonicalCorrelationAnalysis(KCCA)

通常當(dāng)我們發(fā)現(xiàn)特征的線性組合效果不夠好或者兩組集合關(guān)系是非線性的時候,

我們會嘗試核函數(shù)方法,這里我們繼續(xù)介紹KerrelCCAO

在《支持向量機-核函數(shù)》那一篇中,大致介紹了一下核函數(shù),這里再簡單提一

下:

當(dāng)我們對兩個向量作內(nèi)積的時候

版物=、工/先

我們可以使用/⑸來替代r和?,,比如原來的,特征向量為(八".".),,那

我們可以定義

工心

W3

。(工)=32-

上213

"】

2?30

33

如果當(dāng)與e“、的構(gòu)造一樣,那么

K?

《W6O(y?=乙乙四瑛。必)一乙乙2(”5)

Tift(■1

(?Ty)2=Ar(x,y>

這樣,僅通過計算x和y的內(nèi)積的平方就可以達到在高維空間(這里為)中

計算和改汜內(nèi)積的效果。

由核函數(shù),我們可以得到核矩陣K,其中

凡-Kdy-J

即第’?行第列的元素是.第』個和第個樣例在核函數(shù)下的內(nèi)積。

一個很好的核函數(shù)定義:

0:X=(Xl,...xn)一0(x)=3i(x),…,0N(x))(n<N)

其中樣例X有n個特征,經(jīng)過?(木)變換后,從n維特征上升到了N維特征,其

中每一個特征是

回到CCA,我們在使用核函數(shù)之前

這里假設(shè)x和y都是n維的,引入核函數(shù)后,和%變?yōu)榱薔維。

使用核函數(shù)后,u和v的公式為:

U:?1涕密式X)

削.萬彳山)

這里的c和d都是N維向量。

現(xiàn)在我們有樣本取卜火)%,這里的%表示樣本x的第i個樣例,是n維向量。

根據(jù)前面說過的相關(guān)系數(shù),構(gòu)造拉格朗日公式如下:

.

-^E[(r-E[v])2j.(7)

其中

E[uv]-220T/區(qū))"3GJ

然后讓L對a求導(dǎo),令導(dǎo)數(shù)等于0,得到(這一步我沒有驗證,待會從宏觀上解

釋一下)

c=4%%㈤

t

同樣對b求導(dǎo),令導(dǎo)數(shù)等于0,得到

d=&仇)

求出c和d干嘛呢?c和d只是?的系數(shù)而已,按照原始的CCA做法去做就行

了唄,為了再引入和八?

回答這個問題要從核函數(shù)的意義上來說明。核函數(shù)初衷是希望在式子中有

6;沁;然后用K替換之,根本沒有打算去計算出實際的。--->因此即是按照

原始CCA的方式計算出了c和d,也是沒用的,因為根本有沒有實際的?讓我

們?nèi)プ鰵q徽硼。另一個原因是核函數(shù)比如高斯徑向基核函數(shù)可以上升到無限維,

N是無窮的,因此c和d也是無窮維的,根本沒辦法直接計算出來。我們的思路

是在原始的空間中構(gòu)造出權(quán)重和叩,然后利用。將和洋上升到高維,他們在高

維對應(yīng)的權(quán)重就是c和d。

雖然,和是"在原始空間中(維度為樣例個數(shù)M),但其作用點不是在原始特征

上,而是原始樣例上??瓷厦娴贸龅腸和d的公式就知道。通過控制每個高維

樣例的權(quán)重,來控制Co

好了,接下來我們看看使用和”后,u和v的變化

u=仁叭乙"。人

t

y==2即ty))

也3表示可以將第i個樣例上升到的N維向量,曲仁意義可以類比原始CCA

的X。

鑒于這樣表示接下來會越來越復(fù)雜,改用矩陣形式表示。

聞:

rf

^0ii-

i■

.

其中X(MxN)為

我們發(fā)現(xiàn)

履產(chǎn)"r

我們可以算出u和v的方差和協(xié)方差(這里實際上事先對樣本和了做了均值歸0

處理):

%r(u)==cTXTXc==aTK.K^a

Var(吟■儀K7KM

TrTTrr

Ccv(uv)-(y))d-cXYd-aIXYYfi■0xMKJ

這里以外和?&維度可以不一樣。

最后,我們得到Corr(j,v)

Corr(u,v)=

可以看到,在將小和叼處埋成無<】=',詆后,得到的結(jié)果和之前形式基

本一樣,只是將一替換成了兩個K乘積。

因此,得到的結(jié)果也是一樣的,之前是

其中

“片W*-H

引入核函數(shù)后,得到

R~[Aw-Aw

其中

"%"%力'A=[金團

注意這里的兩個W有點區(qū)別,前面的維度。和X的特征數(shù)相同,,維度和y的特

征數(shù)相同。后面的維二度和x的樣例數(shù)相同「維度和v的樣例數(shù)相同,嚴(yán)格來

說““維度二月維度”。

5.其他話題

1、當(dāng)協(xié)方差矩陣不可逆時,怎么辦?

要進行regularization0

一種方法是將前面的KCCA中的拉格朗日等式加上二次正則化項,即:

這樣求導(dǎo)后得到的等式中,等式右邊的矩陣一定是正定矩陣。

第二種方法是在Pearson系數(shù)的分母上加入正則化項,同樣結(jié)果也一定可逆。

P=】】】―/

l|w-2)?(夕人'33+h|、小儼))

f

aKTKy/3

2、求Kernel矩陣效率不高怎么辦?

使用Choleskydecomposition壓縮法或者部分Gram-Schmi出正交化法,。

3、怎么使用CCA用來做預(yù)測?

其實很少有資料提到怎么使用CCA做預(yù)測,目前我看到的方法是Berkeley的博I:論文

《PredictingandOptimizingSystemUtilizationandPerformanceviaStatisticalMachineLearning》

中提到的使用KCCA做預(yù)測的方法。不過里面只用簡略的語言做J'描述,沒有具體的過程。

這里我以自己的理解給出一些方法吧.

對于普通的CCA:

先找出X和Y的典型相關(guān)系數(shù)a和b,新來一個樣例孫好.算一下=。,叫抽,這

時候得到的〃ngw是實數(shù)。然后看原始樣本X中有哪些x投影到a上的u》如gw相近,然后

提取臨近的n個原始樣本{xi,上.?,/J,再找出這些x對應(yīng)的原始樣本中的仇,及…,切J。

最后使用根據(jù)鄰近度加權(quán)平均或者直接求均值方法得到Mow(如(加+為+.?,%)")。這個

方法在樣本較大的情況下,應(yīng)該比較有效。

如果不止取J'一組相關(guān)系數(shù),如例子中那樣取「兩組,那么如.就是一個向量廣,同

樣可以使用KNN方法來得到臨近的X進而得到臨近的y,不過在計算鄰近度的時候可以對

Www的不同分量設(shè)置不同的權(quán)重,華竟第二組相關(guān)系數(shù)的相關(guān)度要比第一組小。

對于KCCA:

A

C里A后樣如

C°(

K這)影始

過W投原w

4“

經(jīng)如x的y

到應(yīng)到

叫孫(哪

看%’人對得

=有x

以是些法的

w中合

可o就X這方

,n也值集

“本出。?

圖下,均兩

>)樣找效系兩

下一始求

f*再有關(guān)得

o為算,接f

孫原}較的使d

s間,(看直p

n空v孫比集是.

n外后,者6

oin的m,該本法3

so4)然…或6.

i后陽應(yīng)樣方

nt例(。均9

eal影本,個00

樣心的平多nE

mier投個〈下oiL

drN樣量t/

o過一是*權(quán)況al6

ocM加情衡e3

t經(jīng)來維始r6t

nm新一即度的么oat

o原怎Cs

tu八。每量近大l/

c?ag

emi和性,向個鄰較cni

jx數(shù)本…ik

oax關(guān)的n據(jù)Znc

r為系的樣oo

Pm相M根、nch

別*關(guān)近在丫a2r

的1用Cr

分相法、獻~/

大臨使eu

本是個取方Xht文d

較后?fe

樣卬多提個o考.

有心最辦u

始具是后這n參m

心卜。么oia

原Y,以之)怎t以t.

可,如九a可t

,和同,/合zilat

X也近)acs

圖不,…集r.

的的l相2%e小w

心*V,.個n

面后皈,i.e最w

y+多Gw

上射M孫(2有和〃:

與y為獻p

看映是與的果之t

,+稱差文h

。u

gedssegedswopaQd以中如考

Meu%個離參

后的可的本(、.、

4這距61

2、Canonicalcorrelationanalysis:Anoverviewwithapplicationtolearning

methods.DavidR.Hardoon,SandorSzedmakandJohnShawe-Taylor

3、Akernelmethodforcanonicalcorrelationanalysis.ShotaroAkaho

4、CanonicalCorrelationaTutorial.MagnusBorga

5、KernelCanonicalCorrelationAnalysis.MaxWelling

http:〃/jerrylead/archive/2011/06/20/2085491.htmlCanonical

correlation

FromWikipedia,thefreeencyclopedia

Jumpto:navigation,search

Instatistics,canonicalcorrelationanalysis,introducedbyHaroldHotellingisa

wayofmakingsenseofcross?covariancematrices.Ifwehavetwosetsof

variables,11???>andih,,andtherearecorrelationsamong

thevariables,thencanonicalcorrelationanalysiswillenableustofindlinear

combinationsofthex'sandtheV'swhichhavemaximumcorrelationwith

eachother.

Contents

[hide]

JDefirdtion

2Computation

o2J.Proof

0212Solution

3Hypothesistesting

4Practicaluses

5Connectiontoprincipalangles

6Seealso

7Notes

8References

9Externallinks

[ed巾Definition

Giventwocolumn

vectors'丸=(工”?,嚴(yán)力)and丫一(物…?娥?)ofrandom

variableswithfinitesecondmoments,onemaydefine

thecross-covariance'e=Y}tobe

the布富1原matrixwhose(1>/)entryisthecovariance^^風(fēng)的).In

practice,wewouldestimatethecovariancematrixbasedonsampleddata

from此andY(i.e.fromapairofdatamatrices).

Canonicalcorrelationanalysisseeksvectorsuand5suchthattherandom

variablesXandmaximizethecorrelationP=區(qū)'a

Therandomvariables卜=向‘寵andI"=arethefirstpairof

canonica/variables.Thenoneseeksvectorsmaximizingthesamecorrelation

subjecttotheconstraintthattheyaretobeuncorrelatedwiththefirstpairof

canonicalvariables;thisgivesthesecondpairofcanonicalvariables.This

proceduremaybecontinuedupto巾叫,凡}times.

[edt]Computation

[edit]Proof

Let£%國=8V(X,Ji)and/丁■ccv代Y]Theparameterto

maximizeis

Thefirststepistodefineachangeofbasisanddefine

c=求運

rf=

Andthuswehave

BytheCauchy?Schwa「zineauahty,wehave

P<

Thereisequalityifthevectorsand^-1/2Gv-l/2arecollinear.In

dLyv厲Xia”*c

addition,themaximumofcorrelationisattainedifcistheeigenvectorwith

themaximumeigenvalueforthe

“二y-?-lry*『W?

matrix5X乙一丁元(seeRayleighquotient).The

subsequentpairsarefoundbyusingeigenvaluesofdecreasingmagnitudes.

Orthogonalityisguaranteedbythesymmetryofthecorrelationmatrices.

[edit]Solution

Thesolutionstherefore:

cisaneigenvectorof乙XN乙XT乙yy乙VX乙

disproportionalto號,yxUW%

Reciprocally,thereisalso:

disaneigenvectorof乙YY乙于文山投嵬心ifcKlyV

cisproportionalto^XX〃

Reversingthechangeofcoordinates,wehavethat

建isaneigenvectorof乙xx*"?'*庶y修貨

isaneigenvectorof型今食&遇鼻氫空Eiit

h

T*Tp_j,

aisproportionalto-一

isproportionaltot

Thecanonicalvariablesaredefinedby:

U=dw春X=

V=〃v

[edit]Hypothesistesting

ance

EachrowcanbetestedforsignifPwiththefollowingmethod.Sincethe

correlationsaresorted,sayingthatrow*iszeroimpliesallfurther

correlationsarealsozero.IfwehavePindependentobservationsina

sampleandAistheestimatedcorrelationfor'=1,"}

Fortheithrow,theteststatisticis:

Q=-(P-l-^=硝,

whichisasymptoticallydistributedas

achi-sQuaredwith(m-i++1)degreesoffreedomfor

large也.cuSinceallthecorrelationsfromt0夕arelogically

zero(andestimatedthatwayalso)theproductforthetermsafterthispointis

irrelevant.

[ectit]Practicaluses

Atypicaluseforcanonicalcorrelationintheexperimentalcontextistotaketwo

setsofvariablesandseewhatiscommonamongstthetwosets.Forexample

inpsychologicaltesting,youcouldtaketwowellestablished

multidimensionalpersonalitytestssuchastheMinnesotaMultiphasic

PersonaltyInventory(MMPI)andtheNEO.ByseeinghowtheMMPIfactors

relatetotheNEOfactors,youcouldgaininsightintowhatdimensionswere

commonbetweenthetestsandhowmuchvariancewasshared.Forexample

youmightfindthatanextraversionorneuroticismdimensionaccountedfora

substantialamountofsharedvariancebetweenthetwotests.

Onecanalsousecanonicalcorrelationanalysistoproduceamodelequation

whichrelatestwosetsofvariables,forexampleasetofperformance

measuresandasetofexplanatoryvariables,orasetofoutputsandsetof

inputs.Constraintrestrictionscanbeimposedonsuchamodeltoensureit

reflectstheoreticalrequirementsorintuitivelyobviousconditions.Thistypeof

modelisknownasamaximumcorrelationmodel.團

Visualizationoftheresultsofcanonicalcorrelationisusuallythroughbarplots

ofthecoefficientsofthetwosetsofvariablesforthepairsofcanonicalvariates

showingsignificantcorrelation.Someauthorssuggestthattheyarebest

visualizedbyplottingthemasheliographs,acircularformatwithraylikebars,

witheachhalfrepresentingthetwosetsofvariables.^

[edit]Connectiontoprincipalangles

Assumingthat如=即他八卜w竭andhave

zeroexpectedvalues,ie.?E(X)-E(y)=G

theircovariancematrices比a

and與y==卻*S]canbeviewedasGrammatricesin

aninnerproduct,seeCovariance#RelationshiptoJrnerproducts,forthe

columnsofA-andY,correspondingly.Thedefinitionofthecanonical

variablesUandIisequivalenttothedefinitionofprincipalvectorsforthe

bythecolumnsof*andYwithrespectto

pairofsubspacesspanned

的M"]

thisinnerproduct.Thecanonicalcorrelationsisequalto

thecosineofprincipalangles.

[edit]Seealso

.Regularizedcanonicalcorrelationanalysis

,GeneralizedCanonicalCorrelation

.RVcoefficient

Principalangles

CanonicalCorrelationAnalysis

Canonicalcorrelationanalysis(CCA)isawayofmeasuringthelinear

relationshipbetweentwomultidimensionalvariables.Itfindstwobases,one

foreachvariable,thatareoptimalwithrespecttocorrelationsand,atthesame

time,itfindsthecorrespondingcorrelations.Inotherwords,itfindsthetwo

basesinwhichthecorrelationmatrixbetweenthevariablesisdiagonalandthe

correlationsonthediagonalaremaximized.Thedimensionalityofthesenew

basesisequaltoorlessthanthesmallestdimensionalityofthetwovariables.

FormoreinformationonCCA,pleasereadmy0nlinetutorial(orthePDF

version).

Matlabfunctions

cca.mCCA

ccabss.mBlindSourceSeparationbasedonCCA.Forreference,seeA

CanonicalCorrelationApproachtoExploratoryDataAnalysisinfMRI.

Pleaseemailyourcommentstome.

CanonicalCorrespondenceAnalysis

Description

PerformsaCanonicalCorrespondenceAnalysis.

Usage

cca(sitspe,sitenv,scannf=TRUE,nf=2)

Arguments

sitspeadataframeforcorrespondenceanalysis,typicallyasitesxspecies

table

sitenvadataframecontainingvariables,typicallyasitesxenvironmental

variablestable

scannfalogicalvalueindicatingwhethertheeigenvaluesbarplotshouldbe

displayed

nfifscannfFALSE,anintegerindicatingthenumberofkeptaxes

Value

returnsanobjectofclasspcaiv.Seepcaiv

Author(s)

DanielChessel

AnneBDufourdufour@biomserv.univ-lyon1.fr

References

TerBraak,C.J.F.(1986)Canonicalcorrespondenceanalysis:anew

eigenvectortechniqueformultivariatedirectgradientanalysis.Ecology,67,

1167-1179.

TerBraak,C.J.F.(1987)Theanalysisofvegetation-environment

relationshipsbycanonicalcorrespondenceanalysis.Vegetatio,69,69-77.

Chessel,D.,LebretonJ.D.andYoccozN.(1987)ProprietesdePanalyse

canoniquedescorrespondances.Uneutilisationenhydrobiologie.Revuede

StatistiqueAppliquee,35,55-72.

SeeAlso

ccainthepackagevegan

Examples

data(rpjdl)millog<-log(rpjdl$mil+1)iv1<-cca(rpjdl$fau,millog,scan=

FALSE)plot(ivl)#analysiswithc1-as-li-Is#projectionsofinertiaaxeson

PCAIVaxess.corcircle(iv1$as)#Speciespositionss.label(iv1$c1,2,1,clab=

0.5,xlim=c(-4,4))#Sitespositionsattheweightedmeanofpresentspecies

s.label(iv1$ls,2,1,clab=0,cpoi=1,add.p=TRUE)#Predictionofthe

positionsbyregressiononenvironmentalvariabless.match(iv1$ls,iv1$li,2,1,

clab=0.5)#analysiswithfa-11-co-cor#canonicalweightsgivingunit

variancecombinationss.arrow(iv1$fa)#sitespositionbyenvironmental

variablescombinations#positionofspeciesbyaveragings.label(iv1$l1,2,1,

clab=0,cpoi=1.5)s.label(iv1$co,2,1,add.plot=TRUE)s.distri(iv1$l1,

rpjdl$fau,2,1,cell=0,csta=0.33)s.label(iv1$co,2,1,clab=0.75,add.plot=

TRUE)#coherencebetweenweightsandcorrelationspar(mfrow=c(1,2))

s.corcircle(iv1$cor,2,1)s.arrow(iv1$fa,2,1)par(mfrow=c(1,1))

Workedoutexamples

>Iibrary(ade4)>###Name:cca>###Title:CanonicalCorrespondence

Analysis>###Aliases:cca>###Keywords:multivariate>>###**

Examples>>data(rpjdl)>

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論