《典型相關(guān)》課件.ppt_第1頁
《典型相關(guān)》課件.ppt_第2頁
《典型相關(guān)》課件.ppt_第3頁
《典型相關(guān)》課件.ppt_第4頁
《典型相關(guān)》課件.ppt_第5頁
已閱讀5頁,還剩130頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、Canonical Correlation Analysis,典型相關(guān)分析,引言,典型相關(guān)分析是研究兩組變量之間相關(guān)關(guān)系的一種統(tǒng)計方法。 在科學(xué)研究中常需要分析一組個指標(biāo)與另一組個指標(biāo)的相關(guān)關(guān)系,簡單的方法兩兩指標(biāo)間分別統(tǒng)計簡單相關(guān)關(guān)系,得到個相關(guān)系數(shù),用這些相關(guān)系數(shù)反映兩組變量間的關(guān)系。但這樣做即繁瑣又抓不住要領(lǐng)。更有效的方法是類似主成分分析,考慮每組變量的線性組合,從這兩族線性組合中找出最相關(guān)的組合變量,通過少數(shù)幾個綜合變量來反映兩組變量間的相關(guān)關(guān)系,這樣就可以抓住它們的主要關(guān)系,而且簡明。這就是典型相關(guān)分析的基本思想。,1. 兩個隨機(jī)變量Y與X 簡單相關(guān)系數(shù) 2. 一個隨機(jī)變量Y與一組隨

2、機(jī)變量X1,X2, Xp 多重相關(guān)(復(fù)相關(guān)系數(shù)) 3. 一組隨機(jī)變量Y1,Y2,Yq與另一組隨機(jī)變量X1,X2,Xp 典型(則)相關(guān)系數(shù),何時采用典型相關(guān)分析,典型相關(guān)分析示意圖,X1,Y1,Y2,Y3,Y4,Y5,X2,X3,X4,X5,X6,X,Y,U1 U2 U3 U4 U5,V1 V2 V3 V4 V5,CanR1 CanR2 CanR3 CanR4 CanR5,典型相關(guān)和典型相關(guān)變量的定義,典型相關(guān)變量的一般求法,第一對典型相關(guān)變量的求法,典型相關(guān)變量的性質(zhì),例子(數(shù)據(jù)tv.txt),業(yè)內(nèi)人士和觀眾對于一些電視節(jié)目的觀點(diǎn)有什么樣的關(guān)系呢?該數(shù)據(jù)是不同的人群對30個電視節(jié)目所作的平均評

3、分。 觀眾評分來自低學(xué)歷(led)、高學(xué)歷(hed)和網(wǎng)絡(luò)(net)調(diào)查三種,它們形成第一組變量; 而業(yè)內(nèi)人士分評分來自包括演員和導(dǎo)演在內(nèi)的藝術(shù)家(arti)、發(fā)行(com)與業(yè)內(nèi)各部門主管(man)三種,形成第二組變量。人們對這樣兩組變量之間的關(guān)系感到興趣。,計算結(jié)果,下面一個表給出了特征根(Eigenvalue),特征根所占的百分比(Pct)和累積百分比(Cum. Pct)和典型相關(guān)系數(shù)(Canon Cor)及其平方(Sq. Cor)??磥?,頭兩對典型變量(V, W)的累積特征根已經(jīng)占了總量的99.427%。它們的典型相關(guān)系數(shù)也都在0.95之上。,計算結(jié)果,對于眾多的計算機(jī)輸出挑出一些來介

4、紹。下面表格給出的是第一組變量相應(yīng)于上面三個特征根的三個典型變量V1、V2和V3的系數(shù),即典型系數(shù)(canonical coefficient)。這些系數(shù)以兩種方式給出;一種是沒有標(biāo)準(zhǔn)化的原始變量的線性組合的典型系數(shù)(raw canonical coefficient),一種是標(biāo)準(zhǔn)化之后的典型系數(shù)(standardized canonical coefficient)。標(biāo)準(zhǔn)化的典型系數(shù)直觀上對典型變量的構(gòu)成給人以更加清楚的印象。,可以看出,頭一個典型變量V1相應(yīng)于前面第一個(也是最重要的)特征值,主要代表高學(xué)歷變量hed;而相應(yīng)于前面第二個(次要的)特征值的第二個典型變量V2主要代表低學(xué)歷變量

5、led和部分的網(wǎng)民變量net,但高學(xué)歷變量在這里起負(fù)面作用。,計算結(jié)果,類似地,也可以得到被稱為協(xié)變量(covariate)的標(biāo)準(zhǔn)化的第二組變量的相應(yīng)于頭三個特征值得三個典型變量W1、W2和W2的系數(shù): 。,例子結(jié)論,從這兩個表中可以看出,V1主要和變量hed相關(guān),而V2主要和led及net相關(guān);W1主要和變量arti及man相關(guān),而W2主要和com相關(guān);這和它們的典型系數(shù)是一致的。 由于V1和W1最相關(guān),這說明V1所代表的高學(xué)歷觀眾和W1所主要代表的藝術(shù)家(arti)及各部門經(jīng)理(man)觀點(diǎn)相關(guān);而由于V2和W2也相關(guān),這說明V2所代表的低學(xué)歷(led)及以年輕人為主的網(wǎng)民(net)觀眾和

6、W2所主要代表的看重經(jīng)濟(jì)效益的發(fā)行人(com)觀點(diǎn)相關(guān),但遠(yuǎn)遠(yuǎn)不如V1和W1的相關(guān)那么顯著(根據(jù)特征值的貢獻(xiàn)率)。,(二)典型相關(guān)系數(shù)計算實(shí)例,求X,Y變量組的相關(guān)陣R=,1985年中國28 省市城市男生(1922歲)的調(diào)查數(shù)據(jù)。記形態(tài)指標(biāo)身高(cm)、坐高、體重(kg)、胸圍、肩寬、盆骨寬分別為X1,X2,X6;機(jī)能指標(biāo)脈搏(次/分)、收縮壓(mmHg) 、舒張壓(變音)、舒張壓(消音)、肺活量(ml)分別為Y1,Y2,Y5?,F(xiàn)欲研究這兩組變量之間的相關(guān)性。,簡單相關(guān)系數(shù)矩陣,Corr(X)R11,Corr(Y)R22,Corr(Y,X)R21,Corr(X,Y)R12,簡單相關(guān)系數(shù)公式符號

7、,Corr(X)R11,Corr(Y)R22,Corr(Y,X)R21,Corr(X,Y)R12,(一)求解典型相關(guān)系數(shù)的步驟,求X,Y變量組的相關(guān)陣R= 求矩陣A、B 可以證明A、B有相同的非零特征根 3. 求A或B的i(相關(guān)平方)與CanRi,i1,m 4. 求A、B關(guān)于i的特征根向量即變量系數(shù),2. 求矩陣A、B,A矩陣(pp),B矩陣(qq),3. 求矩陣A、B的(相關(guān)系數(shù)的平方),A、B有相同的非零特征值,B矩陣求(典型相關(guān)系數(shù)的平方),5個與典型相關(guān)系數(shù),4. 求A、B關(guān)于i的變量系數(shù)(求解第1典型變量系數(shù)),求解第2典型變量系數(shù),求解第5典型變量系數(shù),5組(標(biāo)準(zhǔn)化)典型變量系數(shù)(

8、X),5組(標(biāo)準(zhǔn)化)典型變量系數(shù)(X),由標(biāo)準(zhǔn)化典型變量系數(shù)獲得原變量X對應(yīng)的粗典型變量系數(shù),粗典型變量系數(shù)可由標(biāo)準(zhǔn)典型變量系數(shù)與相應(yīng)的標(biāo)準(zhǔn)差之比獲得。,5組(標(biāo)準(zhǔn)化)典型變量系數(shù)(Y),(三)典型相關(guān)系數(shù)的特點(diǎn),兩變量組的變量單位改變,典型相關(guān)系數(shù)不變,但典型變量系數(shù)改變。(無論原變量標(biāo)準(zhǔn)化否,獲得的典型相關(guān)系數(shù)不變) 第一對典則相關(guān)系數(shù)較兩組變量間任一個簡單相關(guān)系數(shù)或復(fù)相關(guān)系數(shù)之絕對值都大,即CanR1max(|Corr(Xi,Yj)|) 或CanR1max(|Corr(X,Yj)|) max(|Corr(Xi,Y)|),(四)校正典型相關(guān)系數(shù)(Adjusted Canonical Cor

9、relation),為了使結(jié)果更加明了,增加大值或小值,減少之間大小的值,將典型變量系數(shù)旋轉(zhuǎn),可得到校正的典型相關(guān)系數(shù)。 缺點(diǎn):1.可能影響max(U1,V1); 2. 影響(U1,V1)與其他典型變量間的獨(dú)立性。,(五)典型相關(guān)系數(shù)的標(biāo)準(zhǔn)誤,(六)E1H的特征值(見典型判別、MANOVA,E誤差項,H組間變異),Eigenvalues of Inv(E)*H = CanRsq/(1-CanRsq),Eigenvalue Difference Proportion Cumulative 1 3.2422 2.0510 0.6546 0.6546 2 1.1912 0.8379 0.2405 0

10、.8951 3 0.3533 0.2097 0.0713 0.9665 4 0.1436 0.1212 0.0290 0.9955 5 0.0225 0.0045 1.0000,(七)典型相關(guān)系數(shù)的假設(shè)檢驗(yàn),全部總體典型相關(guān)系數(shù)均為0 部分總體典型相關(guān)系數(shù)為0,1. 全部總體典型相關(guān)系數(shù)為0,F近似檢驗(yàn)(SAS結(jié)果),Test of H0: The canonical correlations in the current row and all that follow are zero Likelihood Approximate Ratio F Value Num DF Den DF Pr

11、 F 1 0.06798466 2.24 30 70 0.0030 2 0.28840509 1.38 20 60.649 0.1686 3 0.63195301 0.80 12 50.561 0.6504 4 0.85521598 0.54 6 40 0.7729 5 0.97803479 0.24 2 21 0.7920,F近似檢驗(yàn)(計算公式),多變量統(tǒng)計量與F近似檢驗(yàn),Multivariate Statistics and F Approximations Statistic Value F Value Num DF Den DF Pr F Wilks Lambda 0.06798 2.

12、24 30 70 0.0030 Pillais Trace 1.71651 1.83 30 105 0.0133 Hotelling-Lawley Trace 4.95277 2.62 30 35.396 0.0032 Roys Greatest Root 3.24221 11.35 6 21 .0001 NOTE: F Statistic for Roys Greatest Root is an upper boun.,多變量統(tǒng)計量的計算公式,2. 部分總體典型相關(guān)系數(shù)為0僅對較小的典型相關(guān)作檢驗(yàn),卡方近似檢驗(yàn),部分總體F近似檢驗(yàn)(計算公式),與原變量間的相關(guān)程度和典型變量系數(shù)有關(guān)。,典型變

13、量與原變量的親疏關(guān)系,原變量與自已的典則變量 原變量與對方的典則變量之間的相關(guān)系數(shù)。,三、典型結(jié)構(gòu)分析,原變量在典型變量上的負(fù)荷 (即原變量與典型變量間的相關(guān)系數(shù)),三、典型結(jié)構(gòu)分析,負(fù)荷矩陣的表達(dá),左上角的矩陣 X1=0.9050U1-0.0806U2+0.3777U3-0.1487U4+0.0887U5 X2=0.8616U1+0.0112U2+0.4152U3-0.0360U4+0.2412U5 X6,右下角的矩陣 Y1= -0.4130 V1-0.0848V2+0.7353V3+0.4530V4+0.2764V5 Y2=0.4533V1+0.8452V2+0.0968V3+0.1433

14、V4+0.2240V5 .Y5,各典型變量的意義解釋,等于該變量與自己這方典則變量的相關(guān)系數(shù)與典則相關(guān)系數(shù)的乘積,原變量與對方典型變量的相關(guān),原變量與對方典型變量的相關(guān),右上角和左下角反映了原變量和對方的典型變量間關(guān)系,為利用對方的典型變量來預(yù)測原變量(回歸)提供依據(jù),四、典型變量的冗余分析(Canonical Redundancy Analysis),該方法由Stewart and Love 1968; Cooley and Lohnes 1971; van den Wollenberg 1977)發(fā)展。 以原變量與典型變量間相關(guān)為基礎(chǔ)。 通過計算X、Y變量組由自己的典型變量解釋與由對方的典

15、型變量解釋的方差百分比與累計百分比,反映由典型變量預(yù)測原變量的程度。,X原變量的相關(guān)被典型變量解釋的百分比,Y原變量的相關(guān)被典型變量解釋的百分比,U1,U2,U5并沒有完全概括X變量的全部信息(97.24),而V1,V2,V5 卻概括了Y變量的全部信息(100); V1,V2,V5中僅蘊(yùn)含X變量信息的48.44%,而U1,U2,U5中僅蘊(yùn)含Y變量信息的43.96%。,實(shí)例冗余分析的解釋,五、基于典型變量的回歸,SAS輸出結(jié)果,Squared Multiple Correlations Between the VAR Variables and the First M Canonical Var

16、iables of the WITH Variables M 1 2 3 4 5 X1 0.6260 0.6296 0.6668 0.6696 0.6697 X2 0.5674 0.5674 0.6124 0.6126 0.6139 X3 0.6697 0.6846 0.6852 0.6960 0.6960 X4 0.3701 0.4253 0.5010 0.5138 0.5142 X5 0.0141 0.1684 0.1687 0.1758 0.1878 X6 0.0452 0.1511 0.1515 0.2217 0.2251 Squared Multiple Correlations B

17、etween the WITH Variables and the First M Canonical Variables of the VAR Variables M 1 2 3 4 5 Y1 0.1303 0.1342 0.2754 0.3012 0.3028 Y2 0.1571 0.5454 0.5479 0.5505 0.5516 Y3 0.3366 0.3612 0.3626 0.3634 0.3745 Y4 0.2503 0.2512 0.2582 0.3129 0.3175 Y5 0.6390 0.6391 0.6438 0.6493 0.6516,用對方典型變量V解釋原X變量的

18、確定系數(shù),用對方典型變量U解釋原Y變量的確定系數(shù),九、SAS計算程序,PROC CANCORR ALL VPREFIX=u WPREFIX=v OUT=b1 OUTSTAT=b2; VAR x1 x2 x3 x4 x5; WITH y1 y2 y3 y4 y5 y6; RUN;,健身俱樂部生理量測量資料與運(yùn)動表現(xiàn)成績之相關(guān)性分析,x1 :體重(磅)(Weight) x2 :腰圍(英吋)(Waist) x3 :每分鐘脈博跳動次數(shù)(Pulse) y1 :拉單杠次數(shù)(Chins) y2 :仰臥起坐次數(shù)(Situps) y3 :跳躍次數(shù)(Jumps),生理與運(yùn)動表現(xiàn)資料,SAS過程,vprefix=P

19、HYS vname=Physiological Measurements wprefix=EXER wname=Exercises; var weight waist pulse; with chins situps jumps; run;,data fit;,input weight waist pulse chins situps jumps;,cards;,(數(shù)據(jù)略),proc cancorr data=fit all;,例 . 某健身房對20個中年人測量三個生理變量:WEIGHT(體重)、WAIST(腰圍)、PULSE(脈膊)和三個訓(xùn)練變量:CHIWS(引體向上)、SITVPS(起坐次

20、數(shù))、JVMPS(跳躍次數(shù)).試分析這兩組變量間的相關(guān)性. 為此,我們可采用下述SAS程序 data fit; input weight waist pulse chins situps jumps; cards; (數(shù)據(jù)略) ; proc cancorr data=fit all ; /*PROC CANCORR 語句指示SAS對數(shù)據(jù)集FIT作典型相關(guān)分析,其中ALL選項要求輸出所有計算結(jié)果*/ var weight waist pulse; /*varwith給出前后兩組分析變量*/ with chins situps jumps; run;,SAS Means and Standard

21、Deviations 3 Physiological Measurements 3 Exercises 20 Observations,SAS同一種類的原始變量的相關(guān) Correlations Among the Original Variables Correlations Among the Physiological Measurements,SAS同一種類(運(yùn)動)的原始變量的相關(guān),相關(guān)矩陣中不同組間絕對值最大相關(guān)為腰圍(x2)與仰臥起坐(y2),其相關(guān)系數(shù)是0.6456,但x組內(nèi)最大相關(guān)是體重(x1)與腰圍圍(x2)的0.8702,而y組內(nèi)最大相關(guān)是y1與y2的0.6957 最大典型相

22、關(guān)為 r1 = 0.7956,但P值= 0.0635未達(dá)顯著水平,第二組典型相關(guān)為r2 = 0.2006,第三典型相關(guān)為r3=0.07257 單位不同因此以標(biāo)準(zhǔn)化資料較合適,典型相關(guān)的解釋,典型相關(guān)的解釋,X組的第一組典型變量 1 -0.7754X1 + 1.5793X2 - 0.0591X3 系數(shù)的正負(fù)值應(yīng)與相關(guān)系數(shù)相同,否則該變量稱為suppressor variable 體重變量(X1)的問題 Y組的第一組典型變量 1 -0.3495Y1 1.0540Y2 + 0.7164Y3 跳躍變量(Y3)的問題,典型相關(guān)的解釋,第一組典型變異解釋對方變量之變異比例分別為0.2854與0.2584

23、運(yùn)動變量的第一組典型變量對體重的解釋能力為0.2438,對腰圍的解釋能力為0.5421,對脈搏的解釋能力為0.0701 生理變量(x組)的第一組典型變量對拉單杠的預(yù)測能力是0.3351,對仰臥起坐的預(yù)測能力是0.4233,對跳躍次數(shù)預(yù)測能力只有0.0167,典型相關(guān)結(jié)果摘要表,典型變量的特征值與典型相關(guān),y組典型變量權(quán)與負(fù)荷,x組典型變量權(quán)重與負(fù)荷,解釋變異百分比,重疊系數(shù),可以研究的課題,智能表現(xiàn)(語文、數(shù)理)與體能(健康體能、運(yùn)動體能)的相關(guān)研究 智商(有多的面向)與情緒智商(有多的面向)的相關(guān)研究 問卷調(diào)查結(jié)果間的相關(guān)研究?,利用分析員應(yīng)用系統(tǒng)進(jìn)行典型相關(guān)分析,Solutionnalys

24、isAnalyst (出現(xiàn)空白數(shù)據(jù)表) FileOpen By Sas Name(在Make one selection窗口中) work 選中數(shù)據(jù)名 (數(shù)據(jù)data fit見V8文件)(OK) Statistics MultivariateCanonical Correlation進(jìn)入典型相關(guān)分析主窗口Canonical Correlation 第一組原始變量weight,vaist,pulseSet 1 第二組原始變量chine,situps,jumpsSet 2 OK,七、典型判別的思想,設(shè)有分別來自q2個總體的q份樣本,每份樣本都有關(guān)于X1,X2,Xp的觀察值,p q,樣本量為ni,i

25、=1,2,q?,F(xiàn)欲以此為訓(xùn)練樣本,從中學(xué)習(xí)出判別規(guī)則。,定義q-1個類別變量Y1,Y2,Yq-1,它們?nèi)≈?或1,而且規(guī)定q個類別與Y1,Y2,Yq-1的取值對應(yīng)如下:,第i對標(biāo)準(zhǔn)化典型變量與典型判別函數(shù),典型判別的步驟,八、簡單實(shí)例計算,簡單實(shí)例計算,1. 計算簡單相關(guān)矩陣,簡單實(shí)例計算,2. 計算A、B矩陣,簡單實(shí)例(P293頁9.2題)計算,3. 計算A、B矩陣的特征值i ,即得典型相關(guān)系數(shù)的平方,A、B有相同的非零特征值 分別為:0.623096,0.006679,簡單實(shí)例(P293頁9.2題)計算,4. 計算典型相關(guān)系數(shù)及其標(biāo)準(zhǔn)誤,典型相關(guān)系數(shù)的標(biāo)準(zhǔn)誤分別為: 0.076935,0.

26、202761,典型相關(guān)系數(shù)為: 0.789364,0.081723,5. E-1H的特征值,分別為:1.6532, 0.0067,6.似然比統(tǒng)計量及其F檢驗(yàn)(即典型相關(guān)系數(shù)的假設(shè)檢驗(yàn)),Test of H0: The canonical correlations in the current row and all Eigenvalues of Inv(E)*H that follow are zero = CanRsq/(1-CanRsq) Likelihood Approximate Eigenvalue Difference Proportion Cumulative Ratio F V

27、alue Num DF Den DF Pr F 1 1.6532 1.6465 0.9959 0.9959 0.37438667 6.66 4 42 0.0003 2 0.0067 0.0041 1.0000 0.99332139 0.15 1 22 0.7042,7. 典型相關(guān)系數(shù)的多變量統(tǒng)計量及其假設(shè)檢驗(yàn),Multivariate Statistics and F Approximations Statistic Value F Value Num DF Den DF Pr F Wilks Lambda 0.37438667 6.66 4 42 0.0003 Pillais Trace 0

28、.62977475 5.06 4 44 0.0019 Hotelling-Lawley Trace 1.65991998 8.60 4 24.198 0.0002 Roys Greatest Root 1.65319646 18.19 2 22 .0001 NOTE: F Statistic for Roys Greatest Root is an upper bound. NOTE: F Statistic for Wilks Lambda is exact.,簡單實(shí)例(P293頁9.2題)計算,8.求A、B關(guān)于i的特征向量,即典型變量系數(shù),Canonical Correlation Ana

29、lysis Standardized Canonical Coefficients for the VAR Variables u1 u2 x1 0.5667 -1.3604 x2 0.5069 1.3838 Standardized Canonical Coefficients for the WITH Variables v1 v2 y1 0.5184 -1.7857 y2 0.5233 1.7842,矩陣A的第1特征值為0.623096,簡單實(shí)例(P293頁9.2題)計算,典型變量的表達(dá)式,9.典型結(jié)構(gòu)分析(可觀察典型變量的意義),u1 u2 x1 0.9390 -0.3439 x2 0.9231 0.3845 v1 v2 y1 0.9596 -0.2814 y2 0.9604 0.2788 v1 v2 x1 0.7412 -0.0281 x2 0.7287 0.0314 u1 u2 y1 0.7575 -0.0230 y2 0.7581 0.0228,10.冗余分析(對方典型變量可解釋的信息),Canonical

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論