版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
主成分分析和典型相關分析第4章引言變量太多會增加計算的復雜性變量太多給分析問題和解釋問題帶來困難變量提供的信息在一定程度上會有所重疊用為數(shù)較少的互不相關的新變量來反映原變量所提供的絕大部分信息,降維的思想來處理高維數(shù)據(jù)。4.1主成分分析主要目的:對原變量加以“改造”,在不致?lián)p失原變量太多信息的條件下盡可能地降低變量的維數(shù),即用較少的“新變量”代替原來的各變量。4.1.2總體主成分設為某實際問題所涉及的個隨機變量。記,其協(xié)方差矩陣為它是一個階非負定矩陣。設為個常數(shù)向量,考慮如下線性組合:總體主成分易知有我們希望用代替原來個變量,這就要求盡可能地反映原來個變量的信息。這里用方差來度量。即要求達到最大。對任意常數(shù),若取,則。
總體主成分因此,必須對加以限制,否則無界。最方便的限制是要求具有單位長度,即我們在約束條件之下,求使達到最大,由此所確定的隨機變量稱為的第一主成分。總體主成分如果第一主成分還不足以反映原變量的信息,進一步求。為了使和反映原變量的信息不相重疊,要求二者不相關,在約束條件求使達到最大。
第二主成分:
依次類推……
總體主成分一般地,在約束條件及
下,求使達到最大,由此所確定的稱為的第個主成分。總體主成分的求法設是的協(xié)方差矩陣,的特征值及相應的正交單位化特征向量分別為及,則的第個主成分為
其中。易見:事實上,令,則為一正交矩陣,且總體主成分的求法設為X的第一主成分,其中。令則并且當時,等號成立。這時總體主成分的求法在約束條件下,當時,達到最大,且設為X的第二主成分,則有
即有且總體主成分的求法令
則有從而并且當,即時,。由此知,當時,滿足,且使達到最大。依此類推….
總體主成分的求法以上結果告訴我們,求X的各主成分,等價于求它的協(xié)方差矩陣∑的各特征值及相應的正交單位化特征向量。按特征值由大到小所對應的正交單位化特征向量為組合系數(shù)的的線性組合分別為X的第一、第二、直至第p個主成分,而各主成分的方差等于相應的特征值。總體主成分的性質主成分的協(xié)方差矩陣及總方差記為主成分向量,則,其中,Y的協(xié)方差矩陣為由此得主成分的總方差為總體主成分的性質主成分分析是把p個原始變量的總方差分解成p個不相關變量的方差之和。
第個主成分的貢獻率:描述了第k個主成分提取的信息占總信息的份額。總體主成分的性質前個主成分的累計貢獻率:表明前m個主成分綜合提供信息的能力。
實際應用中,通常選取m<p,使前m個主成分的累計貢獻率達到較高的比例(如80%到90%)。這樣用前m個主成分代替原始變量不但是變量維數(shù)降低,而且也不致于損失原始變量中的太多信息??傮w主成分的性質主成分與變量的相關系數(shù)由于,故,從而
由此可得與的相關系數(shù)為它給出了主成分與原始變量的關聯(lián)性的度量。各主成分與原始變量間的相關系數(shù)原變量主成分實際應用中,一般只對前m個主成分感興趣,因此只關心與的相關系數(shù),即表中前m行的各個值。例4.1設隨機變量的協(xié)方差矩陣為求的各主成分。
解易求得的特征值及相應的正交單位化特征向量分別為例4.1因此的主成分為如果我們只取第一主成分,則貢獻率為
若取前兩個主成分,則累計貢獻率為例4.1進一步可求得前兩個主成分與各原始變量的相關系數(shù)同理,可求得即與,高度相關而與不相關;與以概率1呈完全線性關系。標準化變量的主成分在實際問題中,不同的變量往往有不同的量綱,由于不同的量綱會引起各變量取值的分散程度差異較大,這時總體方差則主要受方差較大的變量的控制。若用求主成分,則優(yōu)先照顧了方差大的變量,有時會造成很不合理的結果。為了消除由于量綱的不同帶來的影響,常采用變量標準化的方法,即令其中。標準化變量的主成分這時,的協(xié)方差矩陣便是的相關矩陣,其中利用的相關矩陣作主成分分析,可以得到如下結論:標準化變量的主成分設為標準化的隨機向量,其協(xié)方差矩陣(即的相關矩陣)為,則的第個主成分為并且其中為的特征值,為相應于特征值的正交單位化特征向量。這時,第個主成分的貢獻率為,前個主成分的累計貢獻率為,與的相關系數(shù)為例4.2設的協(xié)方差矩陣為相應的相關矩陣為分別從和出發(fā),作主成分分析。例4.2解如果從出發(fā)作主成分分析,易求得其特征值和相應的正交單位化特征向量為的兩個主成分分別為第一主成分的貢獻率為例4.2
與,的相關系數(shù)分別是我們可以看到,由于的方差很大,它完全控制了提取信息量占99.2%的第一主成分(在中的系數(shù)為0.999),淹沒了變量的作用。如果從出發(fā)求主成分,可求得其特征值和相應的正交單位化特征向量為例4.2
的兩個主成分分別為此時,第一個主成分的貢獻率有所下降,為
注:當涉及的各變量的變化范圍差異較大時,從出發(fā)求主成分比較合理。
4.1.3樣本主成分設為取自的一個容量為的簡單隨機樣本,則樣本協(xié)方差矩陣及樣本相關矩陣分別為其中樣本主成分設是樣本協(xié)方差矩陣,其特征值為相應的正交單位化特征向量這里,則第個樣本主成分為其中為X的任一觀測值。當依次代入X的n個觀測值時,便得到第i個樣本主成分的n個觀測值,我們稱為第i個主成分的得分。樣本主成分第個樣本主成分的貢獻率為,前個樣本主成分的累計貢獻率為。樣本主成分同樣,為了消除量綱的影響,我們可以對樣本進行標準化,即令則標準化數(shù)據(jù)的樣本協(xié)方差矩陣即為原數(shù)據(jù)的樣本相關矩陣。由出發(fā)所求得的樣本主成分稱為標準化樣本主成分。只要求出的特征值及相應的正交單位化特征向量,類似上述結果可求得標準化樣本主成分。這時標準化樣本總方差為。樣本主成分實際應用中,將樣本代入各主成分中,可得到各樣本主成分的觀測值
原變量主成分12序號
樣本主成分實際應用中,選取前m(m<p)個樣本主成分,使其累計貢獻率達到一定的要求(如80%到90%),以前m個主成分的得分代替原始數(shù)據(jù),這樣便可以達到降低原始數(shù)據(jù)維數(shù)的目的,同時也不致?lián)p失原始數(shù)據(jù)的太多信息。PRINCOMP過程可對輸入資料文件做主成分分析輸入資料文件可以是原始數(shù)據(jù)、相關系數(shù)矩陣或樣本協(xié)方差矩陣等輸出包括相關矩陣或協(xié)方差矩陣、特征值、特征向量及標準化的主成分值等主要語句Procprincomp選項串;var變量名稱串;partial變量名稱串;freq變量名稱串;weight變量名稱串;by變量名稱串;run;PROCPRINCOMPProcprincompoptions;data=sasdataset:指出要分析的sas數(shù)據(jù)集名稱。這個數(shù)據(jù)集可以是原始觀測值的sas數(shù)據(jù)集,也可以是相關矩陣(在數(shù)據(jù)集名稱后加上type=corr)或協(xié)方差矩陣(在數(shù)據(jù)集名稱后加上type=cov)。若省略數(shù)據(jù)集選項,則自動使用最新建立的sas數(shù)據(jù)集。PROCPRINCOMPProcprincompoptions;out=sasdataset:命名一個輸出的sas數(shù)據(jù)集,其中包含原始數(shù)據(jù)以及各主成分的得分(即各主成分的觀測值)。outstat=sasdataset:命名一個包含各變量的均值、標準差、相關矩陣或協(xié)方差矩陣、特征值和特征向量的輸出sas數(shù)據(jù)集。PROCPRINCOMPProcprincompoptions;covariance(或COV):要求從協(xié)方差矩陣出發(fā)作主成分分析。若省略此選項,則從相關矩陣出發(fā)進行分析。除非各變量的度量單位是可比較的或已經過某種方式的標準化,否則不宜使用此選項,應從相關矩陣出發(fā)作主成分分析。N=n:指定要計算的主成分個數(shù)“n”。其默認值為參與分析的變量個數(shù)。PROCPRINCOMPProcprincompoptions;prefix=name:規(guī)定各主成分的名稱的前綴。省略此句則sas系統(tǒng)自動賦予各主成分名稱分別為prin1,prin2,…。若“name=A”,則各主成分名稱分別為A1,A2,…。前綴的字符個數(shù)加上后面數(shù)字位數(shù)應不超過8個字符。例4.3對10名男中學生的身高()、胸圍()和體重()進行測量,得數(shù)據(jù)如表。對其作主成分分析。序號身高(cm)胸圍(cm)體重(kg)1149.569.538.52162.577.055.53162.778.550.84162.287.565.55156.574.549.06156.174.545.57172.076.551.08173.281.559.59159.574.543.510157.779.053.5例4.3Datastudents;inputx1x2x3;cards;149.569.538.5……157.779.053.5;procprincompcov;varx1-x3;run;例4.3由上面的sasprocprincomp過程,可以算得樣本協(xié)方差矩陣為S的特征值與單位正交化特征向量分別為例4.3各樣本主成分的貢獻率分別為:前兩個主成分的累計貢獻率已達98.855%,實際應用中可只取前兩個主成分,即例4.3如果從相關矩陣出發(fā)SPSSSPSS1.Analyze→DataReduction→FactorAnalysis,彈出FactorAnalysis對話框;2.把變量選入Variables框;3.Descriptives:CorrelationMatrix框組中選中Coefficients,然后點擊Continue,返回FactorAnalysis對話框;4.點擊“OK”因子分析主成分分析的推廣和發(fā)展,多元統(tǒng)計分析方法中降維的一種方法,是研究相關陣或協(xié)方差陣的內在的依賴關系,將多個變量進行綜合,并用少數(shù)幾個因子來再現(xiàn)原始變量和因子之間的相關關系的一種統(tǒng)計方法。例4.4某市為了全面分析機械類各企業(yè)的經濟效益,選擇了8個不同的利潤指標,14家企業(yè)關于這8個指標的統(tǒng)計數(shù)據(jù)如表。試進行主成分分析。例4.4datalirun;inputx1-x8;cards;40.424.77.26.18.38.72.44220.0……38.59.111.39.512.216.41.32711.6;proc
princompcov;varx1-x8;run;例4.5某醫(yī)學院測得20例肝癌患者的4項肝功能指標:SGPT(轉氨酶),肝大指數(shù),ZnT(鋅濁度)和AFP(胎甲球),依次用X1~X4表示,觀察數(shù)據(jù)如表。試進行主成分分析。例4.5datap1;inputx1-x4;cards;402520101.5530120313502504.51801203.5950101.512504011940270413602803.5116017039601803.51440130230502201.517201601.535602202.51430140220202202141040110020112601202200;proc
princompout=pcprefix=y;varx1-x4;run;例4.6一月和七月平均氣溫的主成分分析在數(shù)據(jù)集TEMPERAT中存放有美國一些城市一月和七月的平均氣溫。我們希望對這兩個氣溫進行主成分分析,希望用一個統(tǒng)一的溫度來作為總的可比的溫度,所以進行主分量分析。
例4.6DATATEMPERAT;INPUTCITY$1-15JANUARYJULY;CARDS;MOBILE51.281.6PHOENIX51.291.2LITTLEROCK39.581.4SACRAMENTO45.175.2DENVER29.973.0HARTFORD24.872.7WILMINGTON32.075.8WASHINGTONDC35.678.7JACKSONVILLE54.681.0MIAMI67.282.3ATLANTA42.478.0BOISE29.074.5CHICAGO22.971.9PEORIA23.875.1DESMOINES19.475.1INDIANAPOLIS27.975.0WICHITA31.380.7LOUISVILLE33.376.9NEWORLEANS52.981.9PORTLAND,MAINE21.568.0BALTIMORE33.476.6BOSTON29.273.3DETROIT25.573.3SAULTSTEMARIE14.263.8DULUTH8.565.6MINNEAPOLIS12.271.9JACKSON47.181.7KANSASCITY27.878.8STLOUIS31.378.6GREATFALLS20.569.3OMAHA22.677.2RENO31.969.3CONCORD20.669.7ATLANTICCITY32.775.1ALBUQUERQUE35.278.7例4.6ALBANY21.572.0BUFFALO23.770.1NEWYORK32.276.6CHARLOTTE42.178.5RALEIGH40.577.5BISMARCK8.270.8CINCINNATI31.175.6CLEVELAND26.971.4COLUMBUS28.473.6OKLAHOMACITY36.881.5PORTLAND,OREG38.167.1PHILADELPHIA32.376.8PITTSBURGH28.171.9PROVIDENCE28.472.1COLUMBIA45.481.2SIOUXFALLS14.273.3MEMPHIS40.579.6NASHVILLE38.379.6DALLAS44.884.8ELPASO43.682.3HOUSTON52.183.3SALTLAKECITY28.076.7BURLINGTON16.869.8NORFOLK40.578.3RICHMOND37.577.9SPOKANE25.469.7CHARLESTON,WV34.575.0MILWAUKEE19.469.9CHEYENNE26.669.1;PROC
PRINCOMPCOVOUT=PRIN;VARJULYJANUARY;RUN;例4.6輸出中,第一部分為簡單統(tǒng)計量(均值和標準差),第二部分為協(xié)方差的特征值(注意我們在過程中用了COV選項,無此選項用相關陣),從這里可以看到貢獻率(Proportion)和累計貢獻率(Cumulative),第三部分為特征向量。例4.6按本結果的特征向量值及用COV選項規(guī)定使用協(xié)方差陣,我們可以知道兩個主分量如此計算:PRIN1=0.326866*JULY+0.945071*JANUARYPRIN2=0.945071*JULY+(-0.326866)*JANUARY例4.6如果沒有用COV選項,原始變量還需要除以標準差。由系數(shù)可見,第一主分量是兩個月份的加權平均,代表了一個地方的氣溫水平,第二主分量系數(shù)一正一負,反應了冬季和夏季的氣溫差別。
請注意:此時的特征向量是與上不同的,而主成分公式也應用標準化后的值。備注關于主成分的實際意義,要結合具體問題和有關專業(yè)知識才能給出合理的解釋。雖然利用主成分本身可對所研究的問題在一定程度上作分析,但主成分分析本身往往并不是最終目的,更重要的是利用主成分綜合原始變量的信息,達到降低原始變量維數(shù)的目的,進而利用前幾個主成分的得分的低維數(shù)據(jù)作進一步分析,如主成分回歸分析、聚類分析等等。4.2典型相關分析典型相關分析是研究兩組變量之間相關性的一種統(tǒng)計分析方法,也是一種降維技術。由Hotelling(1935,1936)最早提出,CooleyandLohnes(1971)、Kshirsagar(1972)和Mardia,Kent,andBibby(1979)推動了它的應用。引言何時采用典型相關分析?兩個隨機變量Y與X--->簡單相關系數(shù)一個隨機變量Y與一組隨機變量X1,X2,…,Xp;--->多重相關(復相關系數(shù))一組隨機變量Y1,Y2,…,Yq與另一組隨機變量X1,X2,…,Xp;--->典型相關系數(shù)
CCA典型相關是簡單相關、多重相關的推廣;或者說簡單相關系數(shù)、復相關系數(shù)是典型相關系數(shù)的特例。著眼于識別和量化兩組隨機變量之間的相關性,是兩個隨機變量之間的相關性在兩組變量之下的推廣。簡單相關系數(shù)
描述兩組變量的相關關系的缺點只是孤立考慮單個X與單個Y間的相關,沒有考慮X
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年北海職業(yè)學院單招職業(yè)適應性測試模擬測試卷附答案解析
- 2024年遼寧冶金職工大學馬克思主義基本原理概論期末考試題附答案解析(奪冠)
- 2025年四川建筑職業(yè)技術學院馬克思主義基本原理概論期末考試模擬題附答案解析(必刷)
- 2026年四川中醫(yī)藥高等??茖W校單招職業(yè)技能測試題庫附答案解析
- 2025年喀喇沁左翼蒙古族自治縣幼兒園教師招教考試備考題庫帶答案解析(奪冠)
- 2026年晉中職業(yè)技術學院單招綜合素質考試題庫帶答案解析
- 2024年湖南涉外經濟學院馬克思主義基本原理概論期末考試題帶答案解析(奪冠)
- 2025年廬江縣招教考試備考題庫含答案解析(必刷)
- 服裝公司客戶信息管理制度
- 2025年桑植縣招教考試備考題庫附答案解析(奪冠)
- 八年級地理《中國氣候的主要特征》單元核心課教學設計
- 長護險人員管理培訓制度
- 2026河南大學附屬中學招聘77人備考題庫附答案
- 網絡安全運維與管理規(guī)范(標準版)
- 名創(chuàng)優(yōu)品招聘在線測評題庫
- 液冷系統(tǒng)防漏液和漏液檢測設計研究報告
- (2025版)中國焦慮障礙防治指南
- 妊娠期缺鐵性貧血中西醫(yī)結合診療指南-公示稿
- 金蝶合作協(xié)議書
- 2025年工廠三級安全教育考試卷含答案
- 2026年上海理工大學單招職業(yè)適應性測試題庫附答案
評論
0/150
提交評論