主成分分析與應(yīng)用.ppt_第1頁
主成分分析與應(yīng)用.ppt_第2頁
主成分分析與應(yīng)用.ppt_第3頁
主成分分析與應(yīng)用.ppt_第4頁
主成分分析與應(yīng)用.ppt_第5頁
已閱讀5頁,還剩21頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、主成分分析(PCA),袁丁 天津大學(xué)神經(jīng)工程與康復(fù)實(shí)驗(yàn)室 ,目錄,什么是PCA 一個(gè)簡(jiǎn)單的模型引出的PCA PCA的代數(shù)原理 PCA求解 總結(jié)和討論 應(yīng)用領(lǐng)域,PCA(Principal component analysis),主元分析。它是一種對(duì)數(shù)據(jù)進(jìn)行分析的技術(shù),最重要的應(yīng)用是對(duì)原有數(shù)據(jù)進(jìn)行簡(jiǎn)化。 正如它的名字:主元分析,這種方法可以有效的找出數(shù)據(jù)中最 “主要”的元素和結(jié)構(gòu),去除噪音和冗余,將原有的復(fù)雜數(shù)據(jù)降維,揭示隱藏在復(fù)雜數(shù)據(jù)背后的簡(jiǎn)單結(jié)構(gòu)。 它的優(yōu)點(diǎn)是簡(jiǎn)單,而且無參數(shù)限制,可以方便的應(yīng)用與各 個(gè)場(chǎng)合。,PCA,目的,壓縮變量個(gè)數(shù) 用較少的變量去解釋原始數(shù)據(jù)中的大部分變量,剔除冗余信息

2、。即將許多相關(guān)性很高的變量轉(zhuǎn)化成個(gè)數(shù)較少、能解釋大部分原始數(shù)據(jù)方差且彼此互相獨(dú)立的幾個(gè)新變量,也就是所謂的主成分。 這樣就可以消除原始變量間存在的共線性,克服由此造成的運(yùn)算不穩(wěn)定、矩陣病態(tài)等問題。,PCA廣泛用于化學(xué)實(shí)驗(yàn)數(shù)據(jù)的統(tǒng)計(jì)分析,進(jìn)行數(shù)據(jù)降維、變量提取與壓縮、確定化學(xué)組分?jǐn)?shù)、分類和聚類以及與其他方法連用進(jìn)行數(shù)據(jù)處理。 主成分計(jì)算方法有非線性偏最小二乘(NIPALS) 、乘冪法( POWER) 、奇異值分解(SVD) 和特征值分解( EVD) 等。它們的原理基本上是基于特征值問題, 計(jì)算結(jié)果也基本相同.,一個(gè)簡(jiǎn)單的模型 Question:,光譜,電壓,速度,大量的變量代表可能變化的因素,限

3、制因素,實(shí)驗(yàn)環(huán)境,觀測(cè)手段,復(fù)雜、混亂、冗余,How,分析變量背后的關(guān)系?,一個(gè)簡(jiǎn)單的物理模型,這是一個(gè)理想彈簧運(yùn)動(dòng)規(guī)律的測(cè)定實(shí)驗(yàn)。假設(shè)球是連接在一個(gè)無質(zhì)量無摩擦的彈簧之上,從平衡位置沿 軸拉開一定的距離然后釋放。,(x0,y0,z0),200HZ,沿著某個(gè)x軸的運(yùn)動(dòng),標(biāo)準(zhǔn)正交基,200hz拍攝10分鐘,將有 10 x60 x200=120000,在線性代數(shù)中,這組基本正交基表示為行列向量線性無關(guān)的單位矩陣,基變換,Q?,如何尋找到另一組正交基,它們是標(biāo)準(zhǔn)正交基的線性組合,而且能夠最好的表示數(shù)據(jù)集 ?,線性,關(guān)鍵假設(shè),數(shù)據(jù)被限制在一個(gè)向量空間中,能被一組基表示;,隱含的假設(shè)了數(shù)據(jù)之間的連續(xù)性關(guān)

4、系。,X表示原始數(shù)據(jù)集。X是一個(gè)m*n的矩陣,它的每一個(gè)列向量都表示一個(gè)時(shí)間采樣點(diǎn)上的數(shù)據(jù)X,在上面的例子中,m=6,n=120000。 Y表示轉(zhuǎn)換以后新的數(shù)據(jù)集。P是他們之間的線性轉(zhuǎn)換。,(1),有如下定義: pi表示P的行向量。 xi表示X的列向量(或者X)。 yi表示Y的列向量。,公式(1)表示不同基之間的轉(zhuǎn)換,在線性代數(shù)中,它有如下的含義: P是從X到Y(jié)的轉(zhuǎn)換矩陣。 幾何上來說,P對(duì)X進(jìn)行旋轉(zhuǎn)和拉伸得到Y(jié) 。 P的行向量,p1,pm 是一組新的基,而Y是原數(shù)據(jù)X在這組新的基表示下得到的重新表示。,Y的列向量,與,中對(duì)應(yīng)列的點(diǎn)積,也就是相當(dāng)于在對(duì)應(yīng)向量上的投影,問題,怎樣才能最好的表示數(shù)

5、據(jù)X?,P的基怎樣選擇才是最好的?,體現(xiàn)數(shù)據(jù)特征 what? how?,?,方差和目標(biāo),混亂數(shù)據(jù),噪音,旋轉(zhuǎn),冗余,A 噪音和旋轉(zhuǎn),B 冗余,C 協(xié)方差矩陣,D 協(xié)方差矩陣對(duì)角化,噪音和旋轉(zhuǎn) 噪音對(duì)數(shù)據(jù)的影響是巨大的,如果不能對(duì)噪音進(jìn)行區(qū)分,就不可能抽取數(shù)據(jù)中有用的信息。噪音的衡量有多種方式,最常見的定義是信噪比SNR(signal-to-noise ratio),或是方差比 :,(a)攝像機(jī)A的采集數(shù)據(jù)。圖中黑色垂直直線表示一組正交基的方向。 是采樣點(diǎn)云在長(zhǎng)線方向上分布的方差,而 是數(shù)據(jù)點(diǎn)在短線方向上分布的方差。 (b)對(duì) P的基向量進(jìn)行旋轉(zhuǎn)使SNR和方差最大。,冗余,不必要的變量,1)該變

6、量對(duì)結(jié)果沒有影響;,2)該變量可以用其它變量表示,從而造成數(shù)據(jù)冗余。,圖表 3:可能冗余數(shù)據(jù)的頻譜圖表示。r1和r2分別是兩個(gè)不同的觀測(cè)變量。(比如例子中的xa,yb)。最佳擬合線r2=kr1 用虛線表示。,二者高度相關(guān),冗余,低冗余,相互獨(dú)立,協(xié)方差矩陣,那么,對(duì)于一組具有m個(gè)觀測(cè)變量,n個(gè)采樣時(shí)間點(diǎn)的采樣數(shù)據(jù)X, 將每個(gè)觀測(cè)變量的值寫為行向量,可以得到一個(gè)m*n的矩陣,A、B分別表示不同的觀測(cè)變量所記錄的一組值。,將A,B寫成向量的形式:A=a1,a2,.an B=b1,b2,.bn 協(xié)方差可以表示為:,定義協(xié)方差矩陣,Cx是一個(gè)m*m的平方對(duì)稱矩陣。 Cx對(duì)角線上的元素是對(duì)應(yīng)的觀測(cè)變量的

7、方差。 非對(duì)角線上的元素是對(duì)應(yīng)的觀測(cè)變量之間的協(xié)方差。,在對(duì)角線上的元素越大,表明信號(hào)越強(qiáng),變量的重要性越高;元素越小則表明可能是存在的噪音或是次要變量。 在非對(duì)角線上的元素大小則對(duì)應(yīng)于相關(guān)觀測(cè)變量對(duì)之間冗余程度的大小。 一般情況下,初始數(shù)據(jù)的協(xié)方差矩陣總是不太好的,表現(xiàn)為信噪比不高且變量間相關(guān)度大。PCA的目標(biāo)就是通過基變換對(duì)協(xié)方差矩陣進(jìn)行優(yōu)化,找到相關(guān)“主元”。 那么,如何進(jìn)行優(yōu)化?矩陣的那些性質(zhì)是需要注意的呢?,協(xié)方差矩陣的對(duì)角化,主元分析以及協(xié)方差矩陣優(yōu)化的原則是: 1)最小化變量冗余,對(duì)應(yīng)于協(xié)方差矩陣的非對(duì)角元素要盡量小; 2)最大化信號(hào),對(duì)應(yīng)于要使協(xié)方差矩陣的對(duì)角線上的元素盡可能的

8、大。 因?yàn)閰f(xié)方差矩陣的每一項(xiàng)都是正值,最小值為0,所以優(yōu)化的目標(biāo)矩陣Cy的非對(duì)角元素應(yīng)該都是0,對(duì)應(yīng)于冗余最小。所以優(yōu)化的目標(biāo)矩陣Cy應(yīng)該是一個(gè)對(duì)角陣。即只有對(duì)角線上的元素可能是非零值。同時(shí),PCA假設(shè)P所對(duì)應(yīng)的一組變換基p1,p2,.pm必須是標(biāo)準(zhǔn)正交的,而優(yōu)化矩陣Cy對(duì)角線上的元素越大,就說明信號(hào)的成分越大,換句話就是對(duì)應(yīng)于越重要的“主元”。,旋轉(zhuǎn)P的方法類似: (1)在m維空間中進(jìn)行遍歷,找到一個(gè)方差最大的向量,令作P1。 (2)在與P1垂直的向量空間中進(jìn)行遍歷,找出次大的方差對(duì)應(yīng)的向 量,記作p2。 (3)對(duì)以上過程循環(huán),直到找出全部m的向量。它們生成的順序也 就是“主元”的排序。,特

9、性,轉(zhuǎn)換基是一組標(biāo)準(zhǔn)正交基。,可以同時(shí)得到新的基向量所對(duì)應(yīng)的“主元排序”,,PCA求解:特征根分解,尋找一組正交基組成的矩陣P,有 Y=PX,使得 是對(duì)角陣。則P的行向量(也就是一組正交基),就是數(shù)據(jù)X的主元向量。對(duì)Cy進(jìn)行推導(dǎo):,定義 ,則A是一個(gè)對(duì)稱陣。對(duì) A進(jìn)行對(duì)角化求取特征向量得:,則D是一個(gè)對(duì)角陣,而E則是對(duì)稱陣 A的特征向量排成的矩陣。,求出特征向量矩陣后我們?nèi)?,則 ,由線形代數(shù)可知矩陣P有性質(zhì) ,從而進(jìn)行如下計(jì)算:,可知此時(shí)的P就是我們需要求得變換基。至此我們可以得到PCA的結(jié)果: X的主元即是 的特征向量,也就是矩陣P的行向量。 矩陣Cy對(duì)角線上第i個(gè)元素是數(shù)據(jù)X在方向pi的

10、方差。 我們可以得到PCA求解的一般步驟: 1)采集數(shù)據(jù)形成m*n的矩陣。m為觀測(cè)變量個(gè)數(shù),n為采樣點(diǎn)個(gè)數(shù)。 2)在每個(gè)觀測(cè)變量(矩陣行向量)上減去該觀測(cè)變量的平均值得到矩陣X。 3)對(duì) 進(jìn)行特征分解,求取特征向量以及所對(duì)應(yīng)的特征根。,總結(jié)和討論,PCA技術(shù)的一大好處是對(duì)數(shù)據(jù)進(jìn)行降維的處理。我們可以對(duì)新求出的“主元”向量的重要性進(jìn)行排序,根據(jù)需要取前面最重要的部分,將后面的維數(shù)省去,可以達(dá)到降維從而簡(jiǎn)化模型或是對(duì)數(shù)據(jù)進(jìn)行壓縮的效果。同時(shí)最大程度的保持了原有數(shù)據(jù)的信息。 PCA的特點(diǎn):主成分是原變量的線性組合;各個(gè)主成分之間互不相關(guān);主成分按照方差從大到小依次排列,第一主成分對(duì)應(yīng)最大的方差(特征

11、值);每個(gè)主成分的均值為0、其方差為協(xié)方差陣對(duì)應(yīng)的特征值;不同的主成分軸(載荷軸)之間相互正交;如果原來有p個(gè)變量,則最多可以選取p個(gè)主成分,這p個(gè)主成分的變化可以完全反映原來全部p個(gè)變量的變化;如果選取的主成分少于p個(gè),則這些主成分的變化應(yīng)盡可能多地反映原來全部p個(gè)變量的變化。,計(jì)算機(jī)視學(xué)領(lǐng)域的應(yīng)用,PCA方法是一個(gè)具有很高普適性的方法,被廣泛應(yīng)用于多個(gè)領(lǐng)域。這里要特別介紹的是它在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用,包括如何對(duì)圖像進(jìn)行處理以及在人臉識(shí)別方面的特別作用 。 A. 數(shù)據(jù)表示 如果要將PCA方法應(yīng)用于視覺領(lǐng)域,最基本的問題就是圖像的表達(dá)。如果是一幅N*N大小的圖像,它的數(shù)據(jù)將被表達(dá)為一個(gè) 維的向

12、量: 在這里圖像的結(jié)構(gòu)將被打亂,每一個(gè)像素點(diǎn)被看作是一維,最直接的方法就是將圖像的像素一行行的頭尾相接成一個(gè)一維向量。還必須要注意的是,每一維上的數(shù)據(jù)對(duì)應(yīng)于對(duì)應(yīng)像素的亮度、灰度或是色彩值,但是需要?jiǎng)潥w到同一緯度上。,B. 模式識(shí)別,假設(shè)數(shù)據(jù)源是一系列的20幅圖像,每幅圖像都是N*N大小,那么它們都可以表示為一個(gè) 維的向量。將它們排成一個(gè)矩陣: 然后對(duì)它們進(jìn)行PCA處理,找出主元。,為什么這樣做呢?據(jù)人臉識(shí)別的例子來說,數(shù)據(jù)源是20幅不同的人臉圖像,PCA方法的實(shí)質(zhì)是尋找這些圖像中的相似的維度,因?yàn)槿四樀慕Y(jié)構(gòu)有極大的相似性(特別是同一個(gè)人的人臉圖像),則使用PCA方法就可以很容易的提取出人臉的內(nèi)在結(jié)構(gòu),也及時(shí)所謂“模式”,如果有新的圖像需要與原有圖像比較,就可以在變換后的主元維度上進(jìn)行比較,則可衡量新圖與原有數(shù)據(jù)集的相似度如何。對(duì)這樣的一組人臉圖像進(jìn)行處理,提取其中最重要的主元,即可大致描述人臉的結(jié)構(gòu)信息,稱作“特臉”(EigenFace)。 這就是人臉識(shí)別中的重要方法“特征臉方法”的理論根據(jù)。近些年來,基于對(duì)一般PCA方法的改進(jìn),結(jié)合ICA、kernel-PCA等方法,在主元分析中加入關(guān)于人臉圖像的先驗(yàn)知識(shí),則能得到更好的效果。,C. 圖像信息壓縮,使用PCA方法進(jìn)行圖像壓縮,又被稱為Hotelling算法,或者Karhunen an

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論