版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
PCA算法的原理概述目錄TOC\o"1-3"\h\u6387PCA算法的原理概述 1203811.1引言 1150901.2PCA算法的原理 2196211.2.1PCA的基本思想 2223741.2.2PCA的數(shù)學(xué)模型 3PCA是一種主成分分析的技術(shù),也可以簡(jiǎn)稱為PCA或者是主成分分析。其目的在于充分運(yùn)用減少維度的思想,把多個(gè)指標(biāo)變換成少數(shù)的綜合性指標(biāo)。1.1引言由于數(shù)字圖像的信號(hào)和數(shù)據(jù)量較大的人工通道所存儲(chǔ)的容量有限這樣的矛盾說明了如何對(duì)數(shù)據(jù)量進(jìn)行壓縮也是非常有必要的,不過,通常的情況下一張照片的各種像素之間都會(huì)存在一定范圍內(nèi)的關(guān)聯(lián)性。特別地,在一個(gè)具有重要運(yùn)動(dòng)學(xué)意義的圖像中,由于兩個(gè)相鄰的圖像之間的時(shí)間間隔很短,所以它們都會(huì)被包括在很多與其相關(guān)的信息中。其中也就是視頻信息的冗余。數(shù)據(jù)壓縮的主要目標(biāo)之一就是為了減少和消除影像信息中的許多冗余,并保證圖像質(zhì)量。通常是針對(duì)不同的文件類型和數(shù)據(jù)冗余,采取不同的冗余壓縮處理方法?;趶V泛的商業(yè)效益和不同廠家儀器設(shè)備的高度兼容性,產(chǎn)生了一種新型的視頻影像編碼規(guī)范。國際電氣通信聯(lián)盟的遠(yuǎn)程通信標(biāo)準(zhǔn)化機(jī)構(gòu)(ITU-T,即原來的CCITT)和其它國際標(biāo)準(zhǔn)化機(jī)構(gòu)中的國際電工理事會(huì)(ISO/IEC,即原來的ISO和CCIR)依次聯(lián)合制定并共同發(fā)布了一系列的關(guān)于有關(guān)應(yīng)用靜態(tài)視頻繪制和應(yīng)用動(dòng)漫視頻編碼的相關(guān)國際標(biāo)準(zhǔn)。這些技術(shù)標(biāo)準(zhǔn)一起研究歸納并整理總結(jié)了使用超過50年的圖像編碼壓縮技術(shù)及其實(shí)際應(yīng)用的相關(guān)研究成果,綜合地充分考慮了圖像壓縮前的效率與圖像壓縮后的精度。實(shí)現(xiàn)了其技術(shù)復(fù)雜性和實(shí)際應(yīng)用的簡(jiǎn)單性等,并且先后提出了一套相對(duì)最好的具體解決辦法方案,表明了現(xiàn)在我國計(jì)算機(jī)圖像編碼處理技術(shù)的初步發(fā)展較高水平。1.2PCA算法的原理在現(xiàn)代統(tǒng)計(jì)學(xué)理論中,主成分分析PCA是一項(xiàng)簡(jiǎn)化了大量數(shù)據(jù)集的科學(xué)研究技術(shù)。這是一種線性轉(zhuǎn)換[16]。這樣的轉(zhuǎn)移和變換就需要將所有的數(shù)據(jù)都變換成一個(gè)新的坐標(biāo)體系,使得在圖像中投影的任意一個(gè)數(shù)據(jù)的第一分散點(diǎn)都被放置于第一個(gè)坐標(biāo)(也叫第一主要分量)上,使第二分散點(diǎn)均被放置于第二個(gè)坐標(biāo)(即第二主要分量)上。主成分分析往往被廣泛應(yīng)用于減少和提高數(shù)據(jù)集在不同層次上的維度,但必須明確地保證如何使用和控制每一種數(shù)據(jù)集之間存在著對(duì)方性的差別以便為其做出最大的貢獻(xiàn)。它就是通過去掉低階的原始成份,卻完全忽略了高階的原始成份。這樣一來,低層次的組件就能很好地維護(hù)這些數(shù)據(jù)中最重要的部件。1.2.1PCA的基本思想主成分分析法是對(duì)其在某一個(gè)數(shù)學(xué)維度上已經(jīng)有所減少或者下降的一種分析方法,通過把一些綜合的變量進(jìn)行置換而成為了原始的許多個(gè)變量,這些所有被綜合化的變量都能夠盡最大程度地作為一種信息特征用于表示。而且他們之間又互不相聯(lián)。因此,將這樣的多個(gè)變量轉(zhuǎn)換為具有少數(shù)相互依存性的幾個(gè)綜合變量的統(tǒng)計(jì)分析法被稱為主成分分析或主成分分析。PCA的主要設(shè)計(jì)理念就是將一個(gè)維度特性映射到維度,并且這個(gè)維度本身是全新的正交特性。這個(gè)次元的特征被稱為主要成分。這是新制作的次元的特征。在PCA中,數(shù)據(jù)將會(huì)從原先的坐標(biāo)系轉(zhuǎn)換成新的坐標(biāo)系,但是對(duì)于新的坐標(biāo)系如何選擇卻與其中的數(shù)據(jù)本身緊密地息息相關(guān)。第一個(gè)新的坐標(biāo)軸在其原始數(shù)據(jù)中選擇分散[17]最大的方向,而第二個(gè)新的坐標(biāo)軸的選擇是與第一坐標(biāo)軸正交并且具有最大色散的方向。然后,該過程總是重復(fù)的,其中重復(fù)的次數(shù)就是原始數(shù)據(jù)中某些給定特征值的數(shù)目。由于大部分的方差都包括在最前面的幾個(gè)新的坐標(biāo)軸中,所以完全可以簡(jiǎn)單得直接忽略其他剩余幾個(gè)坐標(biāo)軸,即對(duì)所有數(shù)據(jù)進(jìn)行降序優(yōu)化處理。主成分分析所必須要做的事情就是,將以往很多與之有一定關(guān)聯(lián)的變量重新組合,將與之前的相互不同或者無關(guān)的整個(gè)綜合變量置換為原來的變量。通常,數(shù)學(xué)的處理方法就是將原來的變量進(jìn)行線性化地組合,作為一個(gè)新的綜合變量,但如果這種組合不受到限制,則可以有很多組合。怎么選擇才好呢?當(dāng)然,第一個(gè)所需要選擇的是線性組合,即第一個(gè)綜合變量,希望盡可能多地反映原始變量的信息。這里的“信息”用分散法測(cè)定。也就意味著,Var()的值越大,表示所需要包含的信息就可能會(huì)越多。因此,在所有的線性組合中,所需要選擇的分散應(yīng)該是其中最大的,故稱為第一主成分。如果第一具有線性組合主成分的函數(shù)值不夠準(zhǔn)確地反映代表原始P個(gè)變量的所有具備相關(guān)性的信息,則我們完全可以直接通過各種考慮從這個(gè)具有相關(guān)性的信息中任意性地選取第二個(gè)線性組合;為了有效地準(zhǔn)確地能反映原來的相關(guān)信息,已經(jīng)存在的信息就不必再需要再出現(xiàn)在中,用一種數(shù)學(xué)的語言表達(dá)的話,需要Cov(,)=0,其中我們稱為第二主成分,以此類推我們可以直接構(gòu)造得出第三、四...第P個(gè)主成分。1.2.2PCA的數(shù)學(xué)模型對(duì)于一個(gè)樣本資料,觀測(cè)P個(gè)變量x1,x2,...,xp,n個(gè)樣品的數(shù)據(jù)資料為:(2.1)其中:(2.2)主成分分析法是指將p個(gè)觀察變量整體地綜合成p個(gè)新的變量(總成分綜合),即(2.3)簡(jiǎn)寫為:(2.4)要求模型滿足以下條件:,互不相關(guān)();的方差大于的方差大于的方差,按順序類推;。因此,作為第一個(gè)主成分,作為第二個(gè)主成分,依次進(jìn)行類推,一共包含了第P個(gè)主成分,其中的主成分也被人們統(tǒng)稱為主分量。這里的我們稱之為主成分系數(shù)。上述模型可以用矩陣表示為:(2.5)其中,A稱為主成分系數(shù)矩陣。1.2.3PCA的幾何解釋假設(shè)二維空間中共有n個(gè)樣本,每個(gè)樣本中都包含有兩個(gè)不同的變量,即討論了二維空間中關(guān)于主成分的幾何意義。將n個(gè)樣本在二維空間中的位置和分布大致定義為一個(gè)橢圓,如下圖所示:圖1.1主成分幾何解釋圖將橢圓坐標(biāo)系進(jìn)行正交旋轉(zhuǎn)一個(gè)角度,在橢圓長(zhǎng)軸方向取坐標(biāo),在橢圓短軸方向取坐標(biāo),旋轉(zhuǎn)公式是(2.6)要?jiǎng)?chuàng)建矩陣的格式為:(2.7)這里是坐標(biāo)旋轉(zhuǎn)變換矩陣的正交矩陣,即有,就滿足。經(jīng)過旋轉(zhuǎn)變換后,可獲得下圖所示的新坐標(biāo):圖1.2主成分幾何說明圖新坐標(biāo)有以下的性質(zhì):n個(gè)點(diǎn)的坐標(biāo)和的相關(guān)幾乎為零。(2)二維平面上的n個(gè)點(diǎn)的方差大部分歸結(jié)于軸上,而軸上的方差小。和稱為原始變量和的綜合變量。由于n個(gè)點(diǎn)位于軸上的方差最大,因此將二維空間的每一個(gè)點(diǎn)置換為軸上的一維綜合變量,所產(chǎn)生損失的數(shù)據(jù)信息量最小,由此稱軸為第一主成分,軸與軸正交,有較小的方差,稱它為第二主成分。PCA算法的一個(gè)本質(zhì)特點(diǎn)就是在這些投影的方向上得到數(shù)據(jù)的色散差異為最大,并且這些投影方向找到幾個(gè)投影方向,使得它們彼此正交。這實(shí)際上本身就是一個(gè)尋求得到一個(gè)全新的正交依據(jù)基礎(chǔ)[18]的過程,其示出了計(jì)算這些正交依據(jù)基礎(chǔ)上的各種原始數(shù)據(jù)所需要投影的方差,并且當(dāng)時(shí)的方差也就越大,相應(yīng)地在這些正交依據(jù)的基礎(chǔ)上也會(huì)包括較為豐富的資料。原始數(shù)據(jù)的協(xié)方差矩陣中的特征值越高,所需要對(duì)應(yīng)的特征分散度就越高,投影到所對(duì)應(yīng)的特征向量的信息量就越大。相反,在一個(gè)特征值較小的情況下,說明向這些特征矢量投影數(shù)據(jù)的信息量較小,能夠完全刪除與小特征值所對(duì)應(yīng)的某一個(gè)方向上的數(shù)據(jù),實(shí)現(xiàn)維度下降的目的。PCA將與可能存在相關(guān)性的高階元變量稱為初級(jí)分量,并將它們集成到一個(gè)不需要依賴線性的低維變量中。而且新的低維數(shù)據(jù)集將盡可能保留更多的原始數(shù)據(jù)變量。該分析方法主要研究目的也就是通過對(duì)各種不同數(shù)據(jù)類型的統(tǒng)計(jì)數(shù)據(jù)分別采取一種具有特征性的矩陣分析計(jì)算方式,來將協(xié)方差陣在矩陣中的分解定義為每一個(gè)類型數(shù)據(jù)的各種類型主要積分量(分重即各種數(shù)據(jù)特征向量)及其權(quán)重(權(quán)值即各種數(shù)據(jù)特征向量值)。PCA就是我們利用最簡(jiǎn)單的元素特征性測(cè)量方法對(duì)多元素在統(tǒng)計(jì)學(xué)理論中的因素分布關(guān)系進(jìn)行了綜合分析。結(jié)果,可以說明原始數(shù)據(jù)的分散。哪個(gè)方向的數(shù)據(jù)值和對(duì)方的差異最大?換句話說,PCA就提供了一種降低數(shù)據(jù)維度的有效途徑。如
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025河北省人民醫(yī)院選聘19人筆試考試參考題庫及答案解析
- 人力資源雇主品牌專員晉升考試題庫含答案
- 網(wǎng)絡(luò)工程師中級(jí)面試常見問題解析
- 2025江蘇省人民醫(yī)院心血管內(nèi)科科研助理招聘1人筆試考試參考試題及答案解析
- 2025廣東揭陽普寧市潮劇團(tuán)招聘事業(yè)單位工作人員11人筆試考試參考試題及答案解析
- 資產(chǎn)管理部經(jīng)理崗位的招聘與面試題集
- 2025廣西河池市天峨縣大數(shù)據(jù)發(fā)展局公開招聘就業(yè)見習(xí)人員3人考試筆試參考題庫附答案解析
- 2025濟(jì)南市平陰豐源炭素有限責(zé)任公司招聘(29人)筆試考試備考試題及答案解析
- 面試官必問知識(shí)產(chǎn)權(quán)專員專業(yè)知識(shí)測(cè)試
- 機(jī)械制造領(lǐng)域研發(fā)總監(jiān)面試題集
- 甘肅慶陽東數(shù)西算產(chǎn)業(yè)園區(qū)綠電聚合試點(diǎn)項(xiàng)目-330千伏升壓站及330千伏送出工程環(huán)境影響評(píng)價(jià)報(bào)告書
- 電商行業(yè)電商平臺(tái)大數(shù)據(jù)分析方案
- 《生理學(xué)》 課件 -第三章 血液
- 企業(yè)介紹設(shè)計(jì)框架
- 臺(tái)安N2變頻器說明書
- 2025國家開放大學(xué)《公共部門人力資源管理》期末機(jī)考題庫
- JG/T 545-2018衛(wèi)生間隔斷構(gòu)件
- 物業(yè)管理服務(wù)三方協(xié)議書全
- 瀝青攤鋪培訓(xùn)課件
- 項(xiàng)目群管理中期匯報(bào)
- 電梯作業(yè)人員理論考試練習(xí)題庫
評(píng)論
0/150
提交評(píng)論