主成分分析幻燈片_第1頁(yè)
主成分分析幻燈片_第2頁(yè)
主成分分析幻燈片_第3頁(yè)
主成分分析幻燈片_第4頁(yè)
主成分分析幻燈片_第5頁(yè)
已閱讀5頁(yè),還剩15頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

主成份分析組長(zhǎng):郭圣銳小組組員:羅琳張玉峰石小豐12023/10/10第1頁(yè)背景在許多領(lǐng)域研究與應(yīng)用中,一般需要對(duì)具有多種變量數(shù)據(jù)進(jìn)行觀測(cè),搜集大量數(shù)據(jù)后進(jìn)行分析尋找規(guī)律。多變量大數(shù)據(jù)集無(wú)疑會(huì)為研究和應(yīng)用提供豐富信息,不過(guò)也在一定程度上增加了數(shù)據(jù)采集工作量。更主要是在很多情形下,許多變量之間也許存在有關(guān)性,從而增加了問(wèn)題分析復(fù)雜性。假如分別對(duì)每個(gè)指標(biāo)進(jìn)行分析,分析往往是孤立,不能完全利用數(shù)據(jù)中信息,因此盲目減少指標(biāo)會(huì)損失很多有用信息,從而產(chǎn)生錯(cuò)誤結(jié)論。因此需要找到一種合理辦法,在減少需要分析指標(biāo)同步,盡也許減少原指標(biāo)包括信息損失,以達(dá)成對(duì)所搜集數(shù)據(jù)進(jìn)行全面分析目標(biāo)。由于各變量之間存在一定有關(guān)關(guān)系,因此能夠考慮將關(guān)系緊密變量變成盡也許少新變量,使這些新變量是兩兩不有關(guān),那么就能夠用較少綜合指標(biāo)分別代表存在于各個(gè)變量中各類(lèi)信息。主成份分析與因子分析就屬于此類(lèi)降維算法。22023/10/10第2頁(yè)數(shù)據(jù)降維降維就是一種對(duì)高維度特性數(shù)據(jù)預(yù)處理辦法。降維是將高維度數(shù)據(jù)保存下最主要某些特性,清除噪聲和不主要特性,從而實(shí)現(xiàn)提升數(shù)據(jù)處理速度目標(biāo)。在實(shí)際生產(chǎn)和應(yīng)用中,降維在一定信息損失范圍內(nèi),能夠?yàn)槲覀児?jié)省大量時(shí)間和成本。降維也成為應(yīng)用非常廣泛數(shù)據(jù)預(yù)處理辦法。

降維具有如下某些長(zhǎng)處:·使得數(shù)據(jù)集更易使用?!p少算法計(jì)算開(kāi)銷(xiāo)?!で宄肼暋!な沟贸晒菀桌斫狻=稻S算法有很多,例如主成份分析(PCA)、奇異值分解(SVD)、因子分析(FA)、獨(dú)立成份分析(ICA)。32023/10/10第3頁(yè)P(yáng)CA原理詳解PCA概念

PCA(Principal

Component

Analysis),即主成份分析辦法,是一種使用最廣泛數(shù)據(jù)降維算法。PCA主要思想是將n維特性映射到k維上,這k維是全新正交特性也被稱為主成份,是在原有n維特性基礎(chǔ)上重新構(gòu)造出來(lái)k維特性。PCA工作就是從原始空間中次序地找一組互相正交坐標(biāo)軸,新坐標(biāo)軸選擇與數(shù)據(jù)本身是密切有關(guān)。其中,第一種新坐標(biāo)軸選擇是原始數(shù)據(jù)中方差最大方向,第二個(gè)新坐標(biāo)軸選用是與第一種坐標(biāo)軸正交平面中使得方差最大,第三個(gè)軸是與第1,2個(gè)軸正交平面中方差最大。依次類(lèi)推,能夠得到n個(gè)這樣坐標(biāo)軸。通過(guò)這種方式取得新坐標(biāo)軸,我們發(fā)覺(jué),大部分方差都包括在前面k個(gè)坐標(biāo)軸中,背面坐標(biāo)軸所含方差幾乎為0。于是,我們能夠忽視余下坐標(biāo)軸,只保存前面k個(gè)具有絕大部分方差坐標(biāo)軸。事實(shí)上,這相稱于只保存包括絕大部分方差維度特性,而忽視包括方差幾乎為0特性維度,實(shí)現(xiàn)對(duì)數(shù)據(jù)特性降維處理。42023/10/10第4頁(yè)思考:我們?nèi)绾蔚玫竭@些包括最大差異性主成份方向呢?答案:事實(shí)上,通過(guò)計(jì)算數(shù)據(jù)矩陣協(xié)方差矩陣,然后得到協(xié)方差矩陣特性值特性向量,選擇特性值最大(即方差最大)k個(gè)特性所對(duì)應(yīng)特性向量組成矩陣。這樣就能夠?qū)?shù)據(jù)矩陣轉(zhuǎn)換到新空間當(dāng)中,實(shí)現(xiàn)數(shù)據(jù)特性降維。52023/10/10第5頁(yè)協(xié)方差和散度矩陣樣本均值:樣本方差:樣本X和樣本Y協(xié)方差:62023/10/10第6頁(yè)由上面公式,我們能夠得到下列結(jié)論(1)方差計(jì)算公式是針對(duì)一維特性,即針對(duì)同一特性不一樣樣本取值來(lái)進(jìn)行計(jì)算得到;而協(xié)方差則必須要求最少滿足二維特性;方差是協(xié)方差特殊情況。(2)方差和協(xié)方差除數(shù),這是為了得到方差和協(xié)方差無(wú)偏估計(jì)。協(xié)方差為正時(shí),說(shuō)明

是正有關(guān)關(guān)系;協(xié)方差為負(fù)時(shí),說(shuō)明

是負(fù)有關(guān)關(guān)系;協(xié)方差為0時(shí),說(shuō)明X和Y是互相獨(dú)立。

就是X方差。當(dāng)樣本是n維數(shù)據(jù)時(shí),它們協(xié)方差事實(shí)上是協(xié)方差矩陣(對(duì)稱方陣)。72023/10/10第7頁(yè)82023/10/10第8頁(yè)P(yáng)CA幾何意義92023/10/10第9頁(yè)圖中,

B點(diǎn)表達(dá)樣例,

A點(diǎn)表達(dá)在

上投影,

是直線斜率也是直線方向向量,并且是單位向量。藍(lán)色點(diǎn)是在

上投影點(diǎn),離原點(diǎn)距離是

102023/10/10第10頁(yè)從總體有關(guān)系數(shù)矩陣出發(fā)求解主成份112023/10/10第11頁(yè)記122023/10/10第12頁(yè)樣本主成份132023/10/10第13頁(yè)實(shí)例操作142023/10/10第14頁(yè)試計(jì)算這8個(gè)指標(biāo)主成份及對(duì)13個(gè)工業(yè)部門(mén)進(jìn)行排序。152023/10/10第15頁(yè)通過(guò)因子分析可得到162023/

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論