付費(fèi)下載
下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
主成分分析類型:一種處理高維數(shù)據(jù)的方法。降維思想:在實(shí)際問題的研究中,往往會(huì)涉及眾多有關(guān)的變量。但是,變量太多不但會(huì)增加計(jì)算的復(fù)雜性,而且也會(huì)給合理地分析問題和解釋問題帶來困難。一般說來,雖然每個(gè)變量都提供了一定的信息,但其重要性有所不同,而在很多情況下,變量間有一定的相關(guān)性,從而使得這些變量所提供的信息在一定程度上有所重疊。因而人們希望對這些變量加以“改造”,用為數(shù)極少的互補(bǔ)相關(guān)的新變量來反映原變量所提供的絕大部分信息,通過對新變量的分析達(dá)到解決問題的目的。一、總體主成分定義設(shè)Xi,X2,…,Xn為某實(shí)際問題所涉及的p個(gè)隨機(jī)變量。記-xjXcX=:,其協(xié)方差矩陣為-XpJCov(X尸2=E((X-E(X)XX-E(X)))它是一個(gè)p階非負(fù)定矩陣。設(shè)T__Yi=liX=lnXi+l21X2+…+lpiXp(1)Y2=l;X=Ii2XJI22X2+…+lp2Xp(1)Yp=|;XipX1+l2pX2+…+IppXp其中l(wèi)其中l(wèi)kIlkI12k“1一11Tl111121…1p1111112…11pT-XJY21Tx112122…1p2X2121122…12pX29—.■—9+.9—99+.9:Yp一1]T.1p-11p12P…1pp1Xp一111p11p2…1pp1Xp一即:Y==LtX其中L=lil2l其中L=lil2lpliiIl211222…11Pl…12P11pp1P2則有(2)Var(Yi)=Var(l:X)=l:.,i=1,2,...,p,(2)Cov(Y,Yj)=Cov(l:X,l;X)=lT、lj,j=1,2,...,p.為什么?見另一個(gè)文檔。第i個(gè)主成分的定義如下:般地,在約束條件lili=1及Cov(Y")=l:以=0,k=1,2,…,i-1.下,求L使Var(Y)達(dá)到最大,由此1i所確定的Y=Kx稱為X1,X2,…,Xp的第i個(gè)主成分。1.2總體主成分的計(jì)算設(shè)工是X=(X1,X2,...,Xp)1的協(xié)方差矩陣,工的特征值及相應(yīng)的正交單位化特征向量分別為'1-'2---'p-0ei,e2,...,ep,則X的第i個(gè)主成分為Y=e:X=qiXi+ezX2+…+e.Xp,i=1,2,...,p,(3)此時(shí)Var(Y)=e:氏二一,i=1,2,...,p,
T—
Cov(Y,Yk)=e;羽=0,i=k.1.3總體主成分的性質(zhì)主成分的協(xié)方差矩陣及總方差記Y=(Y,Y,…,Y)T為主成分向量,則Y=PtX,其中P=(e,e2,...,ep),且Cov(Y)=Cov(PTX)=Pt2P=A=Diag⑶,&,.,?p),由此得主成分的總方差為pppVVar(Y)=£%=tr(Pt2P)=tr(2PPT)=tr(2)=工Var(Xi),i1i1i1為什么tr(Pt2P)=tr(2PPt)?因?yàn)椋篜T沖與3PF:相似(P(PT\P)pT=PPT2PP_1=2PP-1=2PPT),所以跡不變。為什么2PPt=2?因?yàn)镻Pt=E所以成立。p為什么tr(1)=VVar(XJ,因?yàn)楣窃鼐褪荲ar(XJ。i1即主成分分析是把p個(gè)原始變量Xi,X2,…,Xp的總方差pVar(Xi)i1分解成p個(gè)互不相關(guān)變量丫1,丫2,…,Yp的方差之和,即pVVar(Y)i1而VarM)=%。
第k個(gè)主成分的貢獻(xiàn)率:、ii1m▼'i前m個(gè)主成分累計(jì)貢獻(xiàn)率:亍,它表明前m個(gè)主成分Yi,丫2,…,Ym.二■-ii1綜合提供Xi,X2,…,Xp中信息的能力。1.3.2主成分Yi與變量Xj的相關(guān)系數(shù)由于Y=PtX,故X=PY(因?yàn)镻是正交矩陣,所以PT=P」),從而Xj=e"ej2丫2ejpYp,所以:Cov(Yi,Xj)=Cov(Y,ejiYijY2「pYp)=Cov(Yi,ejiYi)Cov(Yi,ej2Y2)Cov(Y,ejiY)Cov(Y,ejpYp)-'i5由此可得Yi與Xj的相關(guān)系數(shù)為p_C0V(丫,Xj)=k?(4)Yi,XjVar(Y)Var(Xj)「二』jii.4標(biāo)準(zhǔn)化變量的主成分在實(shí)際問題中,不同的變量往往有不同的量綱,由于不同的量綱會(huì)引起各變量取值的分散程度差異較大,這時(shí)總體方差則主要受方差較大的變量的控制。為了消除由于量綱的不同可能帶來的影響,常采用變量標(biāo)準(zhǔn)化的方法,即令*Xi,i=i,2,...,p,(5)其中*Xi,i=i,2,...,p,(5)其中‘i=E(X),二"的協(xié)方差矩陣便是=Var(X)這時(shí)X=(X1,X2,...,Xp)T的相關(guān)矩陣p=(Pj)P9矩陣,其中RjCov(XiRjCov(Xi,Xj)(6)原因:*一一*CovX*一一*CovXj,Xj=Covi'Xi-匕Xj—巴Cov(Xj-H,Xj-%)匚僅Xj”產(chǎn)(X—iWXj-Nj)—E(Xj))、EXj-EXjXj-EXjJ;ii.「jjCovXj,Xj所以:Cov(x*尸E((X*-E(X*mx*-e(x*))T尸E(X*X*t)=P利用X的相關(guān)系數(shù)矩陣P作主成分分析,有如下結(jié)論:設(shè)x*=(X1*,X;,...,Xp)T為標(biāo)準(zhǔn)化的隨機(jī)向量,其協(xié)方差矩陣(即X的相關(guān)系數(shù)矩陣)為p,則x*的第j個(gè)主成分為…;)TxT號(hào).看…e*pj營—⑺并且(8)ppP(8)二.Var(Y)人,j八Var(Xj)=p,j1j1j1其中卻達(dá)至…乩至0為p的特征值,e*=(e*i,e*2,...,《)丁為相應(yīng)于特征值%*的正交單位特征向量。*第j個(gè)主成分的貢獻(xiàn)率:二;前m個(gè)主成分的累計(jì)貢獻(xiàn)率:二Y*Y*與X:的相關(guān)系數(shù)為py*x*i,八j7*%eji°二、樣本主成分前面討論的是總體主成分,但在實(shí)際問題中,一般工(或P)是未知的,需要通過樣本來估計(jì)。設(shè)xi=(xi1,x2,…,xip),i=/Sj=-/Sj=-:(xki-xi)(xkj-xj),i,j=1,2,...,p.n-1-分別以S和R作為工和P的估計(jì),然后按總體主成分分析的方法作樣本主成分分析為取自X=(X1,X2,...,Xp)T的一個(gè)容量為n的簡單隨機(jī)樣本,則樣本協(xié)方差矩陣及樣本相關(guān)矩陣分別為1J__TS=(Sj)pp=(Xk-x)(Xk-x),
n-1k=iR=(rR=(rij)pp=其中_____1nX=(xi,x2,…,xp)T,xj二一'Xij,j=1,2,…,p,ni1
二、例題某市為了全面分析機(jī)械類個(gè)企業(yè)的經(jīng)濟(jì)效益,選擇了8個(gè)不同的利潤指標(biāo),14企業(yè)關(guān)于這8個(gè)指標(biāo)的統(tǒng)計(jì)數(shù)據(jù)如下表所示,試進(jìn)行主成分分析c表114家企業(yè)的利潤指標(biāo)的統(tǒng)計(jì)數(shù)據(jù)變量企業(yè)序號(hào)凈產(chǎn)值利潤率(%)Xil固定資產(chǎn)禾潤率(%)Xi2總產(chǎn)值利潤率(%)Xi2銷售收入禾潤率(%)Xi3產(chǎn)品成本利潤率(%)Xi5物耗利潤率(%)Xi6人均利潤率Xi7(千九/人)流動(dòng)資金利潤率(%)Xi8140.424.77.26.18.38.72.44220.0225.012.711.211.012.920.23.5429.1313.23.33.94.34.45.50.5783.6422.36.75.63.76.07.40.1767.3534.311.87.17.18.08.91.72627.5635.612.516.416.722.829.33.01726.6722.07.89.910.212.617.60.84710.6848.413.410.99.910.913.91.77217.8940.619.119.819.029.739.62.44935.81024.88.09.88.911.916.20.78913.71112.59.74.24.24.66.50.8743.9121.80.60.70.70.81.10.0561.01332.313.99.48.39.813.32.12617.11438.59.111.39.512.216.41.32711.6解:樣本均值向量為:Tx=(27.97910.9509.1008.54311.06414.6141.55214.686)T,樣本協(xié)方差矩陣為:■168.33360.35745.75741.21557.90671.6728.602101.620]37.20716.82515.50523.53529.0294.78544.02324.84324.33536.47849.2783.62939.41024.42336.28349.1463.67538.718S=56.04675.4045.00259.723103.0186.82174.5231.1376.722102.707168.3360.35745.75841.21657.90671.6728.602101.6260.35737.20716.82515.50523.53529.0294.784644.02345.75816.82524.84324.33536.47849.2783.62939.4141.21615.50524.33524.42336.28349.1463.674738.718S=57.90623.53536.47836.28356.04675.4045.002259.72371.67229.02949.27849.14675.404103.026.821574.5238.6024.78463.6293.67475.00226.82151.1376.7217101.6244.02339.4138.71859.72374.5236.7217102.71由于S中主對角線元素差異較大,因此我們樣本相關(guān)矩陣R出發(fā)進(jìn)行主成分分析。樣本相關(guān)矩陣R為:0.762660.707580.642810.596170.544260.621780.7728510.553410.514340.515380.468880.735620.7121410.987930.97760.974090.682820.7801910.980710.97980.697350.7730610.992350.626630.787180.63030.724490.622021矩陣R的特征值及相應(yīng)的特征向量分別為:特征值特征向量6.13660.321130.295160.389120.384720.379550.370870.319960.355461.0421-0.4151-0.597660.229740.278690.316320.37151-0.27814-0.156840.43595-0.451230.10303-0.0398950.053874-0.0372920.0751860.77059-0.424780.22037-0.668170.36336-0.22596-0.110810.148740.069353-0.134950.559490.15191-0.0382170.624350.12273-0.0369090.159280.21062-0.43006-0.581050.0088274-0.101670.13584-0.158110.86226-0.25204-0.34506-0.13934-0.0265570.00296240.1596-0.061134-0.539660.0466060.7609-0.278090.06203-0.131260.00122380.19295-0.031987-0.641760.11002-0.253970.68791-0.006045-0.0054031R的特征值及貢獻(xiàn)率見下表特征值貢獻(xiàn)率(%)累“貝獻(xiàn)率(%)6.13660.767080.767081.04210.130270.897340.435950.0544940.951840.220370.0275470.979380.151910.0189880.998370.00882740.00110340.999480.00296240.00037030.999850.00122380.000152971前3個(gè)標(biāo)準(zhǔn)化樣本主成分類及貢獻(xiàn)率已達(dá)到95.184%,故只需取前三個(gè)主成分即可。前3個(gè)標(biāo)準(zhǔn)化樣本主成分中各標(biāo)準(zhǔn)化變量x;區(qū)(i=1,2,...,8)前的系數(shù)即為對應(yīng)特征向量,由此得到3個(gè)標(biāo)準(zhǔn)化樣本主成分為‘必=0.32113x;+0.29516x2+0.38912x3+0.38472x4+0.37955x5+0.37087x;+0.31996x;+0.35546x8V2=-0.4151x;-0.59766x;+0.22974x;+0.27869x;+0.31632x5+0.37151x6-0.27814x7-0.15684x8I********y3=-0.45123x1+0.10303x2-0.039895x3+0.053874x4-0.037292x5+0.075186x6+0.77059x7-0.42478x8注意到,y1近似是8個(gè)標(biāo)準(zhǔn)化變量<=xm(i=i,2,...,8)的等權(quán)重之和,是,0反映各企業(yè)總效應(yīng)大小的綜合指標(biāo),y1的值越大,則企業(yè)的效益越好。由于y1的貢獻(xiàn)率高達(dá)76.708%,故若用y1的得分值對各企業(yè)進(jìn)行排序,能從整體上反映企業(yè)之間的效應(yīng)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 體育護(hù)理專業(yè)就業(yè)前景
- 黑龍江安全試題及答案
- 2025-2026人教版一年級科學(xué)期末考
- 腸易激綜合征的腸-腸軸納米調(diào)節(jié)策略
- 針織廠衛(wèi)生管理制度
- 衛(wèi)生院單位規(guī)章制度
- 養(yǎng)生會(huì)衛(wèi)生管理制度
- 木業(yè)職業(yè)病衛(wèi)生管理制度
- 公共衛(wèi)生糖尿病管理制度
- 衛(wèi)生院醫(yī)療管理工作制度
- 安全目標(biāo)管理制度煤廠(3篇)
- 云南省玉溪市2025-2026學(xué)年八年級上學(xué)期1月期末物理試題(原卷版+解析版)
- 2026年哈爾濱通河縣第一批公益性崗位招聘62人考試參考試題及答案解析
- 就業(yè)協(xié)議書解約函模板
- 研發(fā)部門員工加班管理細(xì)則
- 鋼結(jié)構(gòu)橋梁施工監(jiān)測方案
- 2025人教pep版三年級英語上冊字帖
- 《5G移動(dòng)通信》課件-項(xiàng)目六 5G網(wǎng)絡(luò)中的人工智能技術(shù)
- 2025江蘇蘇州高新區(qū)獅山商務(wù)創(chuàng)新區(qū)下屬國有企業(yè)招聘9人筆試題庫及答案詳解
- 教培機(jī)構(gòu)年終工作總結(jié)
- 2025年秋季青島版三年級數(shù)學(xué)上冊求比一個(gè)數(shù)的幾倍多(少)幾的數(shù)教學(xué)課件
評論
0/150
提交評論