版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、主成分分析主成分分析主成分回歸主成分回歸立體數(shù)據(jù)表的主成分分析立體數(shù)據(jù)表的主成分分析 一項十分著名的工作是美國的統(tǒng)計學(xué)家斯通(stone)在1947年關(guān)于國民經(jīng)濟(jì)的研究。他曾利用美國1929一1938年各年的數(shù)據(jù),得到了17個反映國民收入與支出的變量要素,例如雇主補(bǔ)貼、消費資料和生產(chǎn)資料、純公共支出、凈增庫存、股息、利息外貿(mào)平衡等等。1 基本思想 在進(jìn)行主成分分析后,竟以97.4的精度,用三個新變量就取代了原17個變量。根據(jù)經(jīng)濟(jì)學(xué)知識,斯通給這三個新變量分別命名為總收入F1、總收入變化率F2和經(jīng)濟(jì)發(fā)展或衰退的趨勢F3。 主成分分析主成分分析是把各變量之間互相關(guān)聯(lián)的復(fù)雜關(guān)系進(jìn)行簡化分析的方法。
2、在社會經(jīng)濟(jì)的研究中,為了全面系統(tǒng)的分析和研究問題,必須考慮許多經(jīng)濟(jì)指標(biāo),這些指標(biāo)能從不同的側(cè)面反映我們所研究的對象的特征,但在某種程度上存在信息的重疊,具有一定的相關(guān)性。 主成分分析試圖在力保數(shù)據(jù)信息丟失最少的原則下,對這種多變量的截面數(shù)據(jù)進(jìn)行最佳綜合簡化,也就是說,對高維變量空間進(jìn)行降維處理。 很顯然,識辨系統(tǒng)在一個低維空間要比在一個高維空間容易得多。 在力求數(shù)據(jù)信息丟失最少的原則下,對高維的變量空間降維,即研究指標(biāo)體系的少數(shù)幾個線性組合,研究指標(biāo)體系的少數(shù)幾個線性組合,并且這幾個線性組合所構(gòu)成的綜合指標(biāo)將盡可能多并且這幾個線性組合所構(gòu)成的綜合指標(biāo)將盡可能多地保留原來指標(biāo)變異方面的信息。這些
3、綜合指標(biāo)就地保留原來指標(biāo)變異方面的信息。這些綜合指標(biāo)就稱為主成分稱為主成分。要討論的問題: (1) 基于相關(guān)系數(shù)矩陣還是基于協(xié)方差矩陣做主成分分析。當(dāng)分析中所選擇的經(jīng)濟(jì)變量具有不同的量綱,變量水平差異很大,應(yīng)該選擇基于相關(guān)系數(shù)矩陣的主成分分析。 (2)選擇幾個主成分。主成分分析的目的是簡化變量,一般情況下主成分的個數(shù)應(yīng)該小于原始變量的個數(shù)。關(guān)于保留幾個主成分,應(yīng)該權(quán)衡主成分個數(shù)和保留的信息。 (3)如何解釋主成分所包含的經(jīng)濟(jì)意義。2 數(shù)學(xué)模型與幾何解釋 假設(shè)我們所討論的實際問題中,有p個指標(biāo),我們把這p個指標(biāo)看作p個隨機(jī)變量,記為X1,X2,Xp,主成分分析就是要把這主成分分析就是要把這p p
4、個指標(biāo)的問個指標(biāo)的問題,轉(zhuǎn)變?yōu)橛懻擃},轉(zhuǎn)變?yōu)橛懻損 p個指標(biāo)的線性組合的問題個指標(biāo)的線性組合的問題,而這些新的指標(biāo)F1,F(xiàn)2,F(xiàn)k(kp),要求保留主要信息量的原則(即充分反映原指標(biāo)的信息),并且相互獨立。ppppppppppXuXuXuFXuXuXuFXuXuXuF22112222112212211111 這種由討論多個指標(biāo)降為少數(shù)幾個綜合指多個指標(biāo)降為少數(shù)幾個綜合指標(biāo)的過程在數(shù)學(xué)上就叫做降維標(biāo)的過程在數(shù)學(xué)上就叫做降維。主成分分析通主成分分析通常的做法是,尋求原指標(biāo)的線性組合常的做法是,尋求原指標(biāo)的線性組合Fi。滿足如下的條件:)(122221分方差無窮大,無意義如沒此約束,可使主成piii
5、uuupjijiFFCovji,),(210)()(21pFVarFVarFVar)(主成分之間相互獨立,即無重疊的信息。即主成分之間相互獨立,即無重疊的信息。即主成分的方差依次遞減,重要性依次遞減,即主成分的方差依次遞減,重要性依次遞減,即每個主成分的系數(shù)平方和為每個主成分的系數(shù)平方和為1。即。即2x1x1F2F主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標(biāo)軸2x1x1F2F主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標(biāo)軸2x1x1F2F 主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標(biāo)軸2x1x1F2F主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標(biāo)軸 為了方便,我們在二維空間中討論主成分的幾何意義。 設(shè)有n個樣品,每個樣品有兩個觀測變量x
6、l和x2,在由變量xl和x2 所確定的二維平面中,n個樣本點所散布的情況如橢圓狀。由圖可以看出這n個樣本點無論是沿著xl 軸方向或x2軸方向都具有較大的離散性,其離散的程度可以分別用觀測變量xl 的方差和x2 的方差定量地表示。顯然,如果只考慮xl和x2 中的任何一個,那么包含在原始數(shù)據(jù)中的經(jīng)濟(jì)信息將會有較大的損失。 如果我們將xl 軸和x2軸先平移,再同時按逆時針方向旋轉(zhuǎn)角度,得到新坐標(biāo)軸Fl和F2。Fl和F2是兩個新變量。 根據(jù)旋轉(zhuǎn)變換的公式:cossinsincos212211xxyxxyxU2121cossinsincosxxyy正交矩陣,即有為旋轉(zhuǎn)變換矩陣,它是UIUUUU,1 旋轉(zhuǎn)
7、變換的目的是為了使得n個樣品點在Fl軸方向上的離軸方向上的離 散程度最大,即散程度最大,即Fl的方差最大。的方差最大。變量變量Fl代表了原始數(shù)據(jù)的絕大代表了原始數(shù)據(jù)的絕大 部分信息,部分信息,在研究某經(jīng)濟(jì)問題時,即使不考慮變量F2也無損大局。經(jīng)過上述旋轉(zhuǎn)變換原始數(shù)據(jù)的大部分信息集中到Fl軸上,對數(shù)據(jù)中包含的信息起到了濃縮作用。 Fl,F(xiàn)2除了可以對包含在Xl,X2中的信息起著濃縮作用之外,還具有不相關(guān)的性質(zhì),這就使得不相關(guān)的性質(zhì),這就使得在研究復(fù)雜的問題時避免了信息重疊所帶來的虛在研究復(fù)雜的問題時避免了信息重疊所帶來的虛假性。二維平面上的樣本點的方差大部分都?xì)w結(jié)假性。二維平面上的樣本點的方差大
8、部分都?xì)w結(jié)在在Fl軸上,而軸上,而F2軸上的方差很小軸上的方差很小。Fl和F2稱為原始變量x1和x2的綜合變量。F簡化了系統(tǒng)結(jié)構(gòu),抓住了主要矛盾。 一、兩個線性代數(shù)的結(jié)論一、兩個線性代數(shù)的結(jié)論 1、若A是p階實對稱陣,則一定可以找到正交陣U,使ppp00000021AUU1pii. 2 . 1, 其中 是A A的特征根。 2、若上述矩陣的特征根所對應(yīng)的單位特征向量為 ppppppuuuuuuuuu212222111211),(p1uuU 則實對稱陣 屬于不同特征根所對應(yīng)的特征向量是正交的,即有p1uu,令A(yù)IUUUU 二、主成分的推導(dǎo) (一)(一) 第一主成分第一主成分設(shè)X的協(xié)方差陣為2212
9、222111221pppppx由于x為非負(fù)定的對稱陣,則有利用線性代數(shù)的知識可得,必存在正交陣U,使得p001UUX 其中1, 2, p為x的特征根,不妨假設(shè)1 2 p 。而U恰好是由特征根相對應(yīng)的特征向量所組成的正交陣。ppppppuuuuuuuuu212222111211),(p1uuUpiiiuuu,21iUiPi, 2 , 1 下面我們來看,是否由U的第一列元素所構(gòu)成為原始變量的線性組合是否有最大的方差。設(shè)有P維正交向量11111ppFa Xa X a X1211111)(aUUaaapFV121111,paaaa12p 12112p1puuau ,u ,uau211111)(piii
10、piiiiuaauua當(dāng)且僅當(dāng) 時,即 時,有最大的方差 。因為ppXuXuF1111112111)()(piiiFVaruu11ua 1 如果第一主成分的信息不夠,則需要尋找第二主成分。iiiXVarFVar)()(同理,(二)(二) 第二主成分第二主成分如果第一主成分的信息不夠,則尋找第二主成分 ppXuXuF21122因為0),cov(),cov(211211212121uuuuuuxuxuFFpiiiipiiii的特征根。其方差為組合,它們互不相關(guān),特征向量為系數(shù)的線性的的主成分就是以,上述推導(dǎo)表明,pXXX21ppXuXuXuF22221122 所以如果取線性變換: 則 的方差次大。
11、2F 類推 ppppppppppXuXuXuFXuXuXuFXuXuXuF22112222112212211111寫為矩陣形式:XUFppppppuuuuuuuuu212222111211),(p1uuU),(21pXXXX4 4 主成分的性質(zhì)主成分的性質(zhì)一、方差為所有特征根之和一、方差為所有特征根之和piiFVar1)(2222121pp 說明主成分分析把P個隨機(jī)變量的總方差分解成為P個不相關(guān)的隨機(jī)變量的方差之和。 協(xié)方差矩陣的對角線上的元素之和等于特征根之和。 二、精度分析二、精度分析 1)貢獻(xiàn)率貢獻(xiàn)率:第i個主成分的方差在全部方差中所占比重 ,稱為貢獻(xiàn)率 ,因為,第一主成分的方差最大,其
12、貢獻(xiàn)率也最大,說明它綜合原來P個指標(biāo)的信息的能力最強(qiáng) ,其它主成分依次漸弱。piii1 2)累積貢獻(xiàn)率累積貢獻(xiàn)率:前k個主成分共有多大的綜合能力,用這k個主成分的方差和在全部方差中所占比重來描述,稱為累積貢獻(xiàn)率。piikii11 我們進(jìn)行主成分分析的目的之一是希望用盡可能少的主成分F1,F(xiàn)2,F(xiàn)k(kp)代替原來的P個指標(biāo)。到底應(yīng)該選擇多少個主成分,在實際工作中,主成分個數(shù)的多少取決于能夠反映原來變量80%以上的信息量為依據(jù),即當(dāng)累積貢獻(xiàn)率累積貢獻(xiàn)率80%80%時的主成分的個數(shù)時的主成分的個數(shù)就足夠了就足夠了。最常見的情況是主成分為2到3個。pmmj, 2 , 1111121122122221
13、2ppppppppxuuuFxuuuFxuuuFXUFXUF ppjjjjxuxuxuF22111122(,)(,)ijiiippjijjCov x FCov u Fu Fu FFuijijjijijjiuuFx),( 可見, 和 的相關(guān)的密切程度取決于對應(yīng)線性組合系數(shù)的大小。ixjF 前面我們討論了主成分的貢獻(xiàn)率和累計貢獻(xiàn)率,它度量了度量了F F1 1,F(xiàn) F2 2,F(xiàn) Fm m分別從原始變量分別從原始變量X X1 1,X X2 2,XXP P中提取了多少信息。中提取了多少信息。那么那么X X1 1,X X2 2,XXP P各有多少信息各有多少信息分別被分別被F F1 1,F(xiàn) F2 2,F(xiàn)
14、Fm m提取了提取了。應(yīng)該用什么指標(biāo)來度量?我們考慮到當(dāng)討論F1分別與X1,X2,XP的關(guān)系時,可以討論F1分別與X1,X2,XP的相關(guān)系數(shù),但是由于相關(guān)系數(shù)有正有負(fù),所以只有考慮相關(guān)系數(shù)的平方。1122( )()iiiippVar xVar u Fu Fu F222221 122iiimmippiuuuu則jiju 222/ijiju 如果我們僅僅提出了m個主成分,則第i 原始變量信息的被提取率為:mjijmjiijjiu12122/是Fj 能說明的第i 個原始變量的方差是Fj 提取的第i 個原始變量信息的比重 例例 :設(shè) 的協(xié)方差矩陣為 321,xxx200052021 解得特征根為 ,
15、,83. 51 00. 22 17. 03 ,000. 0924. 0383. 01U1002U000. 0383. 0924. 03U 第一個主成分的貢獻(xiàn)率為5.83/(5.83+2.00+0.17)=72.875%,盡管第一個主成分的貢獻(xiàn)率并不小,但在本題中第一主成分不含第三個原始變量的信息,所以應(yīng)該取兩個主成分。Xi與F1的相關(guān)系數(shù)平方Xi與F2的相關(guān)系數(shù)平方信息提取率xi10.9250.855000.8552-0.9980.996000.99630011011),(iiFx 21 i 22i 22),(iiFxi 925. 01383. 0*83. 52111111 u998. 05)
16、924. 0(*22221112 u013 定義定義:如果一個主成分僅僅對某一個原始變量有作用,則稱為特殊成分。如果一個主成分所有的原始變量都起作用稱為公共成分。(該題無公共因子)5 5 主成分分析的步驟主成分分析的步驟 在實際問題中,X的協(xié)方差陣通常是未知的,樣品有 則樣本協(xié)差陣為: )21(21nlxxxpllll,Xppjjlnliilxxxxxn)(111 第一步:由X的協(xié)方差陣x,求出其特征根,即解方程 ,可得特征根 。021p 一、基于協(xié)方差矩陣0I 第二步:求出特征根分別對應(yīng)的特征向量U1,U2,Up, piiiuuu,21iU第三步:計算累積貢獻(xiàn)率,給出恰當(dāng)?shù)闹鞒煞謧€數(shù)。)(2
17、1pkkiF,XUii 第四步:綜合評價。計算所選出的k個主成分的得分。將原始數(shù)據(jù)代入前k個主成分的表達(dá)式,分別計算出各單位k個主成分的得分,以方差貢獻(xiàn)率為權(quán)數(shù),求得k個主成分的得分的加權(quán)平均數(shù),并按得分值的大小排隊評價。 二、基于相關(guān)系數(shù)矩陣 如果變量有不同的量綱,則必須基于相關(guān)系數(shù)矩陣進(jìn)行主成分分析。不同的是計算得分時應(yīng)采用標(biāo)準(zhǔn)化后的數(shù)據(jù)。 例一例一 應(yīng)收賬款是指企業(yè)因?qū)ν怃N售產(chǎn)品、材料、提供勞務(wù)及其它原因,應(yīng)向購貨單位或接受勞務(wù)的單位收取的款項,包括應(yīng)收銷貨款、其它應(yīng)收款和應(yīng)收票據(jù)等。出于擴(kuò)大銷售的競爭需要,企業(yè)不得不以賒銷或其它優(yōu)惠的方式招攬顧客,由于銷售和收款的時間差,于是產(chǎn)生了應(yīng)收
18、款項。應(yīng)收款賒銷的效果的好壞,不僅依賴于企業(yè)的信用政策,還依賴于顧客的信用程度。由此,評價顧客的信用等級,了解顧客的綜合信用程度,做到“知己知彼,百戰(zhàn)不殆”,對加強(qiáng)企業(yè)的應(yīng)收賬款管理大有幫助。某企業(yè)為了了解其客戶的信用程度,采用西方銀行信用評估常用的5C方法,5C的目的是說明顧客違約的可能性。 1、品格(用X1表示),指顧客的信譽(yù),履行償還義務(wù)的可能性。企業(yè)可以通過過去的付款記錄得到此項。 2、能力(用X2表示),指顧客的償還能力。即其流動資產(chǎn)的數(shù)量和質(zhì)量以及流動負(fù)載的比率。顧客的流動資產(chǎn)越多,其轉(zhuǎn)化為現(xiàn)金支付款項的能力越強(qiáng)。同時,還應(yīng)注意顧客流動資產(chǎn)的質(zhì)量,看其是否會出現(xiàn)存貨過多過時質(zhì)量下降
19、,影響其變現(xiàn)能力和支付能力。 3、資本(用X3表示),指顧客的財務(wù)實力和財務(wù)狀況,表明顧客可能償還債務(wù)的背景。 4、附帶的擔(dān)保品(用X4表示),指借款人以容易出售的資產(chǎn)做抵押。 5 5、環(huán)境條件(用X5表示),指企業(yè)的外部因素,即指非企業(yè)本身能控制或操縱的因素。 首先抽取了10家具有可比性的同類企業(yè)作為樣本,又請8位專家分別給10個企業(yè)的5個指標(biāo)打分,然后分別計算企業(yè)5個指標(biāo)的平均值,如表。 76.581.57675.871.78579.280.384.476.570.67367.668.178.5949487.589.59290.787.39181.58084.666.968.864.866
20、.477.573.670.969.874.857.760.457.460.86585.668.57062.276.57069.271.764.968.9; Total Variance = 485.31477778 Eigenvalues of the Covariance Matrix Eigenvalue Proportion Cumulative PRIN1 410.506 0.845854 0.84585 PRIN2 43.264 0.089146 0.93500 PRIN3 20.670 0.042591 0.97759 PRIN4 8.071 0.016630 0.99422 PR
21、IN5 2.805 0.005779 1.00000 Eigenvectors PRIN1 PRIN2 PRIN3 PRIN4 PRIN5 X1 0.468814 -.830612 0.021406 0.254654 -.158081 X2 0.484876 0.329916 0.014801 -.287720 -.757000 X3 0.472744 -.021174 -.412719 -.588582 0.509213 X4 0.461747 0.430904 -.240845 0.706283 0.210403 X5 0.329259 0.122930 0.878054 -.084286
22、 0.313677 第一主成份的貢獻(xiàn)率為84.6%,第一主成份 Z1=0.469X1+0.485X2+0.473X3+0.462X4+0.329X5 的各項系數(shù)大致相等,且均為正數(shù),說明第一主成份對所有的信用評價指標(biāo)都有近似的載荷,是對所有指標(biāo)的一個綜合測度,可以作為綜合的信用等級指標(biāo)??梢杂脕砼判颉⒃紨?shù)據(jù)的值標(biāo)準(zhǔn)化后,代入第一主成份Z1的表示式,計算各企業(yè)的得分,并按分值大小排序: 在正確評估了顧客的信用等級后,就能正確制定出信用期、收帳政策等,這對于加強(qiáng)應(yīng)收帳款的管理大有幫助。序號序號1 12 23 34 45 56 67 78 89 91010得分得分3.163.1613.613.6
23、- -9.019.0135.935.925.125.1-10.3-10.3- -4.364.36-33.8-33.8- -6.416.41-13.8-13.8排序排序4 43 37 71 12 28 85 510106 69 9 根據(jù)主成分分析的定義及性質(zhì),我們已大體上能看出主成分分析的一些應(yīng)用。概括起來說,主成分分析主要有以下幾方面的應(yīng)用。 1主成分分析能降低所研究的數(shù)據(jù)空間的維主成分分析能降低所研究的數(shù)據(jù)空間的維數(shù)數(shù)。即用研究m維的Y空間代替p維的X空間(mp),而低維的Y空間代替高維的x空間所損失的信息很少。即使只有一個主成分Yl(即 m1)時,這個Yl仍是使用全部X變量(p個)得到的。
24、例如要計算Yl的均值也得使用全部x的均值。6 主成分分析主要有以下幾方面的應(yīng)用 2有時可通過因子負(fù)荷aij的結(jié)構(gòu),弄清X變量間的某些關(guān)系。 3. 多維數(shù)據(jù)的一種圖形表示方法。我們知道當(dāng)維數(shù)大于3時便不能畫出幾何圖形,多元統(tǒng)計研究的問題大都多于3個變量。要把研究的問題用圖形表示出來是不可能的。然而,經(jīng)過主成分分析后,我們可以選取前兩個主成分,根據(jù)主成分的得分,畫出n個樣品在二維平面上的分布況,由圖形可直觀地看出各樣品在主分量中的地位。 4由主成分分析法構(gòu)造回歸模型。即把各主成分作為新自變量代替原來自變量x做回歸分析。 5用主成分分析篩選回歸變量?;貧w變量的選擇有著重要的實際意義,為了使模型本身易
25、于做結(jié)構(gòu)分析、控制和預(yù)報,好從原始變量所構(gòu)成的子集合中選擇最佳變量,構(gòu)成最佳變量集合。用主成分分析篩選變量,可以用較少的計算量來選擇量,獲得選擇最佳變量子集合的效果。主成分回歸介紹主成分回歸介紹 國際旅游外匯收入是國民收入是國民經(jīng)濟(jì)國際旅游外匯收入是國民收入是國民經(jīng)濟(jì)發(fā)展的重要組成部分,影響一個國家或地區(qū)旅發(fā)展的重要組成部分,影響一個國家或地區(qū)旅游收入的因素包括自然、文化、社會、經(jīng)濟(jì)、游收入的因素包括自然、文化、社會、經(jīng)濟(jì)、交通等多方面的因素。交通等多方面的因素。中國統(tǒng)計年鑒中國統(tǒng)計年鑒把第把第三次產(chǎn)業(yè)劃分為三次產(chǎn)業(yè)劃分為12個組成部分,分別為:個組成部分,分別為: 一、提出問題一、提出問題x
26、1:農(nóng)林牧漁服務(wù)業(yè):農(nóng)林牧漁服務(wù)業(yè) x2:地質(zhì)勘查水利管理業(yè):地質(zhì)勘查水利管理業(yè)x3:交通運輸倉儲和郵電通訊業(yè):交通運輸倉儲和郵電通訊業(yè) x4:批發(fā)零售貿(mào)易和餐食業(yè):批發(fā)零售貿(mào)易和餐食業(yè)x5:金融保險業(yè):金融保險業(yè) x6:房地產(chǎn)業(yè):房地產(chǎn)業(yè) x7:社會服務(wù)業(yè):社會服務(wù)業(yè) x8:衛(wèi)生體育和社會福利業(yè):衛(wèi)生體育和社會福利業(yè) x9:教育文藝和廣播:教育文藝和廣播 x10:科學(xué)研究和綜合藝術(shù):科學(xué)研究和綜合藝術(shù)x11:黨政機(jī)關(guān):黨政機(jī)關(guān) x12:其他行業(yè):其他行業(yè) 選自選自1998年我國年我國31個省、市、自治區(qū)的數(shù)據(jù)。以旅游外匯個省、市、自治區(qū)的數(shù)據(jù)。以旅游外匯收入(百萬美圓)為因變量。自變量的單位
27、為億元人民幣。數(shù)收入(百萬美圓)為因變量。自變量的單位為億元人民幣。數(shù)據(jù)略。據(jù)略。 InterceptCoefficients -205.236116.8459-1.75646 0.096008 標(biāo)準(zhǔn)誤差t StatP-valueX Variable 1-1.4004522.8676-0.061240.951842X Variable 22.67500118.575080.144010.887092X Variable 33.3008772.4645561.3393390.197128X Variable 4-0.944021.296117-0.728340.475774X Variable
28、5-5.50164.508593-1.220250.238117X Variable 64.0544343.9537451.0254670.318728X Variable 74.1425.0699840.816965 0.42463X Variable 8-15.364910.82589-1.419270.172905X Variable 917.367668.353372.0791210.052178X Variable 109.07888310.147280.894711 0.38275X Variable 11-10.585.610696-1.885690.075582X Variab
29、le 121.3507095.0015040.270060.790186 這個模型是不理想的,一個最嚴(yán)重的問題是多重共線性的問題。線性回歸模型的方差分析表方差來源自由度離差平方和方差F統(tǒng)計量顯著性水平回歸分析1211690140 974178.3 10.51335 8.15025E-06 殘差181667899 92661.04 總計3113358039 利用主成分的互不相關(guān)性來建立因變量與主成分的回歸,在理論上可以達(dá)到消除多重共線性。 二、主成分回歸方法二、主成分回歸方法ppppppppppXuXuXuFXuXuXuFXuXuXuF22112222112212211111*1112121im
30、miYFFF主成分回歸:min212211niimimiiiFFFYppppppuuuuuuuuu212222111211),(p1uuU111212122212ppnnnpxxxxxxxxx0X原始數(shù)據(jù)觀測矩陣主成分系數(shù)矩陣npnnppFFFFFFFFF212222111211FUXF0主成分得分矩陣 根據(jù)最小二乘估計,則1(F F) F YYFF)F(1YXUU)XX(U1000U*U*同理*1*(F F ) F Y基于協(xié)方差矩陣的主成分回歸基于相關(guān)系數(shù)矩陣的主成分回歸YXUU)XXU1000(主成分回歸系數(shù)的協(xié)方差矩陣 ( )VarVarU ( )Var UU2100()U X XU21
31、00() U X X U21()FF*2*1 ()()VarF F同理1、經(jīng)濟(jì)分析數(shù)據(jù) Y:進(jìn)口總額 X1:GDP X2:積累總額 X3:消費總額 求進(jìn)口總額與GDP、積累總額和消費總額之間的回歸方程。 三、主成分回歸的實例data a;input x1-x3 y;cards;149.3 4.2 108.1 15.9161.2 4.1 114.8 16.4171.5 3.1 123.2 19.0175.5 3.1 126.9 19.1180.8 1.1 132.1 18.8190.7 2.2 137.7 20.4202.1 2.1 146.0 22.7212.4 5.6 154.1 26.52
32、26.1 5.0 162.3 28.1231.9 5.1 164.3 27.6239.0 0.7 167.6 26.3;proc reg outest=b;model y=x1-x3/pcomit=1,2 outvif;proc print data=b;proc standard data=a out=c mean=0 std=1;var x1-x3 y;proc princomp data=c out=d prefix=z;var x1-x3;proc reg data=d;model y=z1 z2/noint;run;Analysis of Variance Sum of Mean S
33、ource DF Squares Square F Value Pr F Model 3 204.77614 68.25871 285.61 |t| Intercept 1 -10.12799 1.21216 -8.36 F Model 2 9.88278 4.94139 379.38 |t| F1 1 0.68998 0.02552 27.03 F Model 6 498504 83084 47.22 |t| Intercept 1 386505 122516 3.15 0.0116 x1 1 13.71162 11.68424 1.17 0.2707 x2 1 0.00846 0.0046
34、1 1.84 0.0995 x3 1 0.09405 0.06720 1.40 0.1952 x4 1 0.20562 0.02948 6.97 .0001 x5 1 -0.00435 0.03111 -0.14 0.8918 x6 1 -199.20213 62.67100 -3.18 0.0112 淺談時序立體數(shù)據(jù)的主成分分析 前面介紹的主成分分析方法,成功地實現(xiàn)了截面數(shù)據(jù)的最佳綜合和簡化。然而,在現(xiàn)實生活中,隨著時間的發(fā)展與數(shù)據(jù)的積累,人們開始擁有大量按時間順序排列的平面數(shù)據(jù)表序列,這樣一組按時間順序排放的數(shù)據(jù)表序列就像一個數(shù)據(jù)匣,被稱為時序立體數(shù)據(jù)表。 本章將介紹如何對這種多維動態(tài)數(shù)據(jù)
35、系統(tǒng)進(jìn)行立體式的綜合簡化,并在此基礎(chǔ)上,迅速提取立體數(shù)據(jù)表中的重要信息,充分發(fā)掘其中的豐富內(nèi)涵,從而簡化扼要地把握系統(tǒng)的動態(tài)規(guī)律。 第一節(jié) 全局分析的概念 時序立體數(shù)據(jù)表時一個按時間順序排放的數(shù)據(jù)表序列。如果對每一張數(shù)據(jù)表分別進(jìn)行主成分分析,則不同的數(shù)據(jù)表有完全不同的簡化空間,就無法保證系統(tǒng)分析的統(tǒng)一性、整體性和可比性。因此,對這種數(shù)據(jù)表進(jìn)行主成分分析,得到一個統(tǒng)一的簡化子空間。 一、 全局概念 假設(shè)有 個樣本, 個指標(biāo),時間的跨度為 。時序立體數(shù)據(jù)表 ,npTKTtRKpn,2 , 1,tX 若以 為變量的指標(biāo),在 時刻數(shù)據(jù)表中nxxx,21ttXtntttnptntntptttptteee
36、xxxxxxxxx21112222111211Tt, 2 , 1對上列數(shù)據(jù)的分析稱為全局分析。二、 全局變量 全局群點在j指標(biāo)上的取值分布被稱為全局變量,表示為 nTTnjTjnjjnjjjxxxxxxx11221111三、全局重心 全局?jǐn)?shù)據(jù)表的重心為 列向量)(21pxxxgTtnitijtijxpx11其中: 權(quán)數(shù)應(yīng)該根據(jù)不同時刻的重要性來決定,也可以等權(quán),等權(quán)時,均值為: 時刻t的數(shù)據(jù)表重心為 ttptttxxx21gnxxnitijtj/1TnxxTtnitijj/11四、全局方差全局變量的方差 :TtnijtijtijxxpxVARV112)()(五、全局協(xié)方差全局變量的協(xié)方差為:T
37、tknitikjtijtijkijxxxxpxxCovs11)(),(全局協(xié)方差矩陣:ppjksV)(第二節(jié)第二節(jié) 全局主成分分析全局主成分分析 一、全局主成分分析的步驟為(1) 求全局相關(guān)系數(shù)矩陣 ppjkR)(p,21ppjkR)(021p (2)求 的特征根不妨假設(shè) 和對應(yīng)的特征向量:ppppppuuuuuuuuu212222111211),(p1uuUpiiiuuu,21iU 第三節(jié) 對經(jīng)典主成分分析的繼承性 一、全局主成分一定對應(yīng)于數(shù)據(jù)變易最大的方向)()()(21mFVarFVarFVar 二、全局主成分是對原始變量系統(tǒng)的最佳綜合 在全局主成分分析中,還可以證明,若全局?jǐn)?shù)據(jù)表種有p
38、個變量 ,如果想以一個綜合變量來取代原來所有的全局變量 ,則第一個主成分F1就是最好的選擇。pxxx,21pxxx,21111212112111112),(niiipiiipiiuuFxmmhpiiimhpiiimhpiiuuFx 111121211121111112),(這個結(jié)論可以推廣到m維空間:三、全局分析與單張數(shù)據(jù)表分析的聯(lián)系 設(shè)j(j=1,2,m)是全局特征值為全局特征向量ppppppuuuuuuuuu212222111211),(p1uuU (j=1,2,m)是第t時刻的數(shù)據(jù)表所計算的特征值tj時刻數(shù)據(jù)表特征向量為tuuuuuuuuutpptptptptttptttptt11222
39、21112111),(uuU TtpjTththtjhtjhgPgPTuuT11122)()(1),(1 TtpjTtttjtjgPgPTuuT111211121)()(1),(1max),(111121 TtpjtjtjuuT 上式反映了全局第h個主成分與單張數(shù)據(jù)表個主成分之間的數(shù)量關(guān)系。特別當(dāng)h=1時: 因此,如果各年數(shù)據(jù)表的重心在第一主成分上的投影不發(fā)生改變,則 說明,第一主成分與單張數(shù)據(jù)表的主成分之間最相關(guān)。 第四節(jié) 精度分析 一、 全局精度 以數(shù)據(jù)變異的大小來恒量數(shù)據(jù)中的信息量全局精度pjjmiimSQ121pQmiim1如果變量已經(jīng)被標(biāo)準(zhǔn)化,則精度為: 二、數(shù)據(jù)表Xt的表現(xiàn)精度 數(shù)
40、據(jù)表Xt的表現(xiàn)精度是指群點在全局主成分上的近似精度。令 是第t張表中的第i個樣本在全局第h個主成分的得分。nihhthttFitFnVF12)(),(1中的方差表中在全局主成分結(jié)構(gòu)nittin12)()(1hhuggugenittin12)(1hugehthuVuniNtI, 2 , 1,tie),( itFhpjjtjmhhthtSSq121)/(uVu212)()(1)(jtjnitjtijtjSSxExnxVar方差為:jjtijtijSxxx標(biāo)準(zhǔn)化原始數(shù)據(jù)利用全局指標(biāo)21212)(11jtjnijtjtijnijjtjjjtijSSSxxnSxxSxxn第五節(jié) 數(shù)據(jù)主要特征的動態(tài)分析
41、為了迅速把握多維動態(tài)數(shù)據(jù)群種的主要信息,還應(yīng)該對數(shù)據(jù)系統(tǒng)的主要特征進(jìn)行動態(tài)分析研究。 數(shù)據(jù)群點有如下特征: (1) 的總體水平tINTtgt,2, 1, (2) 的主軸tINTtpjtj, 2 , 1, 2 , 1,u (3) 的主軸 上 的分布偏差tINTtpjtj, 2 , 1, 2 , 1,untpjtj, 2 , 1;, 2 , 1, (4) 中各樣本點間的相對位置和排列順序。tIN 一、總體水平 第t年數(shù)據(jù)群點 的總體水平為 ??梢詮娜齻€方面研究其動態(tài)數(shù)據(jù)信息。tINTtRpt, 2 , 1,g (1) 的時序軌跡tg,g,g21 (2) 對于1一p個變量指標(biāo),研究哪一個指標(biāo)在1一T
42、年間發(fā)生 的變化最大。 首先,j指標(biāo)在1一T年間的變化可以用aj表示,有21)(1jTttjjxxTa分量。的是全局重心jxpxTtniijtijg11 所有指標(biāo)在1T年的變化為a表示,有 TtjpjtjjxxTpa121)(1aacjjpj, 2 , 1 使cj最大的指標(biāo)xj,在1T年發(fā)生的變化最大,在經(jīng)濟(jì)系統(tǒng)分析中,過大過小的cj都應(yīng)是分析人員關(guān)注的對象。(3) 從1T年,研究在哪一年 發(fā)生了較大的變化。這是比值,比cj更加深入的分析。tjx1121211)(11)(TttjtjtjtjtjxxTxxc 則說明j指標(biāo)在tt+1年間的變化比其它年間更大。1tjc 二、主軸thu 對第t年的數(shù)
43、據(jù)表xt做平面主成分分析,可以得到一組主軸 ,對應(yīng)的有特征值 ,分析 是如何隨時間變化的,可以了解數(shù)據(jù)的主要特征發(fā)展變化的歷史過程。ph, 2 , 1,thuphth, 2 , 1,thu 從前面的分析可以知道, 是第t年數(shù)據(jù)變異最大的方向,數(shù)據(jù)在這個方向被拉得最長。如果研究國民生活水平的話,則在這一方向人們生活水平的差距最大,所以, 是最能反映國民生活水平的主要特征。與 對應(yīng)的是主成分 。 數(shù)據(jù)的主要特征隨時間的發(fā)展會發(fā)生變化,這個變化可以通過 的變化過程來觀察。特別對于第一、第二主軸(即h1,2),以及后續(xù)含數(shù)據(jù)信息量較大的那些主軸,更應(yīng)給予重點研究。t1ut1utF1Th2h1hu,u,
44、utF1 三、方差 的變化 在數(shù)據(jù)表由x1,x2,xT的變化過程中,除了需要研究數(shù)據(jù) 的主要特征隨時間的變化以外,還要分析數(shù)據(jù)在主軸上的分布方差是否發(fā)生了較大的變化。 分別從以下三個指標(biāo)來觀察數(shù)據(jù)在主軸散布范圍發(fā)生的變化。tj (1)在h軸上,數(shù)據(jù)的分散程度的差分ththth11 (2)比較在t+1年,哪個主軸 的散布范圍較大1thupjthththpL11111 (3)比較1T年間,哪個主軸的分散范圍較大 111111111TtpjthTtththpL四、樣本點間相對位置和排列順序的變化 隨著時間的發(fā)展,群點 在某一方向上的相對位置和排列 順序也會發(fā)生變化。例如,改革開放以來,我國沿海城市經(jīng)
45、濟(jì)發(fā)展速度較其他地區(qū)的城市要快,特別在對外貿(mào)易方面,其發(fā)展更為顯著。如果第一主軸反映了城市經(jīng)濟(jì)的綜合實力,則在這個軸上可以看出,在不同的年份上,各城市由于發(fā)展速度不一,因此,相對位置和順序都有變化,沿海城市的經(jīng)濟(jì)實力顯然日趨向前。 tIN 如何反映樣本點間位置和順序的變化呢?有一個要點必須注意,這就是必須在同一的軸上比較樣本點的位置和順序,因此,取全局主成分分析的第h主軸 ,它對所有時刻的數(shù)據(jù)表都是同一的。 在其上的投影為 hutiehTiug)(e ),( itFh1、 在 上的投影坐標(biāo)是否有明顯移動tiehu),(),2 ,(),1 ,()(ntFtFtFtFhhhhTthiitFTb1)
46、,(1 niTtihTtihibitFnTbitFTB11212),(1/),(1的位移是否顯著。年間表示), 2 , 1(1niTBiie2、樣本點排列順序的改變),(),2 ,(),1 ,()(ntFtFtFtFhhhh 下例是我國1998年和1999年城鎮(zhèn)居民分地區(qū)的消費支出資料:X1: 食品支出X2:衣著支出X3:家庭設(shè)備用品及服務(wù)支出X4:醫(yī)療保健支出X5:交通和通訊支出X6:娛樂教育文化支出X7:居住支出X8:雜項商品支出 進(jìn)行主成分分析,并比較全局主成分分析和單張數(shù)據(jù)表主成分分析的結(jié)果。 Eigenvalues of the Correlation Matrix (全局主成分特征
47、根) Eigenvalue Difference Proportion Cumulative A1 6.99125 6.44329 0.873906 0.87391 A2 0.54796 0.39531 0.068495 0.94240 A3 0.15266 0.03019 0.019082 0.96148 A4 0.12247 0.03972 0.015309 0.97679 A5 0.08275 0.02042 0.010344 0.98714 A6 0.06233 0.02190 0.007792 0.99493 A7 0.04044 0.04030 0.005055 0.99998 A
48、8 0.00014 . 0.000018 1.00000 全局主成分特征向量全局主成分特征向量 A1 A2 A3 A4 A5 A6 A7 A8 X1 0.374493 -.172257 0.030143 0.136213 0.076849 0.062345 0.005073 -.894875 X2 0.346007 -.445411 0.024956 0.532852 0.438070 0.136731 -.241623 0.358262 X3 0.311984 0.710728 0.411674 0.164345 0.360232 -.055544 0.253882 0.061138 X4
49、0.362343 -.194425 0.293868 0.105955 -.623604 0.310654 0.461967 0.185796 X5 0.360705 -.096981 0.484438 -.536079 -.081534 -.154719 -.548523 0.083447 X6 0.345751 0.425463 -.516114 -.016448 -.203576 0.488600 -.386444 0.057272 X7 0.364743 0.060889 -.332168 0.215494 -.291244 -.784080 0.002187 0.082907 X8
50、0.358775 -.186733 -.362278 -.570254 0.388105 0.019425 0.462062 0.124385 Eigenvalues of the Correlation Matrix98年數(shù)據(jù)表的主成分分析 Eigenvalue Difference Proportion Cumulative B1 7.10592 6.58949 0.888240 0.88824 B2 0.51643 0.39198 0.064553 0.95279 B3 0.12444 0.02430 0.015555 0.96835 B4 0.10014 0.02320 0.01251
51、7 0.98087 B5 0.07694 0.02031 0.009617 0.99048 B6 0.05662 0.03721 0.007078 0.99756 B7 0.01942 0.01932 0.002427 0.99999 B8 0.00010 . 0.000012 1.00000 Eigenvectors98年數(shù)據(jù)表的主成分分析 B1 B2 B3 B4 B5 B6 B7 B8 X1 0.372150 -.159966 -.071551 -.057458 0.102394 0.118105 -.006808 -.896111 X2 0.349028 -.418593 -.33500
52、8 -.152609 0.517027 0.310746 0.279572 0.354117 X3 0.312789 0.729505 0.271016 -.034411 0.496477 0.150524 -.151145 0.057958 X4 0.365701 -.120455 0.051476 -.389966 -.416759 0.320595 -.618933 0.193606 X5 0.361312 -.092321 0.626102 -.266618 -.242140 -.169833 0.551419 0.079394 X6 0.347155 0.403651 -.47991
53、2 0.280454 -.487565 0.195188 0.358038 0.059746 X7 0.364365 0.038843 -.325100 -.154922 0.069968 -.833079 -.175368 0.079806 X8 0.352541 -.282022 0.280252 0.803997 0.027822 -.055566 -.229918 0.120426 Eigenvalues of the Correlation Matrix(99年數(shù)據(jù)表的主成分分析) Eigenvalue Difference Proportion Cumulative C1 6.94378 6.34070 0.867973 0.86797 C2 0.60308 0.44301 0.075385 0.94336 C3 0.16008 0.04235 0.020010 0.96337 C4 0.11773 0.02925 0.014716 0.97808 C5 0.08848 0.03556 0.011061 0.98914 C6 0.05292 0.01915 0.006615 0.99576 C7 0.03377 0.03361 0.004221 0.99998 C8 0.00015 . 0.000019 1
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 技術(shù)要領(lǐng):數(shù)據(jù)庫優(yōu)化方法探討
- 2026年英語聽力與口語表達(dá)能力進(jìn)階測試題
- 2026年工業(yè)產(chǎn)品設(shè)計及創(chuàng)新應(yīng)用測試題
- 2026年網(wǎng)絡(luò)安全工程師初級練習(xí)題
- 2026年法律常識考試題集及答案解析
- 2026年新型科技公司稅收管理及申報考核練習(xí)題
- 2026年法律行業(yè)高級職業(yè)資格測試題集及答案詳解
- 2026年能源行業(yè)專業(yè)知識筆試題目及答案詳解
- 2026年高精度認(rèn)證金融考前速成資料投資決策技巧試題解析
- 2026年地理常識與地理信息系統(tǒng)試題庫
- 八年級地理上冊《中國的氣候》探究式教學(xué)設(shè)計
- 重慶市2026年高一(上)期末聯(lián)合檢測(康德卷)化學(xué)+答案
- 2026年湖南郴州市百??毓杉瘓F(tuán)有限公司招聘9人備考考試題庫及答案解析
- QC/T 476-2025客車防雨密封性要求及試驗方法
- 2025+CACA子宮內(nèi)膜癌診療指南解讀
- 2022變壓器油枕技術(shù)培訓(xùn)
- 電力工程施工規(guī)范
- 配套課件-《中文版AutoCAD-2017基礎(chǔ)教程》
- DL∕T 1522-2016 發(fā)電機(jī)定子繞組內(nèi)冷水系統(tǒng)水流量 超聲波測量方法及評定導(dǎo)則
- 意識障礙的判斷及護(hù)理
- DZ∕T 0213-2020 礦產(chǎn)地質(zhì)勘查規(guī)范 石灰?guī)r、水泥配料類(正式版)
評論
0/150
提交評論