系統(tǒng)工程第5講系統(tǒng)模型化之主成份分析_第1頁(yè)
系統(tǒng)工程第5講系統(tǒng)模型化之主成份分析_第2頁(yè)
系統(tǒng)工程第5講系統(tǒng)模型化之主成份分析_第3頁(yè)
系統(tǒng)工程第5講系統(tǒng)模型化之主成份分析_第4頁(yè)
系統(tǒng)工程第5講系統(tǒng)模型化之主成份分析_第5頁(yè)
已閱讀5頁(yè),還剩99頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1第五講

主成份分析法

(PrincipalComponentAnalysis,PCA)主成分概念首先由KarlParson在1901年引進(jìn),當(dāng)時(shí)只對(duì)非隨機(jī)變量來(lái)討論的。1933年Hotelling將這個(gè)概念推廣到隨機(jī)變量。在多數(shù)實(shí)際問(wèn)題中,不同指標(biāo)之間是有一定相關(guān)性。由于指標(biāo)較多及指標(biāo)間有一定的相關(guān)性,勢(shì)必增加分析問(wèn)題的復(fù)雜性。主成分分析就是設(shè)法將原來(lái)指標(biāo)重新組合成一組新的互相無(wú)關(guān)的幾個(gè)綜合指標(biāo)來(lái)代替原來(lái)指標(biāo)。同時(shí)根據(jù)實(shí)際需要從中可取幾個(gè)較少的綜合指標(biāo)盡可能多地反映原來(lái)的指標(biāo)的信息。一項(xiàng)十分著名的工作是美國(guó)的統(tǒng)計(jì)學(xué)家斯通(stone)在1947年關(guān)于國(guó)民經(jīng)濟(jì)的研究。他曾利用美國(guó)1929一1938年各年的數(shù)據(jù),得到了17個(gè)反映國(guó)民收入與支出的變量要素,例如雇主補(bǔ)貼、消費(fèi)資料和生產(chǎn)資料、純公共支出、凈增庫(kù)存、股息、利息外貿(mào)平衡等等?!?

基本思想在進(jìn)行主成分分析后,竟以97.4%的精度,用三新變量就取代了原17個(gè)變量。根據(jù)經(jīng)濟(jì)學(xué)知識(shí),斯通給這三個(gè)新變量分別命名為總收入F1、總收入變化率F2和經(jīng)濟(jì)發(fā)展或衰退的趨勢(shì)F3。更有意思的是,這三個(gè)變量其實(shí)都是可以直接測(cè)量的。問(wèn)題:企業(yè)信用度評(píng)估應(yīng)收賬款是指企業(yè)因?qū)ν怃N售產(chǎn)品、材料、提供勞務(wù)及其它原因,應(yīng)向購(gòu)貨單位或接受勞務(wù)的單位收取的款項(xiàng),包括應(yīng)收銷貨款、其它應(yīng)收款和應(yīng)收票據(jù)等。出于擴(kuò)大銷售的競(jìng)爭(zhēng)需要,企業(yè)不得不以賒銷或其它優(yōu)惠的方式招攬顧客,由于銷售和收款的時(shí)間差,于是產(chǎn)生了應(yīng)收款項(xiàng)。應(yīng)收款賒銷的效果的好壞,不僅依賴于企業(yè)的信用政策,還依賴于顧客的信用程度。由此,評(píng)價(jià)顧客的信用等級(jí),了解顧客的綜合信用程度,做到“知己知彼,百戰(zhàn)不殆”,對(duì)加強(qiáng)企業(yè)的應(yīng)收賬款管理大有幫助。某企業(yè)為了解其客戶的信用程度,采用西方銀行信用評(píng)估常用的5C方法,5C的目的是說(shuō)明顧客違約的可能性。

1、品格(用X1表示),指顧客的信譽(yù),履行償還義務(wù)的可能性。企業(yè)可以通過(guò)過(guò)去的付款記錄得到此項(xiàng)。

2、能力(用X2表示),指顧客的償還能力。即其流動(dòng)資產(chǎn)的數(shù)量和質(zhì)量以及流動(dòng)負(fù)載的比率。顧客的流動(dòng)資產(chǎn)越多,其轉(zhuǎn)化為現(xiàn)金支付款項(xiàng)的能力越強(qiáng)。同時(shí),還應(yīng)注意顧客流動(dòng)資產(chǎn)的質(zhì)量,看其是否會(huì)出現(xiàn)存貨過(guò)多過(guò)時(shí)質(zhì)量下降,影響其變現(xiàn)能力和支付能力。

3、資本(用X3表示),指顧客的財(cái)務(wù)勢(shì)力和財(cái)務(wù)狀況,表明顧客可能償還債務(wù)的背景。

4、附帶的擔(dān)保品(用X4表示),指借款人以容易出售的資產(chǎn)做抵押。

5、環(huán)境條件(用X5表示),指企業(yè)的外部因素,即指非企業(yè)本身能控制或操縱的因素。

首先并抽取了10家具有可比性的同類企業(yè)作為樣本,又請(qǐng)8位專家分別給10個(gè)企業(yè)的5個(gè)指標(biāo)打分,然后分別計(jì)算企業(yè)5個(gè)指標(biāo)的平均值,如表。

76.581.57675.871.78579.280.384.476.570.67367.668.178.5949487.589.59290.787.39181.58084.666.968.864.866.477.573.670.969.874.857.760.457.460.86585.668.57062.276.57069.271.764.968.9;主成分分析是把各變量之間互相關(guān)聯(lián)的復(fù)雜關(guān)系進(jìn)行簡(jiǎn)化分析的方法。在社會(huì)經(jīng)濟(jì)的研究中,為了全面系統(tǒng)的分析和研究問(wèn)題,必須考慮許多經(jīng)濟(jì)指標(biāo),這些指標(biāo)能從不同的側(cè)面反映我們所研究的對(duì)象的特征,但在某種程度上存在信息的重疊,具有一定的相關(guān)性。

主成分分析試圖在力保數(shù)據(jù)信息丟失最少的原則下,對(duì)這種多變量的截面數(shù)據(jù)表進(jìn)行最佳綜合簡(jiǎn)化,也就是說(shuō),對(duì)高維變量空間進(jìn)行降維處理。很顯然,識(shí)辨系統(tǒng)在一個(gè)低維空間要比在一個(gè)高維空間容易得多。

(1)基于相關(guān)系數(shù)矩陣還是基于協(xié)方差矩陣做主成分分析。當(dāng)分析中所選擇的經(jīng)濟(jì)變量具有不同的量綱,變量水平差異很大,應(yīng)該選擇基于相關(guān)系數(shù)矩陣的主成分分析。在力求數(shù)據(jù)信息丟失最少的原則下,對(duì)高維的變量空間降維,即研究指標(biāo)體系的少數(shù)幾個(gè)線性組合,并且這幾個(gè)線性組合所構(gòu)成的綜合指標(biāo)將盡可能多地保留原來(lái)指標(biāo)變異方面的信息。這些綜合指標(biāo)就稱為主成分。要討論的問(wèn)題是:(2)選擇幾個(gè)主成分。主成分分析的目的是簡(jiǎn)化變量,一般情況下主成分的個(gè)數(shù)應(yīng)該小于原始變量的個(gè)數(shù)。關(guān)于保留幾個(gè)主成分,應(yīng)該權(quán)衡主成分個(gè)數(shù)和保留的信息。(3)如何解釋主成分所包含的經(jīng)濟(jì)意義?!?數(shù)學(xué)模型與幾何解釋假設(shè)我們所討論的實(shí)際問(wèn)題中,有p個(gè)指標(biāo),我們把這p個(gè)指標(biāo)看作p個(gè)隨機(jī)變量,記為X1,X2,…,Xp,主成分分析就是要把這p個(gè)指標(biāo)的問(wèn)題,轉(zhuǎn)變?yōu)橛懻損個(gè)指標(biāo)的線性組合的問(wèn)題,而這些新的指標(biāo)F1,F(xiàn)2,…,F(xiàn)k(k≤p),按照保留主要信息量的原則充分反映原指標(biāo)的信息,并且相互獨(dú)立。這種由討論多個(gè)指標(biāo)降為少數(shù)幾個(gè)綜合指標(biāo)的過(guò)程在數(shù)學(xué)上就叫做降維。主成分分析通常的做法是,尋求原指標(biāo)的線性組合Fi。滿足如下的條件:主成分之間相互獨(dú)立,即無(wú)重疊的信息。即主成分的方差依次遞減,重要性依次遞減,即每個(gè)主成分的系數(shù)平方和為1。即?????????????????????????????????????主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標(biāo)軸?????????????????????????????????????主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標(biāo)軸?????????????????????????????????????主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標(biāo)軸??????????????????????????????????????主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標(biāo)軸???????????????????????????????????????????????????????????????為了方便,我們?cè)诙S空間中討論主成分的幾何意義。設(shè)有n個(gè)樣品,每個(gè)樣品有兩個(gè)觀測(cè)變量xl和x2,在由變量xl和x2

所確定的二維平面中,n個(gè)樣本點(diǎn)所散布的情況如橢圓狀。由圖可以看出這n個(gè)樣本點(diǎn)無(wú)論是沿著xl

軸方向或x2軸方向都具有較大的離散性,其離散的程度可以分別用觀測(cè)變量xl

的方差和x2

的方差定量地表示。顯然,如果只考慮xl和x2

中的任何一個(gè),那么包含在原始數(shù)據(jù)中的經(jīng)濟(jì)信息將會(huì)有較大的損失。

如果我們將xl軸和x2軸先平移,再同時(shí)按逆時(shí)針?lè)较蛐D(zhuǎn)

角度,得到新坐標(biāo)軸Fl和F2。Fl和F2是兩個(gè)新變量。根據(jù)旋轉(zhuǎn)變換的公式:旋轉(zhuǎn)變換的目的是為了使得n個(gè)樣品點(diǎn)在Fl軸方向上的離散程度最大,即Fl的方差最大。變量Fl代表了原始數(shù)據(jù)的絕大部分信息,在研究某經(jīng)濟(jì)問(wèn)題時(shí),即使不考慮變量F2也無(wú)損大局。經(jīng)過(guò)上述旋轉(zhuǎn)變換原始數(shù)據(jù)的大部分信息集中到Fl軸上,對(duì)數(shù)據(jù)中包含的信息起到了濃縮作用。

Fl,F(xiàn)2除了可以對(duì)包含在Xl,X2中的信息起著濃縮作用之外,還具有不相關(guān)的性質(zhì),這就使得在研究復(fù)雜的問(wèn)題時(shí)避免了信息重疊所帶來(lái)的虛假性。二維平面上的個(gè)點(diǎn)的方差大部分都?xì)w結(jié)在Fl軸上,而F2軸上的方差很小。Fl和F2稱為原始變量x1和x2的綜合變量。F簡(jiǎn)化了系統(tǒng)結(jié)構(gòu),抓住了主要矛盾。§3主成分的推導(dǎo)及性質(zhì)

一、兩個(gè)線性代數(shù)的結(jié)論

1、若A是p階實(shí)對(duì)稱陣,則一定可以找到正交陣U,使其中是A的特征根。

2、若上述矩陣的特征根所對(duì)應(yīng)的單位特征向量為

則實(shí)對(duì)稱陣屬于不同特征根所對(duì)應(yīng)的特征向量是正交的,即有令

二、主成分的推導(dǎo)

(一)

第一主成分設(shè)X的協(xié)方差陣為由于Σx為非負(fù)定的對(duì)稱陣,則有利用線性代數(shù)的知識(shí)可得,必存在正交陣U,使得其中

1,2,…,p為Σx的特征根,不妨假設(shè)

1

2

…p

。而U恰好是由特征根相對(duì)應(yīng)的特征向量所組成的正交陣。下面我們來(lái)看,是否由U的第一列元素所構(gòu)成為原始變量的線性組合是否有最大的方差。設(shè)有P維正交向量

當(dāng)且僅當(dāng)a1=u1時(shí),即時(shí),有最大的方差

1。因?yàn)閂ar(F1)=U’1

xU1=1。

如果第一主成分的信息不夠,則需要尋找第二主成分。注:第一主成分的方差等于最大的特征根(二)

第二主成分在約束條件下,尋找第二主成分

因?yàn)樗詣t,對(duì)p維向量,有所以如果取線性變換:

則的方差次大。類推寫為矩陣形式:§4主成分的性質(zhì)一、均值二、方差為所有特征根之和說(shuō)明主成分分析把P個(gè)隨機(jī)變量的總方差分解成為P個(gè)不相關(guān)的隨機(jī)變量的方差之和。

協(xié)方差矩陣

的對(duì)角線上的元素之和等于特征根之和。三、精度分析

1)貢獻(xiàn)率:第i個(gè)主成分的方差在全部方差中所占比重,稱為貢獻(xiàn)率,反映了原來(lái)P個(gè)指標(biāo)多大的信息,有多大的綜合能力。

2)累積貢獻(xiàn)率:前k個(gè)主成分共有多大的綜合能力,用這k個(gè)主成分的方差和在全部方差中所占比重來(lái)描述,稱為累積貢獻(xiàn)率。我們進(jìn)行主成分分析的目的之一是希望用盡可能少的主成分F1,F(xiàn)2,…,F(xiàn)k(k≤p)代替原來(lái)的P個(gè)指標(biāo)。到底應(yīng)該選擇多少個(gè)主成分,在實(shí)際工作中,主成分個(gè)數(shù)的多少取決于能夠反映原來(lái)變量80%以上的信息量為依據(jù),即當(dāng)累積貢獻(xiàn)率≥80%時(shí)的主成分的個(gè)數(shù)就足夠了。最常見的情況是主成分為2到3個(gè)。四、原始變量與主成分之間的相關(guān)系數(shù)

可見,和的相關(guān)的密切程度取決于對(duì)應(yīng)線性組合系數(shù)的大小。五、原始變量被主成分的提取率

前面我們討論了主成分的貢獻(xiàn)率和累計(jì)貢獻(xiàn)率,他度量了F1,F(xiàn)2,……,F(xiàn)m分別從原始變量X1,X2,……XP中提取了多少信息。那么X1,X2,……XP各有多少信息分別F1,F(xiàn)2,……,F(xiàn)m被提取了。應(yīng)該用什么指標(biāo)來(lái)度量?我們考慮到當(dāng)討論F1分別與X1,X2,……XP的關(guān)系時(shí),可以討論F1分別與X1,X2,……XP的相關(guān)系數(shù),但是由于相關(guān)系數(shù)有正有負(fù),所以只有考慮相關(guān)系數(shù)的平方。如果我們僅僅提出了m個(gè)主成分,則第i原始變量信息的被提取率為:是Fj能說(shuō)明的第i原始變量的方差是Fj提取的第i原始變量信息的比重例

設(shè)的協(xié)方差矩陣為解得特征根為,,,,第一個(gè)主成分的貢獻(xiàn)率為5.83/(5.83+2.00+0.17)=72.875%,盡管第一個(gè)主成分的貢獻(xiàn)率并不小,但在本題中第一主成分不含第三個(gè)原始變量的信息,所以應(yīng)該取兩個(gè)主成分。Xi與F1的相關(guān)系數(shù)平方Xi與F2的相關(guān)系數(shù)平方信息提取率xi10.9250.855000.8552-0.9980.996000.996300111定義:如果一個(gè)主成分僅僅對(duì)某一個(gè)原始變量有作用,則稱為特殊成分。如果一個(gè)主成分所有的原始變量都起作用稱為公共成分。(該題無(wú)公共因子)六、載荷矩陣

§5主成分分析的步驟第一步:由X的協(xié)方差陣Σx,求出其特征根,即解方程,可得特征根。一、基于協(xié)方差矩陣第二步:求出分別所對(duì)應(yīng)的特征向量U1,U2,…,Up,第三步:計(jì)算累積貢獻(xiàn)率,給出恰當(dāng)?shù)闹鞒煞謧€(gè)數(shù)。第四步:計(jì)算所選出的k個(gè)主成分的得分。將原始數(shù)據(jù)的中心化值:

代入前k個(gè)主成分的表達(dá)式,分別計(jì)算出各單位k個(gè)主成分的得分,并按得分值的大小排隊(duì)。二、基于相關(guān)系數(shù)矩陣如果變量有不同的量綱,則必須基于相關(guān)系數(shù)矩陣進(jìn)行主成分分析。不同的是計(jì)算得分時(shí)應(yīng)采用標(biāo)準(zhǔn)化后的數(shù)據(jù)。Spss實(shí)現(xiàn):1.analyze-descriptionstatistic-description-savestandardizedasvariables2.analyze-datareduction-factor3.指定參與分析的變量

4.運(yùn)行factor過(guò)程主成分分析在經(jīng)濟(jì)指標(biāo)綜合評(píng)價(jià)中的應(yīng)用核心:通過(guò)主成分分析,選擇m個(gè)主成分y1,y2,…,ym,以每個(gè)主成分yi的方差貢獻(xiàn)率αi作為權(quán)數(shù),構(gòu)造綜合評(píng)價(jià)函數(shù),其中為第i個(gè)主成分的得分(求出主成分的表達(dá)式后,將標(biāo)準(zhǔn)化后的數(shù)據(jù)再代入yi中)當(dāng)把m個(gè)主成分得分代入F函數(shù)后,即可得到每個(gè)樣本的綜合評(píng)價(jià)函數(shù)得分,以得分的大小排序,可排列出每個(gè)樣本的經(jīng)濟(jì)效益的名次。一、選用一個(gè)主成分的排序二、選用多個(gè)主成分的排序例一應(yīng)收賬款是指企業(yè)因?qū)ν怃N售產(chǎn)品、材料、提供勞務(wù)及其它原因,應(yīng)向購(gòu)貨單位或接受勞務(wù)的單位收取的款項(xiàng),包括應(yīng)收銷貨款、其它應(yīng)收款和應(yīng)收票據(jù)等。出于擴(kuò)大銷售的競(jìng)爭(zhēng)需要,企業(yè)不得不以賒銷或其它優(yōu)惠的方式招攬顧客,由于銷售和收款的時(shí)間差,于是產(chǎn)生了應(yīng)收款項(xiàng)。應(yīng)收款賒銷的效果的好壞,不僅依賴于企業(yè)的信用政策,還依賴于顧客的信用程度。由此,評(píng)價(jià)顧客的信用等級(jí),了解顧客的綜合信用程度,做到“知己知彼,百戰(zhàn)不殆”,對(duì)加強(qiáng)企業(yè)的應(yīng)收賬款管理大有幫助。某企業(yè)為了了解其客戶的信用程度,采用西方銀行信用評(píng)估常用的5C方法,5C的目的是說(shuō)明顧客違約的可能性。

1、品格(用X1表示),指顧客的信譽(yù),履行償還義務(wù)的可能性。企業(yè)可以通過(guò)過(guò)去的付款記錄得到此項(xiàng)。

2、能力(用X2表示),指顧客的償還能力。即其流動(dòng)資產(chǎn)的數(shù)量和質(zhì)量以及流動(dòng)負(fù)載的比率。顧客的流動(dòng)資產(chǎn)越多,其轉(zhuǎn)化為現(xiàn)金支付款項(xiàng)的能力越強(qiáng)。同時(shí),還應(yīng)注意顧客流動(dòng)資產(chǎn)的質(zhì)量,看其是否會(huì)出現(xiàn)存貨過(guò)多過(guò)時(shí)質(zhì)量下降,影響其變現(xiàn)能力和支付能力。

3、資本(用X3表示),指顧客的財(cái)務(wù)勢(shì)力和財(cái)務(wù)狀況,表明顧客可能償還債務(wù)的背景。

4、附帶的擔(dān)保品(用X4表示),指借款人以容易出售的資產(chǎn)做抵押。

5、環(huán)境條件(用X5表示),指企業(yè)的外部因素,即指非企業(yè)本身能控制或操縱的因素。

首先并抽取了10家具有可比性的同類企業(yè)作為樣本,又請(qǐng)8位專家分別給10個(gè)企業(yè)的5個(gè)指標(biāo)打分,然后分別計(jì)算企業(yè)5個(gè)指標(biāo)的平均值,如表。

76.581.57675.871.78579.280.384.476.570.67367.668.178.5949487.589.59290.787.39181.58084.666.968.864.866.477.573.670.969.874.857.760.457.460.86585.668.57062.276.57069.271.764.968.9;

TotalVariance=485.31477778EigenvaluesoftheCovarianceMatrixEigenvalueDifferenceProportionCumulativePRIN1410.506367.2420.8458540.84585PRIN243.26422.5940.0891460.93500PRIN320.67012.5990.0425910.97759PRIN48.0715.2660.0166300.99422PRIN52.805.0.0057791.00000

EigenvectorsPRIN1PRIN2PRIN3PRIN4PRIN5X10.468814-.8306120.0214060.254654-.158081X20.4848760.3299160.014801-.287720-.757000X30.472744-.021174-.412719-.5885820.509213X40.4617470.430904-.2408450.7062830.210403X50.3292590.1229300.878054-.0842860.313677第一主成份的貢獻(xiàn)率為84.6%,第一主成份

Z1=0.469X1+0.485X2+0.473X3+0.462X4+0.329X5

的各項(xiàng)系數(shù)大致相等,且均為正數(shù),說(shuō)明第一主成份對(duì)所有的信用評(píng)價(jià)指標(biāo)都有近似的載荷,是對(duì)所有指標(biāo)的一個(gè)綜合測(cè)度,可以作為綜合的信用等級(jí)指標(biāo)??梢杂脕?lái)排序。將原始數(shù)據(jù)的值中心化后,代入第一主成份Z1的表示式,計(jì)算各企業(yè)的得分,并按分值大小排序:在正確評(píng)估了顧客的信用等級(jí)后,就能正確制定出對(duì)其的信用期、收帳政策等,這對(duì)于加強(qiáng)應(yīng)收帳款的管理大有幫助。序號(hào)12345678910得分3.1613.6-9.0135.925.1-10.3-4.36-33.8-6.41-13.8排序43712851069例二基于相關(guān)系數(shù)矩陣的主成分分析。對(duì)美國(guó)紐約上市的有關(guān)化學(xué)產(chǎn)業(yè)的三個(gè)證券和石油產(chǎn)業(yè)的2個(gè)證券做了100周的收益率調(diào)查。下表是其相關(guān)系數(shù)矩陣。

1)利用相關(guān)系數(shù)矩陣做主成分分析。

2)決定要保留的主成分個(gè)數(shù),并解釋意義。10.5770.5090.00630.00370.57710.5990.3890.520.5090.59910.4360.4260.3870.3890.43610.5230.4620.3220.4260.5231

EigenvaluesoftheCorrelationMatrixEigenvalueDifferenceProportionCumulativePRIN12.856712.047550.5713420.57134PRIN20.809160.269490.1618330.73317PRIN30.539680.088180.1079350.84111PRIN40.451500.108550.0903000.93141PRIN50.34295.0.0685901.00000EigenvectorsPRIN1PRIN2PRIN3PRIN4PRIN5X10.463605-.240339-.6117050.386635-.451262X20.457108-.5093050.1781890.2064740.676223X30.470176-.2604480.335056-.662445-.400007X40.4214590.5256650.5407630.472006-.175599X50.4212240.581970-.435176-.3824390.385024根據(jù)主成分分析的定義及性質(zhì),我們已大體上能看出主成分分析的一些應(yīng)用。概括起來(lái)說(shuō),主成分分析主要有以下幾方面的應(yīng)用。

1.主成分分析能降低所研究的數(shù)據(jù)空間的維數(shù)。即用研究m維的Y空間代替p維的X空間(m<p),而低維的Y空間代替高維的x空間所損失的信息很少。即:使只有一個(gè)主成分Yl(即m=1)時(shí),這個(gè)Yl仍是使用全部X變量(p個(gè))得到的。例如要計(jì)算Yl的均值也得使用全部x的均值。在所選的前m個(gè)主成分中,如果某個(gè)Xi的系數(shù)全部近似于零的話,就可以把這個(gè)Xi刪除,這也是一種刪除多余變量的方法?!?

主成分分析主要有以下幾方面的應(yīng)用

2.有時(shí)可通過(guò)因子負(fù)荷aij的結(jié)構(gòu),弄清X變量間的某些關(guān)系。

3.

多維數(shù)據(jù)的一種圖形表示方法。我們知道當(dāng)維數(shù)大于3時(shí)便不能畫出幾何圖形,多元統(tǒng)計(jì)研究的問(wèn)題大都多于3個(gè)變量。要把研究的問(wèn)題用圖形表示出來(lái)是不可能的。然而,經(jīng)過(guò)主成分分析后,我們可以選取前兩個(gè)主成分或其中某兩個(gè)主成分,根據(jù)主成分的得分,畫出n個(gè)樣品在二維平面上的分布況,由圖形可直觀地看出各樣品在主分量中的地位。

4.由主成分分析法構(gòu)造回歸模型。即把各主成分作為新自變量代替原來(lái)自變量x做回歸分析。

5.用主成分分析篩選回歸變量?;貧w變量的選擇有著重的實(shí)際意義,為了使模型本身易于做結(jié)構(gòu)分析、控制和預(yù)報(bào),好從原始變量所構(gòu)成的子集合中選擇最佳變量,構(gòu)成最佳變量集合。用主成分分析篩選變量,可以用較少的計(jì)算量來(lái)選擇量,獲得選擇最佳變量子集合的效果。解析主成分的實(shí)際經(jīng)濟(jì)意義從系數(shù)的大小、系數(shù)的符號(hào)上進(jìn)行分析。系數(shù)絕對(duì)值較大,則表明該主成分主要綜合了絕對(duì)值大的變量。正號(hào)表示變量與主成分作用同方向,負(fù)號(hào)表示原變量與主成分作用反方向。如果變量分組較有規(guī)則,則從特征向量各分量數(shù)值作出組內(nèi)組間對(duì)比分析。淺談時(shí)序立體數(shù)

據(jù)的主成分分析前面介紹的主成分分析方法,成功地實(shí)現(xiàn)了截面數(shù)據(jù)的最佳綜合和簡(jiǎn)化。然而,在現(xiàn)實(shí)生活中,隨著時(shí)間的發(fā)展于數(shù)據(jù)的積累,人們開始擁有大量按時(shí)間順序排列的平面數(shù)據(jù)表序列,這樣一組按時(shí)間順序排放的數(shù)據(jù)表序列就像一個(gè)數(shù)據(jù)匣,被稱為時(shí)序立體數(shù)據(jù)表。本章將介紹如何對(duì)這種多維動(dòng)態(tài)數(shù)據(jù)系統(tǒng)進(jìn)行立體式的綜合簡(jiǎn)化,并在此基礎(chǔ)上,迅速提取立體數(shù)據(jù)表中的重要信息,充分發(fā)掘其中的豐富內(nèi)涵,從而簡(jiǎn)化扼要地把握系統(tǒng)的動(dòng)態(tài)規(guī)律。第一節(jié)全局分析的概念時(shí)序立體數(shù)據(jù)表是一個(gè)按時(shí)間順序排放的數(shù)據(jù)表序列。如果對(duì)每一張數(shù)據(jù)表分別進(jìn)行主成分分析,則不同的數(shù)據(jù)表有完全不同的簡(jiǎn)化空間,就無(wú)法保證系統(tǒng)分析的統(tǒng)一性、整體性和可比性。因此,對(duì)這種數(shù)據(jù)表進(jìn)行主成分分析,得到一個(gè)統(tǒng)一的簡(jiǎn)化子空間。一、

全局概念假設(shè)有個(gè)樣本,個(gè)指標(biāo),時(shí)間的跨度為。時(shí)序立體數(shù)據(jù)表,若以為變量的指標(biāo),在時(shí)刻數(shù)據(jù)表中對(duì)上列數(shù)據(jù)的分析稱為全局分析。二、

全局變量

全局群點(diǎn)在j指標(biāo)上的取值分布被稱為全局變量,表示為

三、全局重心全局?jǐn)?shù)據(jù)表的重心為權(quán)數(shù)應(yīng)該根據(jù)不同時(shí)刻的重要性來(lái)決定,也可以等權(quán),等權(quán)時(shí),均值為:

時(shí)刻t的數(shù)據(jù)表重心為

四、全局方差全局變量的方差

:五、全局協(xié)方差全局變量的協(xié)方差為:全局協(xié)方差矩陣:第二節(jié)全局主成分分析

一、全局主成分分析的步驟為(1)

求全局相關(guān)系數(shù)矩陣

(2)求的特征根不妨假設(shè)和對(duì)應(yīng)的特征向量:第三節(jié)對(duì)經(jīng)典主成分分析的繼承性一、全局主成分一定對(duì)應(yīng)于數(shù)據(jù)變易最大的方向二、全局主成分是對(duì)原始變量系統(tǒng)的最佳綜合在全局主成分分析中,還可以證明,若全局?jǐn)?shù)據(jù)表種有p個(gè)變量,如果想以一個(gè)綜合變量來(lái)取代原來(lái)所有的全局變量,則第一個(gè)主成分F1就是最好的選擇。這個(gè)結(jié)論可以推廣到m維空間:三、全局分析與單張數(shù)據(jù)表分析的聯(lián)系

設(shè)

j(j=1,2,…,m)是全局特征值

(j=1,2,…,m)是第t時(shí)刻的數(shù)據(jù)表所計(jì)算的特征值

上式反映了全局第h個(gè)主成分與單張數(shù)據(jù)表個(gè)主成分之間的數(shù)量關(guān)系。特別當(dāng)h=1時(shí):因此,如果各年數(shù)據(jù)表的重心在第一主成分上的投影不發(fā)生改變,則說(shuō)明,第一主成分與單張數(shù)據(jù)表的主成分之間最相關(guān)。第四節(jié)精度分析一、

全局精度以數(shù)據(jù)變異的大小來(lái)恒量數(shù)據(jù)中的信息量如果變量已經(jīng)被標(biāo)準(zhǔn)化,則精度為:

二、數(shù)據(jù)表Xt的表現(xiàn)精度數(shù)據(jù)表Xt的表現(xiàn)精度是指群點(diǎn)在全局主成分上的近似精度。令是第t張表中的第i個(gè)樣本在全局第h個(gè)主成分的得分。第五節(jié)數(shù)據(jù)主要特征的動(dòng)態(tài)分析為了迅速把握多維動(dòng)態(tài)數(shù)據(jù)群種的主要信息,還應(yīng)該對(duì)數(shù)據(jù)系統(tǒng)的主要特征進(jìn)行動(dòng)態(tài)分析研究。數(shù)據(jù)群點(diǎn)有如下特征:(1)的總體水平(2)的主軸(3)的主軸上的分布偏差(4)中各樣本點(diǎn)間的相對(duì)位置和排列順序。一、總體水平第t年數(shù)據(jù)群點(diǎn)的總體水平為??梢詮娜齻€(gè)方面研究其動(dòng)態(tài)數(shù)據(jù)信息。(1)的時(shí)序軌跡(2)對(duì)于1一p個(gè)變量指標(biāo),研究哪一個(gè)指標(biāo)在1一T年間發(fā)生的變化最大。首先,j指標(biāo)在1一T年間的變化可以用aj表示,有所有指標(biāo)在1—T年的變化為a表示,有

使cj最大的指標(biāo)xj,在1—T年發(fā)生的變化最大,在經(jīng)濟(jì)系統(tǒng)分析中,過(guò)大過(guò)小的cj都應(yīng)是分析人員關(guān)注的對(duì)象。(3)從1—T年,研究在哪一年發(fā)生了較大的變化。這是比值,比cj更加深入的分析。則說(shuō)明j指標(biāo)在t~t+1年間的變化比其它年間更大。二、主軸對(duì)第t年的數(shù)據(jù)表xt做平面主成分分析,可以得到一組主軸,對(duì)應(yīng)的有特征值,分析是如何隨時(shí)間變化的,可以了解數(shù)據(jù)的主要特征發(fā)展變化的歷史過(guò)程。從前面的分析可以知道,是第t年數(shù)據(jù)變異最大的方向,數(shù)據(jù)在這個(gè)方向被拉得最長(zhǎng)。如果研究國(guó)民生活水平的話,則在這一方向人們生活水平的差距最大,所以,是最能反映國(guó)民生活水平的主要特征。與對(duì)應(yīng)的是主成分。數(shù)據(jù)的主要特征隨時(shí)間的發(fā)展會(huì)發(fā)生變化,這個(gè)變化可以通過(guò)的變化過(guò)程來(lái)觀察。特別對(duì)于第一、第二主軸(即h=1,2),以及后續(xù)含數(shù)據(jù)信息量較大的那些主軸,更應(yīng)給予重點(diǎn)研究。三、方差的變化在數(shù)據(jù)表由x1,x2,…,xT的變化過(guò)程中,除了需要研究數(shù)據(jù)的主要特征隨時(shí)間的變化以外,還要分析數(shù)據(jù)在主軸上的分布方差是否發(fā)生了較大的變化。分別從以下三個(gè)指標(biāo)來(lái)觀察數(shù)據(jù)在主軸散布范圍發(fā)生的變化。(1)在h軸上,數(shù)據(jù)的分散程度的差分(2)比較在t+1年,哪個(gè)主軸的散布范圍較大(3)比較1~T年間,哪個(gè)主軸的分散范圍較大四、樣本點(diǎn)間相對(duì)位置和排列順序的變化隨著時(shí)間的發(fā)展,群點(diǎn)在某一方向上的相對(duì)位置和排列順序也會(huì)發(fā)生變化。例如,改革開放以來(lái),我國(guó)沿海城市經(jīng)濟(jì)發(fā)展速度較其他地區(qū)的城市要快,特別在對(duì)外貿(mào)易方面,其發(fā)展更為顯著。如果第一主軸反映了城市經(jīng)濟(jì)的綜合實(shí)力,則在這個(gè)軸上可以看出,在不同的年份上,各城市由于發(fā)展速度不一,因此,相對(duì)位置和順序都有變化,沿海城市的經(jīng)濟(jì)實(shí)力顯然日趨向前。如何反映樣本點(diǎn)間位置和順序的變化呢?有一個(gè)要點(diǎn)必須注意,這就是必須在同一的軸上比較樣本點(diǎn)的位置和順序,因此,取全局主成分分析的第h主軸,它對(duì)所有時(shí)刻的數(shù)據(jù)表都是同一的。在其上的投影為

1、在上的投影坐標(biāo)是否有明顯移動(dòng)2、樣本點(diǎn)排列順序的改變下例是我國(guó)1998年和1999年城鎮(zhèn)居民分地區(qū)的消費(fèi)支出資料:X1:食品支出X2:衣著支出X3:家庭設(shè)備用品及服務(wù)支出X4:醫(yī)療保健支出X5:交通和通訊支出X6:娛樂(lè)教育文化支出X7:居住支出X8:雜項(xiàng)商品支出進(jìn)行主成分分析,并比較全局主成分分析和單張數(shù)據(jù)表主成分分析的結(jié)果。

EigenvaluesoftheCorrelationMatrix(全局主成分特征根)

EigenvalueDifferenceProportionCumulativeA16.991256.443290.8739060.87391A20.547960.395310.0684950.94240A30.152660.030190.0190820.96148A40.122470.039720.0153090.97679A50.082750.020420.0103440.98714A60.062330.021900.0077920.99493A70.040440.040300.0050550.99998A80.00014.0.0000181.00000

全局主成分特征向量

A1A2A3A4A5A6A7A8X10.374493-.1722570.0301430.1362130.0768490.0623450.005073-.894875X20.346007-.4454110.0249560.5328520.4380700.136731-.2416230.358262X30.3119840.7107280.4116740.1643450.360232-.0555440.2538820.061138X40.362343-.1944250.2938680.105955-.6236040.3106540.4619670.185796X50.360705-.0969810.484438-.536079-.081534-.154719-.5485230.083447X60.3457510.425463-.516114-.016448-.2035760.488600-.3864440.057272X70.3647430.060889-.3321680.215494-.291244-.7840800.0021870.082907X80.358775-.186733-.362278-.5702540.3881050.0194250.4620620.124385

EigenvaluesoftheCorrelationMatrix98年數(shù)據(jù)表的主成分分析

EigenvalueDifferenceProportionCumulativeB17.105926.589490.8882400.88824B20.516430.391980.0645530.95279B30.124440.024300.0155550.96835B40.100140.023200.0125170.98087B50.076940.020310.0096170.99048B60.056620.037210.0070780.99756B70.019420.019320.0024270.99999B80.00010.0.0000121.00000

Eigenvectors98年數(shù)據(jù)表的主成分分析

B1B2B3B4B5B6B7B8X10.372150-.159966-.071551-.0574580.1023940.118105-.006808-.896111X20.349028-.418593-.335008-.1526090.5170270.3107460.2795720.354117X30.3127890.7295050.271016-.0344110.4964770.150524-.1511450.057958X40.365701-.1204550.051476-.389966-.4167590.320595-.6189330.193606X50.361312-.0923210.626102-.266618-.242140-.1698330.5514190.079394X60.3471550.403651-.4799120.280454-.4875650.1951880.3580380.059746X70.3643650.038843-.325100-.1549220.069968-.833079-.1753680.079806X80.352541-.2820220.2802520.8039970.027822-.055566-.2299180.120426

EigenvaluesoftheCorrelationMatrix(99年數(shù)據(jù)表的主成分分析)

EigenvalueDifferenceProportionCumulativeC16.943786.340700.8679730.86797C20.603080.443010.0753850.94336C30.160080.042350.0200100.96337C40.117730.029250.0147160.97808C50.088480.035560.0110610.98914C60.052920.019150.0066150.99576C70.033770.033610.0042210.99998C80.00015.0.000019

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論