SPSS數(shù)據(jù)的主成分分析PPT_第1頁(yè)
SPSS數(shù)據(jù)的主成分分析PPT_第2頁(yè)
SPSS數(shù)據(jù)的主成分分析PPT_第3頁(yè)
SPSS數(shù)據(jù)的主成分分析PPT_第4頁(yè)
SPSS數(shù)據(jù)的主成分分析PPT_第5頁(yè)
已閱讀5頁(yè),還剩63頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、z,主成分分析 (Principal Components Analysis),知識(shí)點(diǎn),什么是主成分和主成分分析? 理解主成分分析的基本思想和幾何意義? 理解并掌握基于協(xié)方差矩陣或相關(guān)系數(shù)矩陣求解主成分? 如何確定主成分個(gè)數(shù)? 如何解釋主成分? 掌握運(yùn)用SPSS軟件求解主成分 對(duì)軟件輸出結(jié)果進(jìn)行正確分析,1,2,蔣亮,羅漢我國(guó)東西部城市經(jīng)濟(jì)實(shí)力比較的主成分分析,經(jīng)濟(jì)數(shù)學(xué),2003年3期 田波平等主成分分析在中國(guó)上市公司綜合評(píng)價(jià)中的作用,數(shù)學(xué)的實(shí)踐與認(rèn)識(shí),2004年4期 江冬明主成份分析在證券市場(chǎng)個(gè)股評(píng)析中的應(yīng)用,數(shù)理統(tǒng)計(jì)與管理,2001 年3期,主成分分析在綜合評(píng)價(jià)中的應(yīng)用:,2,2,陳耀輝,

2、景睿滬深股市市場(chǎng)收益率成因的主成份分析,南京航空航天大學(xué)學(xué)報(bào),2000年2期。,主成分用于成因分析:,3,2,王冬:我國(guó)外匯儲(chǔ)備增長(zhǎng)因素主成分分析,北京工商大學(xué)學(xué)報(bào)( 社會(huì)科學(xué)版), 2006年4期。,主成分回歸分析:,主成分用于判別分析等統(tǒng)計(jì)方法中,4,2,多個(gè)指標(biāo)的問(wèn)題: 1、指標(biāo)與指標(biāo)可能存在相關(guān)關(guān)系 信息重疊,分析偏誤 2、指標(biāo)太多,增加問(wèn)題的復(fù)雜性和分析難度 如何避免?,5,2,主成分分析的基本思想,一項(xiàng)十分著名的工作是美國(guó)的統(tǒng)計(jì)學(xué)家斯通(stone)在1947年關(guān)于國(guó)民經(jīng)濟(jì)的研究。他曾利用美國(guó)1929一1938年各年的數(shù)據(jù),得到了17個(gè)反映國(guó)民收入與支出的變量要素,例如雇主補(bǔ)貼、消

3、費(fèi)資料和生產(chǎn)資料、純公共支出、凈增庫(kù)存、股息、利息外貿(mào)平衡等等。,在進(jìn)行主成分分析后,竟以97.4的精度,用三新變量就取代了原17個(gè)變量。根據(jù)經(jīng)濟(jì)學(xué)知識(shí),斯通給這三個(gè)新變量分別命名為總收入F1、總收入變化率F2和經(jīng)濟(jì)發(fā)展或衰退的趨勢(shì)F3。,6,2,更有意思的是,這三個(gè)變量其實(shí)都是可以直接測(cè)量的。斯通將他得到的主成分與實(shí)際測(cè)量的總收入I、總收入變化率I以及時(shí)間t因素做相關(guān)分析,得到下表:,7,2,主成分分析:將原來(lái)具有相關(guān)關(guān)系的多個(gè)指標(biāo)簡(jiǎn)化為少數(shù)幾個(gè)新的綜合指標(biāo)的多元統(tǒng)計(jì)方法。,主成分:由原始指標(biāo)綜合形成的幾個(gè)新指標(biāo)。依據(jù)主成分所含信息量的大小成為第一主成分,第二主成分等等。,主成分與原始變量之

4、間的關(guān)系: (1)主成分保留了原始變量絕大多數(shù)信息。 (2)主成分的個(gè)數(shù)大大少于原始變量的數(shù)目。 (3)各個(gè)主成分之間互不相關(guān)。 (4)每個(gè)主成分都是原始變量的線性組合。,8,2,主成分分析通常的做法:尋求原指標(biāo)的線性組合Fi。,數(shù)學(xué)模型主成分表達(dá)式,9,2,假設(shè)有n個(gè)樣品,每個(gè)樣品有兩個(gè)觀測(cè)變量xl和x2,在由變量xl和x2 所確定的二維平面中,n個(gè)樣本點(diǎn)所散布的情況如橢圓狀。如圖所示:,幾何解釋坐標(biāo)旋轉(zhuǎn)變換,平移、旋轉(zhuǎn)坐標(biāo)軸,10,2,平移、旋轉(zhuǎn)坐標(biāo)軸,11,2,平移、旋轉(zhuǎn)坐標(biāo)軸,12,2,由圖可以看出這n個(gè)樣本點(diǎn)無(wú)論是沿著xl 軸方向或x2軸方向都具有較大的離散性,其離散的程度可以分別用

5、觀測(cè)變量xl 的方差和x2 的方差定量地表示。顯然,如果只考慮xl和x2 中的任何一個(gè),那么包含在原始數(shù)據(jù)中的經(jīng)濟(jì)信息將會(huì)有較大的損失。 如果我們將xl 軸和x2軸先平移,再同時(shí)按逆時(shí)針?lè)较蛐D(zhuǎn)角度,得到新坐標(biāo)軸Fl和F2。Fl和F2是兩個(gè)新變量。,Fl軸方向上的離散程度最大,即Fl的方差最大。說(shuō)明變量Fl代表了原始數(shù)據(jù)的絕大部分信息,即使不考慮變量F2也無(wú)損大局。,13,2,旋轉(zhuǎn)變換的目的:將原始數(shù)據(jù)的大部分信息集中到Fl軸上,對(duì)數(shù)據(jù)中包含的信息起到了濃縮作用。 主成分分析的幾何意義:主成分分析的過(guò)程也就是坐標(biāo)旋轉(zhuǎn)的過(guò)程,各主成分表達(dá)式就是新坐標(biāo)系與原坐標(biāo)系的轉(zhuǎn)換關(guān)系,新坐標(biāo)系中各坐標(biāo)軸的方

6、向就是原始數(shù)據(jù)方差最大的方向。,其優(yōu)點(diǎn):(1)可達(dá)到簡(jiǎn)化數(shù)據(jù)結(jié)構(gòu)的目的。(2)新產(chǎn)生的綜合變量Fl,F(xiàn)2具有不相關(guān)的性質(zhì),從而避免了信息重疊所帶來(lái)的虛假性。,14,2,了解了主成分分析的基本思想、數(shù)學(xué)和幾何意義后,問(wèn)題的關(guān)鍵: 1、如何求解主成分? 2、如何確定主成分個(gè)數(shù)? 3、如何解釋主成分所包含的經(jīng)濟(jì)意義?,15,2,如何求解主成分? (1)基于協(xié)方差矩陣求解主成分,假設(shè)有n個(gè)樣本,每個(gè)樣本有 p 個(gè)觀測(cè)變量。運(yùn)用主成分分析構(gòu)造以下 p 個(gè)主成分關(guān)于原始變量的線性組合模型:,16,2,假設(shè)p個(gè)原始變量的協(xié)方差陣為:,對(duì)角線外的元素不為0意味著:原始變量之間有相關(guān)關(guān)系,17,2,如何運(yùn)用主成

7、分分析將這些具有相關(guān)關(guān)系的變量轉(zhuǎn)化為沒(méi)有相關(guān)關(guān)系的新變量(主成分)呢? 新變量(即主成分)之間沒(méi)有相關(guān)關(guān)系,其協(xié)方差陣為對(duì)角矩陣:,對(duì)角線上的元素1、2p分別為第一、二第p個(gè)主成分方差;同時(shí)也是原始變量協(xié)方差陣的特征根,主成分表達(dá)式的系數(shù)項(xiàng)即是1、2p的特征向量,18,2,1、主成分的協(xié)方差陣為對(duì)角矩陣; 2、 3、 4、 第j個(gè)主成分的方差貢獻(xiàn)為:,主成分包含了原始變量的所有信息,協(xié)方差矩陣求解中主成分的性質(zhì),該比率為第j個(gè)主成分方差與原始變量的總方差之比。,19,2,k 個(gè)主成分的累積方差貢獻(xiàn)率為: 累積方差貢獻(xiàn)率越接近1,表示k 個(gè)主成分包含原始變量的信息越多。 5. 主成分載荷: 6.

8、 主成分Fj與原始變量Xi相關(guān)系數(shù)的平方: (1)可看作為第j 個(gè)主成分可解釋Xi多少比率的信息 (2)可看作為Xi在第j 個(gè)主成分中的相對(duì)重要性,20,2,主成分的求解 (2)基于相關(guān)系數(shù)矩陣求解主成分,假設(shè)p個(gè)原始變量的相關(guān)系數(shù)矩陣陣為: 注意(1):相關(guān)系數(shù)矩陣可看作原始變量協(xié)方差陣的標(biāo)準(zhǔn)化形式,即:原始變量標(biāo)準(zhǔn)化的協(xié)方差矩陣。 注意(2):運(yùn)用主成分分析法時(shí),若原始變量量綱不一致時(shí),需對(duì)變量進(jìn)行標(biāo)準(zhǔn)化處理基于協(xié)方差陣求解主成分;若不標(biāo)準(zhǔn)化則基于相關(guān)系數(shù)矩陣求解主成分。,對(duì)角線外元素不全為0:原始變量間有相關(guān)關(guān)系,21,2,轉(zhuǎn)化形成的沒(méi)有相關(guān)關(guān)系的新變量(即主成分)的協(xié)方差陣為對(duì)角矩陣:

9、,對(duì)角線上的元素1、2p分別為第一、二第p個(gè)主成分方差;同時(shí)也是原始變量相關(guān)系數(shù)矩陣的特征根,主成分表達(dá)式的系數(shù)項(xiàng)即是1、2p的特征向量,22,2,相關(guān)系數(shù)矩陣求解中主成分的性質(zhì),1、主成分的協(xié)方差矩陣為對(duì)角陣. 2. 3、 4、第k個(gè)主成分的方差貢獻(xiàn)率為: 前k個(gè)主成分的累積方差貢獻(xiàn)率為: 5、主成分載荷: 6、主成分載荷的平方:,在解釋第j個(gè)主成分的意義上起著重要作用, (1)可看作為第j 個(gè)主成分可解釋Xi多少比率的信息(或: Xi 的信息有多少可被第j個(gè)主成分解釋); (2)可看作為Xi在第j 個(gè)主成分中的相對(duì)重要性。,23,2,主成分個(gè)數(shù)的確定,累積方差貢獻(xiàn)率( Cumulative

10、 variance explained by components ): 通常要求累積方差貢獻(xiàn)率達(dá)到85%以上來(lái)確定主成分個(gè)數(shù)。 特征根(eigenvalue):根據(jù)特征根來(lái)確定 ; 數(shù)據(jù)標(biāo)準(zhǔn)化情況下: 碎石圖(Scree plot):依據(jù)特征值的變化來(lái)確定,即特征值變化趨勢(shì)圖由陡坡變?yōu)槠教沟霓D(zhuǎn)折點(diǎn)即為主成分選擇的最佳個(gè)數(shù)。,24,2,主成分的解釋,運(yùn)用主成分載荷解釋主成分: 陳耀輝,景睿滬深股市市場(chǎng)收益率成因的主成份分析,南京航空航天大學(xué)學(xué)報(bào),2000年2期。 蔣亮,羅漢我國(guó)東西部城市經(jīng)濟(jì)實(shí)力比較的主成分分析,經(jīng)濟(jì)數(shù)學(xué),2003年3期。 運(yùn)用主成分得分系數(shù)矩陣解釋主成分: 王冬我國(guó)外匯儲(chǔ)備增

11、長(zhǎng)因素主成分分析,北京工商大學(xué)學(xué)報(bào),2006年4期。 田波平等主成分分析在中國(guó)上市公司綜合評(píng)價(jià)中的作用,數(shù)學(xué)的實(shí)踐與認(rèn)識(shí),2004年4期,25,2,基于相關(guān)系數(shù)矩陣的主成分分析。對(duì)美國(guó)紐約上市的有關(guān)化學(xué)產(chǎn)業(yè)的三支股票(Allied Chemical, du Pont, Union Carbide)和石油產(chǎn)業(yè)的2支股票(Exxon and Texaco )做了100周的收益率調(diào)查(1975年1月1976年10月)。 1)利用相關(guān)系數(shù)矩陣做主成分分析。 2)決定要保留的主成分個(gè)數(shù),并解釋意義。,主成分解釋的案例分析,26,2,(1) 相關(guān)系數(shù)矩陣:,運(yùn)用主成分分析法進(jìn)行分析得到以下結(jié)果:,27,2

12、,(2)相關(guān)系數(shù)矩陣的特征根: Eigenvalues of the Correlation Matrix Eigenvalue Difference Proportion Cumulative PRIN1 2.85671 2.04755 0.571342 0.57134 PRIN2 0.80916 0.26949 0.161833 0.73317 PRIN3 0.53968 0.08818 0.107935 0.84111 PRIN4 0.45150 0.10855 0.090300 0.93141 PRIN5 0.34295 . 0.068590 1.00000 (3)特征根所對(duì)應(yīng)的特征向

13、量: Eigenvectors PRIN1 PRIN2 PRIN3 PRIN4 PRIN5 X1 0.463605 -.240339 -.611705 0.386635 -.451262 X2 0.457108 -.509305 0.178189 0.206474 0.676223 X3 0.470176 -.260448 0.335056 -.662445 -.400007 X4 0.421459 0.525665 0.540763 0.472006 -.175599 X5 0.421224 0.581970 -.435176 -.382439 0.385024,28,2,(4)前兩大主成分

14、的累積方差貢獻(xiàn)率:,(5)前兩大主成分的表達(dá)式:,29,2,(6)碎石圖:,30,2,主成分的解釋: 1、第一大主成分PRIN1幾乎是5只股票的等權(quán)平均;可將它看做股票收益率的“市場(chǎng)影響因素” (market component) 2、第二大主成分PRIN2 系數(shù)在AC, DP, UC (chemical stocks) 等3只股票上表現(xiàn)為負(fù),而在 EX, TE (oil stocks)等兩只股票的系數(shù)表現(xiàn)為正; 可將它看作為股票收益率的“行業(yè)影響因素”(industry component),31,2,主成分分析步驟及框圖,主成分分析步驟: 1.根據(jù)研究問(wèn)題選取初始分析變量; 2.根據(jù)初始變

15、量特性判斷由協(xié)方差陣求主成分還是由相關(guān)陣求主成分; 3.求協(xié)差陣或相關(guān)陣的特征根與相應(yīng)標(biāo)準(zhǔn)特征向量; 4.判斷是否存在明顯的多重共線性,若存在,則回到第一步; 5.得到主成分的表達(dá)式并確定主成分個(gè)數(shù),選取主成分; 6.結(jié)合主成分對(duì)研究問(wèn)題進(jìn)行分析并深入研究。,32,2,主成分分析框圖:,33,2,主成分分析的上機(jī)實(shí)現(xiàn)SPSS 操作,1、analyze-description statistic-description-save standardized as variables (若需要數(shù)據(jù)標(biāo)準(zhǔn)化,則進(jìn)行該操作,一般在主成分分析過(guò)程中軟件已自動(dòng)進(jìn)行了此操作) 2、analyze-data re

16、duction-Factor 3、指定參與分析的變量 4、運(yùn)行factor 過(guò)程,34,2,案例1:某分析師試圖對(duì)汽車銷量進(jìn)行預(yù)測(cè),選擇了汽車品牌、汽車外觀、油耗等10個(gè) 變量作為影響變量(即自變量) (見(jiàn)數(shù)據(jù)car_sales.sav) 。但是,這些影響變量之間存在相關(guān)關(guān)系,分析師擔(dān)心直接進(jìn)行回歸預(yù)測(cè)會(huì)引起分析結(jié)果偏誤。 分析師首先對(duì)10個(gè)影響變量進(jìn)行主成分分析,將其轉(zhuǎn)化少數(shù)幾個(gè)無(wú)相關(guān)關(guān)系的新變量。 (1)可用新變量與銷量進(jìn)行回歸預(yù)測(cè) (2)依據(jù)新變量,對(duì)各品牌汽車進(jìn)行評(píng)價(jià),35,2,(01)選擇分析變量 選SPSS 分析Analyze菜單中的(降維Data Reduction)(Facto

17、r),出現(xiàn)【因子分析 Factor Analysis】對(duì)話框; 在【 因子Factor Analysis】對(duì)話框中左邊的原始變量中,選擇將進(jìn)行因子分析的變量選入(變量Variables)欄。,36,2,(02)設(shè)置描述性統(tǒng)計(jì)量 在【 Factor Analysis】框中選【 描述Descriptives】按鈕,出現(xiàn)【 描述統(tǒng)計(jì)Descriptives 】對(duì)話框; 選擇原始分析結(jié)果 Initial solution 選項(xiàng) 選擇系數(shù)Coefficients 選項(xiàng) 點(diǎn)擊(繼續(xù)Contiue)按鈕確定。,顯示相關(guān)系數(shù)矩陣:檢驗(yàn)原始變量有無(wú)相關(guān)關(guān)系,顯示共同度表,反映每個(gè)原始變量的信息有多少被新變量提取

18、了,37,2,38,2,主成分分析前提條件相關(guān)性分析: 分析方法主要有: 1)計(jì)算相關(guān)系數(shù)矩陣(correlation coefficients matrix) 如果相關(guān)系數(shù)矩陣中的大部分相關(guān)系數(shù)值均小于0.3,即各變量間大多為弱相關(guān),原則上這些變量不適合進(jìn)行因子分析。 2)計(jì)算反映象相關(guān)矩陣(Anti-image correlation matrix) 如果其主對(duì)角線外的元素大多絕對(duì)值較小,對(duì)角線上的元素值較接近1,則說(shuō)明這些變量的相關(guān)性較強(qiáng),適合進(jìn)行因子分析。,39,2,其中主對(duì)角線上的元素為某變量的MSA(Measure of Sample Adequacy): 是變量 和變量 ( )間

19、的簡(jiǎn)單相關(guān)系數(shù); 是變量 和變量 ( )在控制了其他變量影響下的偏相關(guān)系數(shù),即凈相關(guān)系數(shù)。 取值在0和1之間,越接近1,意味著變量 與其他變量間的相關(guān)性越強(qiáng),越接近0則相關(guān)性越弱。,40,2,3)巴特利特球度檢驗(yàn)(Bartlett test of sphericity) 該檢驗(yàn)以原有變量的相關(guān)系數(shù)矩陣為出發(fā)點(diǎn),其零假設(shè)H0是:相關(guān)系數(shù)矩陣為單位矩陣,即相關(guān)系數(shù)矩陣主對(duì)角元素均為1,非主對(duì)角元素均為0。(即原始變量之間無(wú)相關(guān)關(guān)系)。 依據(jù)相關(guān)系數(shù)矩陣的行列式計(jì)算可得其近似服從卡方分布。如果統(tǒng)計(jì)量卡方值較大且對(duì)應(yīng)的sig值小于給定的顯著性水平a時(shí),零假設(shè)不成立。即說(shuō)明相關(guān)系數(shù)矩陣不太可能是單位矩陣

20、,變量之間存在相關(guān)關(guān)系,適合做因子分析。,41,2,4)KMO(Kaiser-Meyer-Olkin)檢驗(yàn) KMO檢驗(yàn)的統(tǒng)計(jì)量是用于比較變量間簡(jiǎn)單相關(guān)系數(shù)矩陣和偏相關(guān)系數(shù)的指標(biāo),數(shù)學(xué)定義為: KMO與MSA區(qū)別是它將相關(guān)系數(shù)矩陣中的所有元素都加入到了平方和計(jì)算中。KMO值越接近1,意味著變量間的相關(guān)性越強(qiáng),原有變量適合做因子分析;越接近0,意味變量間的相關(guān)性越弱,越不適合作因子分析。 Kaiser給出的KMO度量標(biāo)準(zhǔn):0.9以上非常適合;0.8表示適合;0.7表示一般;0.6表示不太適合;0.5以下表示極不適合。,42,2,(03)設(shè)置對(duì)主成分或因子的提取選項(xiàng) 在【 因子分析Factor An

21、alysis】框中點(diǎn)擊【抽取Extraction】按鈕,出現(xiàn)【 因子分析:抽取Factor Analysis:Extraction】對(duì)話框; 在方法Method 欄中選擇(主成分Principal components)選項(xiàng); 在分析Analyze 欄中選擇相關(guān)性矩陣Correlation matrix選項(xiàng)(基于相關(guān)系數(shù)求解主成分); 在輸出Display 欄中選擇未旋轉(zhuǎn)的因子解Unrotated factor solution選項(xiàng)(主成分載荷矩陣); 在抽取Extract 欄中選擇基于特征根Eigenvalues over 并填上 1 (依據(jù)特征根大于1的原則提取主成分); 點(diǎn)擊(繼續(xù)Con

22、tinue)按鈕確定,回到【 因子分析Factor Analysis】對(duì)話框中。,43,2,44,2,(04)設(shè)置主成分得分(或因子得分) 在【因子分析 Factor Analysis】對(duì)話框中,點(diǎn)擊【得分Scores】 按鈕,出現(xiàn) 【 因子分析:因子得分Factor Analysis: Scores 對(duì)話框。 選擇保存為變量save as variable(將新變量得分值保存到數(shù)據(jù)文件)。 選擇display factor score coefficient matrix(顯示主成分表達(dá)式的系數(shù)矩陣) 點(diǎn)擊(繼續(xù)Contiue)按鈕確定,回到【因子分析 Factor Analysis】對(duì)話框

23、。,45,2,46,2,(05)設(shè)置主成分分析(或因子分析)的選項(xiàng) 在【 因子分析Factor Analysis】對(duì)話框中,單擊【選項(xiàng)Options】按鈕,出現(xiàn) 【因子分析:選項(xiàng) Factor Analysis:Options 對(duì)話框。 缺失值Missing Values 欄中的Exclude cases listwise按列表排除個(gè)案 Coefficient Display Format(系數(shù)顯示格式) 中的按大小排序Sorted by size表示依據(jù)主成分(因子)載荷量排序; “取消小系數(shù)Suppress absolute values less than”,默認(rèn)為0.1;表示列示所有載

24、荷量大于0.1的載荷系數(shù)。,47,2,48,2,分析結(jié)果:,1.描述性統(tǒng)計(jì)均值、標(biāo)準(zhǔn)差等的描述,Descriptive Statistics,49,2,2.相關(guān)系數(shù)矩陣描述原始變量之間是否存在相關(guān)關(guān)系,相關(guān)系數(shù)矩陣眾對(duì)角線外的元素不全為0,而且很多的相關(guān)系數(shù)大于0.5,這表明原始變量之間有相關(guān)關(guān)系,適合進(jìn)行主成分分析。,50,2,3.共同度表,Communalities,Extraction Method: Principal Component Analysis.,Communalities(共同度) :每個(gè)原始變量的變異(信息)有多少可被主成分解釋. Initial :每個(gè)原始變量的變異(

25、信息)有多少可被所有的主成分解釋。基于相關(guān)系數(shù)進(jìn)行分析時(shí),該值都為1。 Extraction:每個(gè)原始變量的信息有多少被提取的主成分給提取了。(提取的主成分包含了每個(gè)原始變量的信息多少),如果共同度中extraction值越高,這意味著提取的主成分能很好的代表原始變量。如果extraction值很低,我們則需要再提取一個(gè)或多個(gè)主成分,0.930,0.876 分別代表原始變量vehicle type和price等有93%和87.6%被我們提取的主成分提取了。,基于協(xié)方差進(jìn)行分析時(shí), 每個(gè)變量的Initial 又是如何呢?,51,2,4.碎石圖(陡坡檢查)除去坡線平坦部分的主成分(因子) 圖中第三

26、個(gè)因子以后較為平坦,故保留3個(gè)因子,碎石圖有助于我們確定最優(yōu)的主成分個(gè)數(shù)。橫軸代表第幾主成分,縱軸代表相應(yīng)主成分的特征值(方差)。 通常,提取碎石圖較為陡峭部分的主成分; 斜坡處的主成分的方差貢獻(xiàn)較小,不考慮,原始變量的信息遺漏也較少。,陡坡與斜坡的轉(zhuǎn)折點(diǎn)在第3和第4主成分之間,從第4至第10主成分的方差很小且差別不大,所以該例提取3個(gè)主成分較為合適。,52,2,5.方差貢獻(xiàn)率表 取特征值大于 1 的因子,共有3 個(gè),分別(5.994)(1.654)(1.123); 方差貢獻(xiàn)率分別為(59.94%)(16.54%)(11.23%),Total variance explained,Extrac

27、tion Method: Principal Component Analysis.,Total這欄給出的是特征根,即每個(gè)主成分的方差(或者說(shuō),所有原始變量的信息有多少落到各個(gè)主成分上去). % of Variance 這欄代表主成分的方差貢獻(xiàn)率,即每個(gè)主成分方差占原始變量總方差的比率. Cumulative %這欄代表累積方差貢獻(xiàn)率 ,即為前 n 個(gè)主成分的方差貢獻(xiàn)率之和。如累積貢獻(xiàn)率76.482%=第一主成分的方差貢獻(xiàn)59.938%+第二主成分的方差貢獻(xiàn)16.545.,原始變量有10個(gè),提取了10個(gè)主成分,且10個(gè)主成分的方差之和 = 10個(gè)原始變量的方差之和;依據(jù)特征根大于1,我們提取了

28、3個(gè)主成分。,53,2,6.主成分(因子載荷)矩陣表,Component Matrix(a),Extraction Method: Principal Component Analysis. a 3 components extracted.,主成分載荷矩陣表主要反映原始變量和主成分的相關(guān)關(guān)系,有助于我們進(jìn)行主成分的解釋。. 其中:第一主成分與Engine size, Horsepower , Wheelbase, width, length, curb weight, Fuel capacity ,Fuel efficiency等高度相關(guān). 第二主成分與 Price in thousands

29、 高度相關(guān). 第三主成分與 Vehicle type高度相關(guān).,從該表我們也可看到原始變量的信息如何被各個(gè)主成分提取的。如: Var (Vehicle type*) = 0.4712 + 0.5332+ (-0.651)2 Var (Fuel efficiency*) = (-0.863)2 + 0.0042 + 0.3392,根據(jù)該表我們可寫(xiě)出因子分析模型: Vehicle type* =0.471f1+0.533f2-0.651f3 Fuel efficiency* =-0.863f1+0.004f2-0.339f3,從該表也可得到每個(gè)主成分方差是如何從各原始變量中提取的 : Var (f

30、1) = 0.4712 + 0.5802 + 0.8712 + .+(-0.863)2 Var (f2) = 0.5332 + (-0.729)2 + (-0.290)2 + +(0.004)2 Var (f3) = (-0.651)2+(-0.092)2+ 0.0182 + +(0.339)2,54,2,7.主成分(因子)得分系數(shù)表,Component Score Coefficient Matrix,Extraction Method: Principal Component Analysis.,依據(jù)該表,我們可寫(xiě)出主成分分析模型: f1*=0.079Vehicletype*+0.097P

31、rice*+ 0.145 Engine size* +-0.144 Fuel efficiency* .,每個(gè)樣本的原始變量信息帶入以上模型,我們則可得到每個(gè)樣本: f1*, f2*, f3*的取值。依據(jù)該取值我們可評(píng)價(jià)哪些品牌汽車在外觀及油耗性能( f1*)上占優(yōu)或處于劣勢(shì);哪些在f2*(汽車價(jià)位)上占優(yōu)或處于劣勢(shì);,要提升各品牌汽車應(yīng)從何著手。,綜合f1*, f2*, f3*的信息對(duì)各種品牌汽車的進(jìn)行綜合評(píng)價(jià),依據(jù)各主成分的方差貢獻(xiàn)產(chǎn)生新變量: f=0.5999 f1*+0.165f2*+0.112f3*,55,2,8.主成分(因子)得分協(xié)方差矩陣,Component Score Cova

32、riance Matrix,Extraction Method: Principal Component Analysis.,該矩陣為單位陣,意味著主成分之間互不相關(guān)。,56,2,以上例子是采用基于相關(guān)系數(shù)求解主成分,試用協(xié)方差矩陣求解,結(jié)果如何?,由協(xié)方差矩陣或相關(guān)系數(shù)矩陣求解主成分結(jié)果一致嗎?應(yīng)如何選擇?,57,2,主成分分析求解應(yīng)注意的問(wèn)題:,1、由協(xié)方差矩陣出發(fā)求解主成分所得的結(jié)果與由相關(guān)系數(shù)矩陣求解主成分所得結(jié)果有很大不同:所得的主成分的方差貢獻(xiàn)率與主成分表達(dá)式均有顯著差別。 (1)一般而言,對(duì)于度量單位不同的指標(biāo)或是取值范圍彼此差異非常大的指標(biāo),不直接由其協(xié)方差矩陣進(jìn)行主成分分析,

33、而應(yīng)該考慮將數(shù)據(jù)標(biāo)準(zhǔn)化。(若不標(biāo)準(zhǔn)化,則基于相關(guān)系數(shù)矩陣進(jìn)行主成分分析) 例:對(duì)上市公司的財(cái)務(wù)狀況進(jìn)行分析時(shí),常常涉及利潤(rùn)總額、市盈率、每股凈利率等。其中利潤(rùn)總額取值常在幾十萬(wàn)到上百萬(wàn)或千萬(wàn),市盈率一般取值在五到六七十之間,而每股凈利率在1以下,不同指標(biāo)取值范圍相差很大,若直接用協(xié)方差矩陣進(jìn)行主成分分析,利潤(rùn)總額的作用將起重要支配作用,而其他兩個(gè)指標(biāo)的作用很難在主成分中體現(xiàn)出來(lái),此時(shí)應(yīng)該考慮對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。,58,2,(2)對(duì)同度量或是取值范圍在同量級(jí)的數(shù)據(jù),還是直接從協(xié)方差矩陣求解主成分為宜。因?yàn)椋簩?duì)數(shù)據(jù)標(biāo)準(zhǔn)化的過(guò)程實(shí)際上也就是抹殺原始變量離散程度差異的過(guò)程,標(biāo)準(zhǔn)化后的各變量方差相等均

34、為1,而方差是數(shù)據(jù)信息的重要概括形式。數(shù)據(jù)標(biāo)準(zhǔn)化后抹殺了一部分重要信息,使得標(biāo)準(zhǔn)化后各變量在對(duì)主成分構(gòu)成中的作用趨于相等。,對(duì)于采用何種方法求解主成分沒(méi)有定論。在實(shí)際研究中,從不同角度求解并研究其結(jié)果的差別以及產(chǎn)生差別的原因,以確定哪種結(jié)果更為可信。,59,2,2、主成分是有效剔除了原始變量中的重疊信息,還是按原來(lái)的模式將原始信息中的絕大部分用幾個(gè)不相關(guān)的新變量表示出來(lái),還值得討論。 如果計(jì)算所得協(xié)方差陣(或相關(guān)系數(shù)矩陣)的最小特征值接近于0,則意味著中心化以后的原始變量之間存在著多重共線性問(wèn)題,即原始變量存在著不可忽視的重疊信息。此時(shí)應(yīng)注意對(duì)主成分的解釋,或者考慮對(duì)最初納入分析的指標(biāo)進(jìn)行篩選。,對(duì)原始變量存在多重共線性問(wèn)題,在應(yīng)用主成分分析時(shí)一定要慎重,應(yīng)考慮所選初始變量是否合適,是否真實(shí)地反映事物的本來(lái)面目; 主成分分析不能有效地剔除重疊信息,但它至少可發(fā)現(xiàn)原始變量是否存在重疊信息,這對(duì)減少分析中的失誤是有幫助的

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論