版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
多元統(tǒng)計(jì)分析主成分分析MultivariateStatisticalAnalysis案例斯通關(guān)于國民經(jīng)濟(jì)的研究?
1947年英國經(jīng)濟(jì)學(xué)家斯通(Stone)在利用美國1929一1938年數(shù)據(jù),得到了17個(gè)反映國民收入與支出的變量要素。進(jìn)行主成分分析后,以97.4%的精度,用3個(gè)新變量就取代了17個(gè)變量。Stone(1913—1991)《國民經(jīng)濟(jì)核算體系》(SNA)第7章主成分分析7.1什么是主成分分析7.2總體主成分7.3樣本主成分7.1什么是主成分分析在力求數(shù)據(jù)信息丟失最少的原則下,對(duì)多維變量進(jìn)行加工降維,即研究多維變量的線性組合,使它們構(gòu)成的綜合變量盡可能多地保留原始變量的信息。這些綜合變量就稱為主成分。KarlPearson
(1857-1936)Hotelling(1895—1973)信息是事物之間的差異!圖1通過對(duì)原始變量協(xié)方差陣或相關(guān)陣的研究,利用原始變量的線性組合形成幾個(gè)綜合變量(主成分),在保留原始變量主要信息下起到降維與簡(jiǎn)化問題的作用,使得在研究復(fù)雜問題時(shí)更容易抓住主要矛盾。這就是主成分分析(PrincipalComponentsAnalysis,PCA)。1.每個(gè)主成分都是各原始變量的線性組合,2.主成分的數(shù)目大大少于原始變量的數(shù)目,3.主成分保留了原始變量絕大多數(shù)信息,4.各主成分之間互不相關(guān)??梢姡鞒煞峙c原始變量有如下關(guān)系:7.2總體主成分7.2.1主成分7.2.2總體主成分的推導(dǎo)7.2.3總體主成分的性質(zhì)因子負(fù)荷可以幫助我們對(duì)主成分進(jìn)行命名和解釋!表7.2.1主成分與原始變量的相關(guān)系數(shù)(因子負(fù)荷)
例7.2
設(shè)的協(xié)方差矩陣為解得特征根為,,,,
第一個(gè)主成分F1的貢獻(xiàn)率為5.83/(5.83+2.00+0.17)=72.875%,第一個(gè)主成分的貢獻(xiàn)率挺大。Xi與F1的相關(guān)系數(shù)平方Xi與F2的相關(guān)系數(shù)平方信息提取率xi10.9250.855000.8552-0.9980.996000.996300111盡管第一個(gè)主成分的貢獻(xiàn)率并不小,但在本題中第一主成分不含第三個(gè)原始變量的信息,所以應(yīng)該取兩個(gè)主成分。7.2.4標(biāo)準(zhǔn)化變量的主成分表7.2.2標(biāo)準(zhǔn)化變量的因子負(fù)荷量7.3樣本主成分實(shí)際問題中總體是未知的,只有抽樣樣本。案例分析及軟件操作主要有四方面:一是解釋。在心理學(xué)和教育學(xué)中應(yīng)用很廣。二是綜合評(píng)價(jià)。三是分類。主成分分析方法把p維數(shù)據(jù)簡(jiǎn)化為m(m<p)維數(shù)據(jù)后,進(jìn)一步地可用于變量的分類、樣品的分類四是與其他方法的結(jié)合。比如主成分回歸,主成分聚類,多維正態(tài)數(shù)據(jù)的主成分檢驗(yàn)等。主成分分析的應(yīng)用例7.4
對(duì)1996年全國30個(gè)省市自治區(qū)經(jīng)濟(jì)發(fā)展基本情況的八項(xiàng)指標(biāo)作主成分分析,原始數(shù)據(jù)見表7.3.2:
省份GDPX1居民消費(fèi)水平X2固定資產(chǎn)投資X3職工平均工資X4貨物周轉(zhuǎn)
量X5居民消費(fèi)價(jià)格指數(shù)X6商品零售價(jià)格指數(shù)X7工業(yè)總產(chǎn)
值X8北
京1394.892505519.018144373.9117.3112.6843.43天
津920.112720345.466501342.8115.2110.6582.51河
北2849.521258704.8748392033.3115.2115.81234.85山
西1092.481250290.94721717.3116.9115.6697.25內(nèi)
蒙832.881387250.234134781.7117.5116.8419.39遼
寧2793.372397387.9949111371.1116.11141840.55吉
林1129.21872320.454430497.4115.2114.2762.47黑龍江2014.532334435.734145824.8116.7114.31240.37上
海2462.575343966.489279207.4118.71131642.95江
蘇5155.251926434.9559431025.5115.8114.32026.64浙
江3524.7922491006.396619754.4116.6113.5916.59安
徽2003.5812544744609908.3114.8112.7824.14表7.3.2全國30個(gè)省市自治區(qū)八項(xiàng)指標(biāo)數(shù)據(jù)福
建2160.522320553.975857609.3115.2114.4433.67江
西1205.111182282.844211411.7116.9115.9571.84山
東5002.3415271229.5551451196.6117.6114.22207.69河
南3002.741034670.3543441574.4116.5114.91367.92湖
北2391.421527571.684685849120116.61220.72湖
南2195.71408422.6147971011.8119115.5843.83廣
東5381.7226991639.838250656.5114111.61396.35廣
西1606.151314382.595105556118.4116.4554.97海
南364.171814198.355340232.1113.5111.364.33四
川35341261822.544645902.3118.51171431.81貴
州630.07942150.844475301.1121.4117.2324.72云
南1206.6812613345149310.4121.3118.1716.65西
藏55.98111017.8773824.2117.3114.95.57陜
西1000.031208300.274396500.9119117600.98甘
肅553.351007114.815493507119.8116.5468.79青
海165.31144547.76575361.6118116.3105.8寧
夏169.75135561.985079121.8117.1115.3114.4新
疆834.571469376.955348339119.7116.7428.76數(shù)據(jù)來源:1996年《中國統(tǒng)計(jì)年鑒》表7.3.3樣本相關(guān)系數(shù)矩陣
X1X2X3X4X5X6X7X8X11.0000.2670.8480.1910.617-0.273-0.2640.874X20.2671.0000.4430.718-0.151-0.229-0.5930.363X30.8480.4431.0000.4010.408-0.247-0.3660.688X40.1910.7180.4011.000-0.356-0.146-0.5390.104X50.617-0.1510.408-0.3561.000-0.2510.0220.659X6-0.273-0.229-0.247-0.146-0.2511.0000.763-0.119X7-0.264-0.593-0.366-0.5390.0220.7631.000-0.192X80.8740.3630.6880.1040.659-0.119-0.1921.000表7.3.4樣本相關(guān)系數(shù)矩陣的特征值和方差貢獻(xiàn)主成分特征值方差貢獻(xiàn)率累計(jì)方差貢獻(xiàn)率13.66545.81345.81322.18327.29373.10631.21315.16388.27040.4045.04893.31750.2052.56195.87860.1792.23298.10970.1181.47599.58580.0330.415100.000從表7.3.4可見,前3個(gè)特征值累計(jì)貢獻(xiàn)率已達(dá)88.27%,說明前3個(gè)主成分基本包含了全部指標(biāo)具有的信息。表7.3.5樣本相關(guān)系數(shù)矩陣的特征向量第一特征向量第二特征向量第三特征向量0.4500.2770.1060.330-0.3880.2540.4530.0950.2050.255-0.4810.3220.2460.516-0.236-0.2680.1580.726-0.3370.3840.3970.4160.3070.193前三個(gè)主成分為:軟件操作SPSS沒有直接提供主成分分析的命令窗口,只提供了與它有關(guān)的因子分析(因子分析將在第八章介紹)。因子分析和主成分分析有密切聯(lián)系,因子提取的最常用方法就是“主成分法”。下面利用因子分析的命令窗口來實(shí)現(xiàn)主成分分析。以例7.3為例。SPSS軟件操作:在SPSS窗口中選擇Analyze→DataReduction→Factor菜單項(xiàng),調(diào)出因子分析主對(duì)話框。圖7.3.1因子分析軟件操作SPSS軟件默認(rèn)從樣本相關(guān)系數(shù)矩陣出發(fā)進(jìn)行主成分分析。若想從協(xié)方差陣出發(fā)進(jìn)行主成分分析,則可在Extraction按鈕下的Analyze中,勾選Covariancematrix,見圖7.3.2。圖7.3.2Extraction對(duì)話框軟件默認(rèn)選取特征值大于1的主成分,若想得到全部主成分(本例為8個(gè)),點(diǎn)擊因子分析主對(duì)話框下的Extraction按鈕,可在Extract中修改默認(rèn)選項(xiàng)。一、基本結(jié)果主要的基本結(jié)果表有3個(gè)。表7.3.6共同度表(被提取率)表7.3.6的第2列反映原始變量X1-X8被8個(gè)主成分提取的信息率為100%。8個(gè)原始變量被8個(gè)主成分提取,信息是不損失的。表7.3.6的第3列Extraction反映原始變量X1-X8被3個(gè)主成分提取的信息率為0.922-0.886。相對(duì)來說,居民消費(fèi)水平信息損失略大。(1)共同度表7.3.7方差貢獻(xiàn)表表7.3.7是方差貢獻(xiàn)率表,是一個(gè)主要的結(jié)果表。其中Total列為各主成分對(duì)應(yīng)的特征根,%ofVariance列為各主成分的方差貢獻(xiàn)率;Cumulative%列為累計(jì)方差貢獻(xiàn)率。默認(rèn)選取特征值大于1的主成分,本例有3個(gè)特征值大于1,可以看出,前3個(gè)主成分已經(jīng)可以解釋88.27%的方差。(2)方差貢獻(xiàn)表7.3.8因子載荷表表7.2.2因子載荷表(3)因子載荷第一主成分的表達(dá)式中第一、二、八項(xiàng)指標(biāo)的系數(shù)較大,可以把第一主成分看成是反映經(jīng)濟(jì)發(fā)展?fàn)顩r的綜合指標(biāo);第二主成分中,第五、七、八項(xiàng)指標(biāo)的影響大,可以看成是反映貨物周轉(zhuǎn)量、商品零售價(jià)格指數(shù)的綜合指標(biāo);第三主成分中,第四、六、七項(xiàng)指數(shù)影響大,可看成是居民消費(fèi)價(jià)格指數(shù)的影響。二、其它結(jié)果(1)原始變量相關(guān)性的判斷SPSS軟件操作:Analyze→DataReduction→Factor,點(diǎn)擊Descriptives按鈕,在correlationmatrix中選擇coefficients,可得相關(guān)系數(shù)矩陣結(jié)果。表7.3.9相關(guān)系數(shù)矩陣SPSS軟件操作:Analyze→DataReduction→Factor,點(diǎn)擊Descriptives按鈕,在correlationmatrix中選擇KMOandBartless'sTestofsphericity,可得KMO和Bartless's檢驗(yàn)結(jié)果。圖7.3.3Descriptives對(duì)話框表7.3.10KMO和Bartless's檢驗(yàn)結(jié)果表7.3.10可見值為0.55,Bartlett'sTest的P值很小,所以認(rèn)為適合做主成分分析。在做主成分分析時(shí),應(yīng)該首先看這些結(jié)果,判斷是否適合做主成分分析,然后再看其它結(jié)果。(2)計(jì)算樣本主成分得分法1:用因子載荷陣表7.3.8已算出主成分得分函數(shù)。法2:SPSS軟件操作:Analyze→DataReduction→Factor,點(diǎn)擊Scores按鈕,勾選Displayfactorscorecoefficientmatrix,回原對(duì)話框OK運(yùn)行,則輸出主成分得分函數(shù)中的系數(shù)。表7.3.11主成分得分系數(shù)表7.3.11主成分得分公式表達(dá)1)主成分得分函數(shù):2)樣本主成分得分:法1:將樣本標(biāo)準(zhǔn)化數(shù)據(jù)代入主成分得分函數(shù),則得主成分得分。法2:SPSS軟件操作:Analyze→DataReduction→Factor,點(diǎn)擊Scores按鈕,勾選Saveasvariables,回原對(duì)話框OK運(yùn)行,則會(huì)在原始數(shù)據(jù)窗口生成新變量FACn_m(n主成分編號(hào),第m次分析結(jié)果),儲(chǔ)存樣本標(biāo)準(zhǔn)化主成分得分,結(jié)果如下表7.3.12。表7.3.12樣本標(biāo)準(zhǔn)化主成分得分省份FAC1_1FAC2_1FAC3_1北
京
0.494-1.5030.480天
津
0.406-1.753-1.081河
北
0.7201.641-1.136山
西
-0.5110.249-0.522…………(3)排序&評(píng)價(jià)表7.3.13樣本主成分綜合得分及排序省
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 南寧2025年廣西南寧市經(jīng)濟(jì)信息中心招聘筆試歷年參考題庫附帶答案詳解
- 涼山2025年四川涼山冕寧縣第三幼兒園招聘編制外幼兒教師25人筆試歷年參考題庫附帶答案詳解
- 臨沂2025年山東臨沂大學(xué)招聘工作人員6人筆試歷年參考題庫附帶答案詳解
- 耐藥腫瘤患者的適應(yīng)性富集策略與治療方案探索-1
- 耐藥治療的個(gè)體化給藥策略-1
- 衛(wèi)生系統(tǒng)薪水管理制度
- 2025-2026學(xué)年黑龍江省、吉林省十校聯(lián)考高二上學(xué)期期中考試語文試題
- 2025-2026學(xué)年河南省天立教育高二10月月考語文試題
- 2025-2026學(xué)年河北省五校聯(lián)合教研體高二上學(xué)期期中考試語文試題(解析版)
- 樂陵誠信文化建設(shè)制度
- 靜脈輸液操作規(guī)范與并發(fā)癥預(yù)防指南
- 臨床正確標(biāo)本采集規(guī)范
- 福建省福州市福清市2024-2025學(xué)年二年級(jí)上學(xué)期期末考試語文試卷
- 2025年CAR-NK細(xì)胞治療臨床前數(shù)據(jù)
- 班團(tuán)活動(dòng)設(shè)計(jì)
- 基金通道業(yè)務(wù)合同協(xié)議
- 黨參對(duì)人體各系統(tǒng)作用的現(xiàn)代藥理研究進(jìn)展
- 交通銀行理財(cái)合同范本
- 林業(yè)結(jié)構(gòu)化面試題庫及答案
- 肺結(jié)節(jié)的影像學(xué)表現(xiàn)
- 藥廠新員工培訓(xùn)課件
評(píng)論
0/150
提交評(píng)論