下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、201U 年 8 JJ統(tǒng)計(jì)研兀Statistical Research如何正確應(yīng)用SPSS軟件做主成分分析李小勝陳珍珍內(nèi)容提要=簽于II前很藝川SPSS軟件分析主成分的教材中和發(fā)表的文章中冇不少錯(cuò)謀Z處木文從主成分分 析與因予分析的關(guān)系出發(fā),借用SPSS軟件自帯的數(shù)據(jù),進(jìn)行了 1E確的»作,并將其結(jié)果與SAS軟件的結(jié)果進(jìn)行比 較兩者完全相同關(guān)犍詞:SPSS:主成分分析:因f分析中圖分類巧812文獻(xiàn)標(biāo)識(shí)碼川文坯編巧:1002 -4565 2010)08 -0105 -04Correctly Using SPSS Software for Principal Components Ana
2、lysisLi Xiao?<heng & Chen ZhenzhtMiAbstract: In icw of the error* in many books an<l articles about applying SPSS software lor principal coniponrnls duals *i*. ihz |>a|»« rllw riglil oprruti(»ii> in lining SPSS from lli<- ir-Lili<>ii'*lnp l>» tu &l
3、t; in pi incipul <*<>ni|)on«-iilx unalxand factor unalvis* anrl linds that thr rrsulls arr I hr same with thdl Iroin thr SAS sofhvarr Key words:SPSS: Principal coinponriitMFuclor dnalyis© 1994-2012 China Academic Journal Electronic Publishing House. All rights reserved, © 199
4、4-2012 China Academic Journal Electronic Publishing House. All rights reserved, 主成分分析 principal components analysis)也稱 主分吊分析,由銀特林hotelling)于1933年冇先提 出。主成分分析是利用降維的思想在損失很少信 息的詢捉卜把參個(gè)描標(biāo)轉(zhuǎn)化為幾個(gè)綜合指標(biāo)的多元 統(tǒng)計(jì)方法.通常把轉(zhuǎn)化肩的綜介指標(biāo)稱Z為主成 分,英中每個(gè)主成分都是原始變杲的線性組介月各 個(gè)主成分Z間互不相關(guān),這就便得主成分比原始變 51具仃某些更優(yōu)越的性能。這樣在研究交朵問(wèn)題時(shí) 就吋以只考慮少數(shù)幾個(gè)主成分而
5、不至于損火太多信 息,從Iflj更容易抓住主要矛膚,揭示爭(zhēng)物內(nèi)部變武Z 間的規(guī)律性,同時(shí)使問(wèn)題得到簡(jiǎn)化,提高分析效率。由于主成分分析的這些優(yōu)勢(shì),在實(shí)際何題屮遇 到指標(biāo)較多n乞折標(biāo)相關(guān)關(guān)系較大時(shí),人們??紤] 應(yīng)用主成分分析的方法.但是冃前用SPSS軟件分 析主成分的教材中和發(fā)表的文章中右很多錯(cuò)誤和誤 解Z處SAS軟件中仃主成分分析和因子分析的V 門語(yǔ)句,-般不會(huì)出現(xiàn)這種借況):Q)如果把主成 分與原始變駅 或標(biāo)準(zhǔn)化后的變呆)的相關(guān)系數(shù)矩 陣叫做因子負(fù)荷陣,把原始變帚:標(biāo)準(zhǔn)化后用因子來(lái) 表示的系數(shù)陣叫做因子載荷陣,那么S PSS軟件得到 的是因子載荷陣,因子戦荷陣表示標(biāo)準(zhǔn)化后的主成 分或叫公因子,
6、方基為1)來(lái)近似標(biāo)準(zhǔn)化后原始變 杲的系數(shù)矩陣。主成分的系數(shù)是因子載;荷陣推 出的,不是從因子負(fù)荷陣推出的,即從因子分析得到 的載荷陣求主成分的系數(shù)時(shí)很務(wù)教材中和文章中的 公式表達(dá)錯(cuò)溟,雖然實(shí)際數(shù)據(jù)結(jié)果是對(duì)的。這時(shí)的 主成分的方差不是1,即非標(biāo)準(zhǔn)化的主成分3)3 SPSS軟件從相關(guān)系數(shù)求主成分時(shí),主成分應(yīng)表示為 標(biāo)準(zhǔn)化后的隨機(jī)變最的線性組合,仃些文獻(xiàn)中就沒(méi) 加區(qū)分,把主成分直接寫(xiě)成原始變量的線性組合。4)為了從因子分析得到主成分的系數(shù),在SPSS軟 件中對(duì)因子不要旋轉(zhuǎn),實(shí)際上很多人旋轉(zhuǎn)了. 6) 從因子得分系數(shù)矩陣得到主成分系數(shù)表達(dá)式,可以 認(rèn)為因子與標(biāo)準(zhǔn)化原始變量間的變換關(guān)系是可逆 的,因?yàn)橐?/p>
7、子的提取采用主成分方法時(shí),標(biāo)準(zhǔn)化后的 隨機(jī)變鼠完全由因子來(lái)表示小。鑒于以上錯(cuò)誤和 誤解,本文從主成分分析與因子分析的關(guān)系出發(fā),借 用SPSS軟件自帯的例子,進(jìn)行T正確的操作,將其 結(jié)果與SAS軟件進(jìn)行比較,結(jié)果完全相同106統(tǒng)計(jì)研究2010 年 X JJ二、聯(lián)系與區(qū)別0)主成分分析設(shè)對(duì)某一事物的研究涉及到P個(gè)指標(biāo),記為 丫,兀,兀,這P個(gè)指標(biāo)構(gòu)成的P維隨機(jī)向屋為X =(y,.x2.-x )對(duì)X進(jìn)行線性變換,町以形成 新的綜介變量用y表示,也就是說(shuō)新的綜介變量 可以由原來(lái)的變杲線性表示,滿足卜式:齊=幾X, +幾兀+ +幾兀丫2叫E +L£+婦兀丫,"曲+/丿2 +皿丿”Q由
8、于町以任意地対原始變杲進(jìn)行卜.述的線性變 換,不同的線性變換得到的綜合變量、的統(tǒng)計(jì)特性 也不盡相同。通常主成分要求滿足如卜的三個(gè) 條件:1. bb4 = 1,即 b: + b: + + b: = I, b =嘰, 6立,6.),i = 1,2,,p:2-嶺與與相互無(wú)關(guān) &川,j = l,2,p):3. X,是乙,兀,兀的一切滿足條件I的線性 組合中方差最大者汁2是與嶺不相關(guān)的匕,兀, X"的一切滿足條件1的線性組合中方差最大者: :嶺是與斗,打,£都不相關(guān)的盡,禺, Xp的一切滿足條件1的線性組合中方差垃人者?;谝陨先齻€(gè)條件決定的綜介變量,我們把 約,丫,乘新記為
9、®,(;2,,s分別稱為原始 變呈的第一、第二、第P主成分,其系數(shù)重新記為 5, .)=1,2,-,/>),根據(jù)矩陣代數(shù)的知識(shí),每個(gè)主 成分的方差 仙 G), 2 1,2,,P),其實(shí)就是X, X2,Xp的協(xié)方差陣Y 的非零特征值g),于足 主成分與原始變量關(guān)系為:(;、=cllXl + ci2X2 + +G =cllXl +cnX2 + + clltXS =ctlXt +%兀 + 2) idG=、G、C= -),“,那么上式可以表示為:C =中C是正交陣.如果數(shù)據(jù)是標(biāo)準(zhǔn)化后,即從相關(guān)系數(shù)矩陣出發(fā),求得的持征值 9對(duì)應(yīng)的持征向屋為主成分的系數(shù)矩陣。壟于相關(guān) 系數(shù)矩陣還是辰于協(xié)方
10、羞矩陣做主成分分析:當(dāng)分 析中所選擇的經(jīng)濟(jì)變呆貝冇不同的吊綱,變量水平 差界很大,應(yīng)該選擇坯于相關(guān)系數(shù)矩陣的主成分分 析。對(duì)同度量或是取值范IH在同量級(jí)的數(shù)據(jù),還是 直接從協(xié)方差矩陣求主成分。對(duì)上述問(wèn)題涉及到的P個(gè)指標(biāo)x,x2,兀,我 們?yōu)榱藦南嚓P(guān)系數(shù)矩陣出發(fā),將"個(gè)指標(biāo)標(biāo)準(zhǔn)化后 記為ZX =(ZXt, ZX2,ZX”兒相關(guān)系數(shù)矩陣記為 乩那么求得的主成分可以表示為:F、=unZXx +ul2ZX2 + + uZXF2 = ullZXl + unZX2 + + gZXp匚=uZX. + u,2ZX2 + + i*ZX.0 )其中:Ur,=匕匕2,,化,幾,耳',那么上式町以表
11、示為:F = U NX,梵中是正交 陣。U)因子分析因F分析factor aiKilysin )的般模龍'!:設(shè)對(duì)某 一事物的研究涉及到"個(gè)指標(biāo)匕,兀,冬,這P指 標(biāo)冇著較強(qiáng)的相關(guān)性,為了便于研究,在指標(biāo)同向化 的基礎(chǔ)上,將樣木數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化。為了說(shuō)明方便, 將同向化和標(biāo)準(zhǔn)化后的變量向量用ZX表示,即ZX =05,2兀,乙¥,,其均值向量E ZY)=0,協(xié) 方差矩陣記為ZY) = X 其實(shí)這里的協(xié)方差 矩陣 號(hào)相關(guān)系數(shù)矩陣心相同,那么因子分析 的一般模型為:ZX = U J +5”; + +U.X +6zx> =訕 + 也 + + 6XX, = aj + d/
12、 + +64)其中/= W O,(in < p )為公因子,£ =匕,6,6)'為特殊因子,它們都是不町觀測(cè)的 隨機(jī)變量M = g叫做因子載荷陣./的均值 向呆£)=0,協(xié)方差"V y) =l,E Q =0,且&與/ 相互獨(dú)立蟲(chóng)的協(xié)方差矩陣是對(duì)角陣。色)主成分與因子分析的聯(lián)系主成分分析與因子分析都足絳維的分析方法, 利用少數(shù)幾個(gè)變量對(duì)數(shù)據(jù)進(jìn)行解釋.主成分分析是 一種數(shù)據(jù)的變換,I flj不假定數(shù)據(jù)陣有什么樣的結(jié)構(gòu) 形式;因子分析可以看成是一種模型分析,當(dāng)模型的 某些條件不滿足時(shí),因了分析町能圧虛假的。主成 分分析的乖點(diǎn)放在從觀測(cè)變量到主成分的
13、變換上, 因子分析重點(diǎn)放在從阜本因子到觀測(cè)變磧的變換© 1994-2012 China Academic Journal Electronic Publishing House. All rights reserved, 革27卷第8期于小ffl陳珍珍:如何1E確應(yīng)用SPSS軟件做t成分分析107-上,主成分變換是可逆的,I大I子分析則不要求。當(dāng)特 殊因子的變基為0時(shí),主成分分析和因子分析是完 全等價(jià)的°那么對(duì)于一個(gè)因子分析模型怎么估計(jì)其 因子栽荷矩陣兒實(shí)踐中冇很多方法,其中冇一種就 是上述的主成分分析方法,從公式F我們町以得到ZX = 具體表達(dá)式為:+©
14、3;+耳ZXr+ +“/ZX嚴(yán) 5幾 +%凡+"”幾6對(duì)上面的等式6)只保冊(cè)詢z“ (in <p)個(gè)主成 分,而把后而的部分用6代替,則ZXp = Z X, + 6 = u/ + m2/ + + 6)其中:& =“ + "聲幾,G = 1,2,卩)。當(dāng)主成分人,©,£ 是從標(biāo)準(zhǔn)化后的相關(guān)系 數(shù)矩陣求出,各成分相M獨(dú)立,且其方差按大到小的 排序?yàn)槿搿靶?quot;我們將式6)做Fjg心叫 (符號(hào)9表示記為的慈思幾 通過(guò)上坯變 換,我們就能得到與式Q)類似的因子模型表達(dá)式。 注意這里的6,勺,牛與式)的6,6,6是 仃區(qū)別的,式)耍求它們相互獨(dú)
15、立而這里它們Z 間不獨(dú)立,為了方便還是用原符號(hào)表示。實(shí)際上對(duì)于主成分分析SPSS軟件中沒(méi)冇對(duì)應(yīng) 的模塊,但是因子分析模塊中有利用主成分分析來(lái) 求得因子載荷矩陣,根據(jù)上面主成分分析與因子分 析的聯(lián)系,我們可以從SPSS的因子載荷矩陣得到主 成分分析的系數(shù)。rti于主成分分析所得到的特殊因 子6,6,片并不獨(dú)立,因此所得的因子載荷并不 完全正確。但是當(dāng)共同度絞大時(shí),特殊因f所起的 V:用較小,那么特殊因子之間的相關(guān)性所帶來(lái)的影 響就幾乎以忽略不計(jì),這時(shí)主成分分析和因子分 析是完全等價(jià)的(公內(nèi)于的數(shù)冃與變駅一樣多幾 這時(shí)叮以利用式)中的反推出式G)中的叫, 它們之間的關(guān)系是5 = 5 內(nèi),也就是推出
16、了從因 子載荷矩陣得到主成分系數(shù)表達(dá)式。三、主成分分析的SPSS實(shí)現(xiàn)本文利用SPSS軟件自帶的數(shù)據(jù)集Employee <la(a為例說(shuō)明如何利用因子分析模塊得到主成分系 數(shù)。數(shù)擁集 Employee data 為 Midwestern 銀彳J,在 1969-1971年之間扈員情況的數(shù)據(jù),共包括474條 觀測(cè)及如卜10個(gè)變S:kl覷測(cè)號(hào)).Gender性別)、 B4ate (出生H期)Eclue (受教疔程度(年數(shù))、 Jobcat CE 作種類)、Salary(U 前年薪)、Salbegin (開(kāi) 始受聘時(shí)的年薪)、Joblime (受屣時(shí)間)、Prevexp (受 麻以前的工作時(shí)何)M
17、inority顯否少數(shù)民族.我 們將 ednc>salary salbeginjobtime»|>revexp 依次表示 為X,尼,X"兀,X"數(shù)據(jù)在同向化的基礎(chǔ)上 SPSS中的因子分析默認(rèn)針對(duì)標(biāo)準(zhǔn)化后的數(shù)據(jù)來(lái)分 析的'所 以利用 Analyze Descriptive Stuti»tics Descriplives進(jìn)入描述性統(tǒng)計(jì)對(duì)話框,依次選中變 量 ,兀,兀并點(diǎn)向右的箭頭按鈕,這五 個(gè)變量便進(jìn)入 variables 窗口,選中 Save staixlanlized as variables復(fù)選框,點(diǎn)擊OK按鈕,即可在數(shù)據(jù)窗口 得到
18、標(biāo)準(zhǔn)化的數(shù)據(jù)ZX,. zx2, ZX., ZX4. ZX,接F 來(lái)對(duì)標(biāo)準(zhǔn)化后的數(shù)據(jù)進(jìn)行分析,點(diǎn)擊Analyzes Data Reduction Factor進(jìn)入 Factor Analysis 伙 f 分析) 對(duì)話框.依次選中變ffl 原始數(shù)據(jù)也是一樣,標(biāo)準(zhǔn)化主要是在主成分表達(dá)中 需要)并點(diǎn)向冇的箭頭按鈕,這血個(gè)變戰(zhàn)便進(jìn)入 variables窗口,點(diǎn)擊右側(cè)的OK按鈕,即可得到表1、 表2和表3農(nóng) 1Communalities QE同度)InitialExlraclionZXl1.0000. 754ZX21.0000. 896ZX31.0000.916ZX41.0000. 999ZX51.000
19、0. 968農(nóng) 2 Total Variance Explained (&方差解釋部分)Initial Eigenvalues 5叫MVTotal% of Variance(Cumulative %12. 47749. 54149. 54 i21.05221.04670. 58731.00320. 07090. 65640. 3657. 29997. 95550. 1022. 045100.000眉3 Component Matrix W栽荷矩陣)(loin|M>nriit123ZX10. 846 0. 194-0.014ZX20. 9400. 1040. 029ZX30.917
20、0. 264-0. 077ZX40. 068-0. 0520. 996ZX5-0. 1780. 9650. 069表1中的Conimunalities供同度)數(shù)據(jù)給出了 該次分析從毎個(gè)原始變&中提取的信息牯征根大 于1,可以看到除受教育程度ex,)信息損失較大 外,主成分兒乎包含了各個(gè)原始變屋至少90%的倍 息。表 2 中的 Total Variance Explained 1 方差解釋 部分)則顯示了齊主成分解祥原始變杲總方羞的情 況,SPSS默認(rèn)保留特征根大于I的主成分,在本例 中看到當(dāng)保的3個(gè)主成分為宜,這3個(gè)主成分集中 了原始5個(gè)變量信息的90.66% ,町見(jiàn)效果圧比較 好的。
21、表3中的Coiii|>onent Matrix Q天I子載荷矩陣) 給出了標(biāo)準(zhǔn)化原始變帚:用公因子線性表示的近似表 達(dá)式,提取三個(gè)公因子時(shí)的因子模熨町以表示為:ZJ, =0. 846/; -0. 194/' -0.014/; +6ZX2 = 0. 940/; + 0. 10勺;+ 0. 02% + e.ZX, = -0. 17勺;+0. 965/; +0. 06% + 氣根據(jù)上面的因子載荷系數(shù)與主成分系數(shù)叫 Z間的關(guān)系5 = 7頁(yè)、也就推出了從和關(guān)系數(shù)矩 陣得到的主成分系數(shù)農(nóng)達(dá)式:F, =(0.846科 + 0. 9402*2 + -0. 178ZX, )/ yT477F, =
22、(- 0. I94ZX, + 0. 104ZX, + +0.965 ZX5) / /LO52F, = (- 0. 014ZX, + 0. 029ZX, + + 0. 069 ZX,)/ /.003實(shí)際中我們通常只選取詢兒個(gè)主成分,例如 人,佇,耳來(lái)反映原"個(gè)變量信息。主成分系數(shù)還 可以通過(guò)進(jìn)入Factor Analysis對(duì)話框并選擇好變駅 Z后,點(diǎn)擊對(duì)話框F部的Scores按鈕進(jìn)入Factor Scores 對(duì) 話框,選擇 Display factor score coefficient matrix選項(xiàng),并按Continue繼續(xù),最后點(diǎn)擊OK按鈕 運(yùn)行,也叮以推出主成分的系數(shù),具體參見(jiàn)何曉群教 授的多元統(tǒng)計(jì)分析.作者又應(yīng)用SAS軟件 僅相關(guān) 系數(shù)出發(fā))得到的結(jié)果與上述的結(jié)果一樣.四、結(jié)論從上而的分析可以看出,因子分析和主成分分 析都依賴于原始變量,所以原始變量的選擇很重要 怖標(biāo)的選擇非常乘要).如果原始變駅都本質(zhì)匕 獨(dú)芷,那么降維就可能失敗,這是因?yàn)楹茈y把很多獨(dú) 立變51用少數(shù)綜合的變量概括。數(shù)據(jù)越相關(guān),降維 效果就越好。其次,對(duì)于具體的問(wèn)題折標(biāo)選取之后 還要對(duì)梵處理,正向指標(biāo)、逆向的指標(biāo)和區(qū)間些指標(biāo) 怎樣轉(zhuǎn)換成町以比較的指標(biāo)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年宣化科技職業(yè)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性考試題庫(kù)帶答案詳解
- 2026年九江理工職業(yè)學(xué)院?jiǎn)握新殬I(yè)傾向性考試題庫(kù)及參考答案詳解一套
- 2026年煙臺(tái)黃金職業(yè)學(xué)院?jiǎn)握新殬I(yè)技能考試題庫(kù)及完整答案詳解1套
- 2026年鎮(zhèn)江市高等??茖W(xué)校單招職業(yè)技能測(cè)試題庫(kù)及答案詳解1套
- 2026年明達(dá)職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)技能考試題庫(kù)含答案詳解
- 2026年廣州科技貿(mào)易職業(yè)學(xué)院?jiǎn)握新殬I(yè)傾向性考試題庫(kù)及參考答案詳解一套
- 銀行應(yīng)變類面試題及答案
- 儋州事業(yè)編面試題及答案
- 房東與租戶消防協(xié)議書(shū)范本
- 2025年國(guó)家知識(shí)產(chǎn)權(quán)局專利局專利審查協(xié)作河南中心招聘60人備考題庫(kù)及完整答案詳解一套
- FP93中文操作說(shuō)明pdf
- Q∕SY 1736-2014 評(píng)標(biāo)方法選擇和評(píng)標(biāo)標(biāo)準(zhǔn)編制規(guī)范
- GB∕T 36566-2018 煤直接液化 石腦油
- 混凝土課程設(shè)計(jì)-鋼筋混凝土結(jié)構(gòu)樓蓋課程設(shè)計(jì)
- 復(fù)旦大學(xué)基礎(chǔ)物理實(shí)驗(yàn)期末模擬題庫(kù)
- BT-GLKZ-2x系列微電腦鍋爐控制器
- 識(shí)記并正確書(shū)寫(xiě)現(xiàn)代規(guī)范漢字教案
- 施工現(xiàn)場(chǎng)安全生產(chǎn)檢查制度
- 中央空調(diào)報(bào)價(jià)模板
- 某工業(yè)廠房BIM實(shí)施方案
- 卒中中心區(qū)域協(xié)同救治網(wǎng)絡(luò)建設(shè)合作協(xié)議
評(píng)論
0/150
提交評(píng)論