版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第10章主成分分析與因子分析Outline第一節(jié)主成分分析第二節(jié)因素分析第三節(jié)實例分析主成分分析和因子分析
PrincipalComponentAnalysis&FactorAnalysis在研究實際問題時,往往需要收集多個變量。但這樣會使多個變量間存在較強的相關(guān)關(guān)系,即這些變量間存在較多的信息重復(fù),直接利用它們進行分析,不但模型復(fù)雜,還會因為變量間存在多重共線性而引起較大的誤差為能夠充分利用數(shù)據(jù),通常希望用較少的新變量代替原來較多的舊變量,同時要求這些新變量盡可能反映原變量的信息主成分分析和因子分子正是解決這類問題的有效方法。它們能夠提取信息,使變量簡化降維,從而使問題更加簡單直觀第一節(jié)主成分分析一、主成分分析的基本原理二、主分量的導(dǎo)出什么是主成分分析?2008年8月主成分的概念由KarlPearson在1901年提出考察多個變量間相關(guān)性一種多元統(tǒng)計方法研究如何通過少數(shù)幾個主成分principalcomponent來解釋多個變量間的內(nèi)部結(jié)構(gòu)。即從原始變量中導(dǎo)出少數(shù)幾個主分量,使它們盡可能多地保留原始變量的信息,且彼此間互不相關(guān)主成分分析的目的:數(shù)據(jù)的壓縮;數(shù)據(jù)的解釋常被用來尋找判斷事物或現(xiàn)象的綜合指標,并對綜合指標所包含的信息進行適當?shù)慕忉屢弧⒅鞒煞址治龅幕舅枷?/p>
這兩個相關(guān)變量所攜帶的信息(在統(tǒng)計上信息往往是指數(shù)據(jù)的變異)進行濃縮處理假定只有兩個變量x1和x2,從散點圖可見兩個變量存在相關(guān)關(guān)系,這意味著兩個變對量提供的信息有重疊如果把兩個變量用一個變量來表示,同時這一個新的變量又盡可能包含原來的兩個變量的信息,這就是降維的過程。橢圓中有一個長軸和一個短軸,都稱為主軸。在長軸方向,數(shù)據(jù)的變化明顯較大,而短軸方向變化則較小如果沿著長軸方向設(shè)定一個新的坐標系,則新產(chǎn)生的兩個變量和原始變量間存在一定的數(shù)學(xué)換算關(guān)系,同時這兩個新變量之間彼此不相關(guān),而且長軸變量攜帶了大部分的數(shù)據(jù)變化信息,而短軸變量只攜帶了一小部分變化的信息(變異)此時,只需要用長軸方向的變量就可以代表原來兩個變量的信息。這樣也就把原來的兩個變量降維成了一個變量。長短軸相差越大,降維也就越合理圖示每個變量都有一個坐標軸,所以有幾個變量就有幾主軸。首先把橢球的各個主軸都找出來,再用代表大多數(shù)數(shù)據(jù)信息的最長的幾個軸作為新變量,這樣,降維過程也就完成了。找出的這些新變量是原來變量的線性組合,叫做主成分。主成分的選擇標準選擇標準是什么?被選的主成分所代表的主軸的長度之和占了主軸總程度之和的大部分。在統(tǒng)計上,主成分所代表的原始變量的信息用其方差來表示。因此,所選擇的第一個主成分是所有主成分中的方差最大者,即Var(yi)最大。如果第一個主成分不足以代表原來的個變量,在考慮選擇第二個主成分,依次類推。這些主成分互不相關(guān),且方差遞減?!鶕?jù)主成分貢獻率一般來說,主成分的累計方差貢獻率達到80%以上的前幾個主成分,都可以選作最后的主成分。-根據(jù)特征根的大小一般情況下,當特征根小于1時,就不再選作主成分了,因為該主成分的解釋力度還不如直接用原始變量解的釋力度大。選擇主成分的數(shù)量究竟選擇幾個主成分才合適呢?一般要求所選主成分的方差總和占全部方差的80%以上就可以了。當然,這只是一個大體標準,具體選擇幾個要看實際情況。如果原來的變量之間的相關(guān)程度高,降維的效果就會好一些,所選的主成分就會少一些,如果原來的變量之間本身就不怎么相關(guān),降維的效果自然就不好。主成分分析的步驟對原來的p個指標進行標準化,以消除變量在水平和量綱上的影響根據(jù)標準化后的數(shù)據(jù)矩陣求出相關(guān)系數(shù)矩陣求出協(xié)方差矩陣的特征根和特征向量確定主成分,并對各主成分所包含的信息給予適當?shù)慕忉尩诙?jié)因素分析一、因素分析的基本原理二、共同因素常數(shù)的確定及負荷矩陣的具體求法三、正交旋轉(zhuǎn)與斜交旋轉(zhuǎn)什么是因素分析?
factoranalysis由CharlesSpearman于1904年首次提出的。與主成分分析類似,它們都是要找出少數(shù)幾個新的變量來代替原始變量。不同之處:主成分分析中的主成分個數(shù)與原始變量個數(shù)是一樣的,即有幾個變量就有幾個主成分,只不過最后我們確定了少數(shù)幾個主成分而已。而因子分析則需要事先確定要找?guī)讉€成分,也稱為因子(factor),然后將原始變量綜合為少數(shù)的幾個因子,以再現(xiàn)原始變量與因子之間的關(guān)系,一般來說,因子的個數(shù)會遠遠少于原始變量的個數(shù)。因子分析可以看作是主成分分析的推廣和擴展,但它對問題的研究更深入、更細致一些。實際上,主成分分析可以看作是因子分析的一個特例簡言之,因子分析是通過對變量之間關(guān)系的研究,找出能綜合原始變量的少數(shù)幾個因子,使得少數(shù)因子能夠反映原始變量的絕大部分信息,然后根據(jù)相關(guān)性的大小將原始變量分組,使得組內(nèi)的變量之間相關(guān)性較高,而不同組的變量之間相關(guān)性較低。因此,因子分析屬于多元統(tǒng)計中處理降維的一種統(tǒng)計方法,其目的就是要減少變量的個數(shù),用少數(shù)因子代表多個原始變量因子分析的數(shù)學(xué)模型因變量和因子個數(shù)的不一致,使得不僅在數(shù)學(xué)模型上,而且在實際求解過程中,因子分析和主成分分析都有著一定的區(qū)別,計算上因子分析更為復(fù)雜因子分析可能存在的一個優(yōu)點是:在對主成分和原始變量之間的關(guān)系進行描述時,如果主成分的直觀意義比較模糊不易解釋,主成分分析沒有更好的改進方法;因子分析則額外提供了“因子旋轉(zhuǎn)(factorrotation)”這樣一個步驟,可以使分析結(jié)果盡可能達到易于解釋且更為合理的目的因子分析的數(shù)據(jù)檢驗因子分析要求樣本的個數(shù)要足夠多。一般要求樣本的個數(shù)至少是變量的5倍以上。同時,樣本總數(shù)據(jù)量理論要求應(yīng)該在100以上用于因子分析的變量必須是相關(guān)的。如果原始變量都是獨立的,意味著每個變量的作用都是不可替代的,則無法降維檢驗方法計算各變量之間的相關(guān)矩陣,觀察各相關(guān)系數(shù)。若相關(guān)矩陣中的大部分相關(guān)系數(shù)小于0.3,則不適合作因子分析使用Kaiser-Meyer-Olkin檢驗(簡稱KMO檢驗)和Bartlett球度檢驗(Bartlett’stestofsphericity)來判斷因子命名—旋轉(zhuǎn)因子旋轉(zhuǎn)factorrotation的目的是使因子的含義更加清楚,以便于對因子的命名和解釋旋轉(zhuǎn)的方法有正交旋轉(zhuǎn)和斜交旋轉(zhuǎn)兩種-正交旋轉(zhuǎn)是指坐標軸始終保持垂直90度旋轉(zhuǎn),這樣新生成的因子仍可保持不相關(guān)-斜交旋轉(zhuǎn)坐標軸的夾角可以是任意的,因此新生成的因子不能保證不相關(guān)。因此實際應(yīng)用中更多地使用正交旋轉(zhuǎn)因素分析中旋轉(zhuǎn)的方法2008年8月Varimax方差最大正交旋轉(zhuǎn):最常用的旋轉(zhuǎn)方法。使各因子保持正交狀態(tài),但盡量使各因子的方法達到最大,即相對的載荷平方和達到最大,從而方便對因子的解釋Quartimax四次方最大正交旋轉(zhuǎn):該方法傾向于減少和每個變量有關(guān)的因子數(shù),從而簡化對原變量的解釋Equamax平方最大正交旋轉(zhuǎn):該方法介于方差最大正交旋轉(zhuǎn)和四次方最大正交旋轉(zhuǎn)之間DirectOblimin斜交旋轉(zhuǎn):該方法需要事先指定一個因子映像的自相關(guān)范圍Promax:該方法在方差最大正交旋轉(zhuǎn)的基礎(chǔ)上進行斜交旋轉(zhuǎn)幾點說明主成分分析和因子分析都是多元分析中處理降維的兩種統(tǒng)計方法。只有當原始數(shù)據(jù)中的變量之間具有較強的相關(guān)關(guān)系時,降維的效果才會明顯,否則不適合進行主成分分析和因子分析主成分和因子的選擇標準應(yīng)結(jié)合具體問題而定。在某種程度上取決于研究者的知識和經(jīng)驗,而不是方法本身即使得到了滿意的主成分或因子,在運用它們對實際問題進行評價、排序等分析時,仍然要保持謹慎,因為主成分和因子畢竟是高度抽象的量,無論如何,它們的含義都不如原始變量清晰因子分析
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 46806-2025水果罐頭裝罐介質(zhì)質(zhì)量通則
- 2025年南京大學(xué)智慧網(wǎng)絡(luò)與通信研究院準聘長聘崗位(事業(yè)編制)招聘備考題庫完整答案詳解
- 民航華東地區(qū)管理局機關(guān)服務(wù)中心2025年公開招聘工作人員備考題庫及一套參考答案詳解
- 2026年中水回用管道標識合同
- 2026年施工安全系數(shù)合同
- 2026年商標注冊申請代理合同
- 2025年醫(yī)院醫(yī)保年終工作總結(jié)模版(2篇)
- 2025年醫(yī)院醫(yī)??脐P(guān)于dip工作總結(jié)(3篇)
- 2025年自貢市自流井區(qū)飛龍峽鎮(zhèn)人民政府招聘編外聘用人員的備考題庫及答案詳解一套
- 2025國考國家稅務(wù)總局韶關(guān)市湞江區(qū)稅務(wù)局面試試題及解析答案
- 電力電纜-電力電纜附件安裝方法及步驟(電氣設(shè)備運行維護)
- 《醫(yī)學(xué)美容技術(shù)》課件-實訓(xùn):VISIA皮膚檢測儀(理論)
- 項目經(jīng)理安全早班會
- 醫(yī)學(xué)影像圖像質(zhì)量管理
- 《如何理解「銷售」》課件
- TGDNAS 049-2024 脊髓神經(jīng)功能評估技術(shù)
- 2022年北京海淀初二(上)期末語文試卷及答案
- 分布式光伏電站支架結(jié)構(gòu)及荷載計算書
- GB/T 16475-2023變形鋁及鋁合金產(chǎn)品狀態(tài)代號
- 門診藥房運用PDCA降低門診藥房處方調(diào)配差錯件數(shù)品管圈QCC成果匯報
- 化工有限公司年產(chǎn)4000噸-N-N-二甲基苯胺項目安全預(yù)評價報告
評論
0/150
提交評論