因子分析ppt課件.ppt_第1頁
因子分析ppt課件.ppt_第2頁
因子分析ppt課件.ppt_第3頁
因子分析ppt課件.ppt_第4頁
因子分析ppt課件.ppt_第5頁
已閱讀5頁,還剩73頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、因子分析Factor Analysis,因子分析的基本理論,1、什么是因子分析? 因子分析是主成分分析的推廣,也是利用降維的思想,由研究原始變量相關矩陣或協(xié)方差矩陣的內(nèi)部依賴關系出發(fā),把一些具有錯綜復雜關系的多個變量歸結為少數(shù)幾個綜合因子的一種多元統(tǒng)計分析方法。 2、因子分析的基本思想: 把每個研究變量分解為幾個影響因素變量,將每個原始變量分解成兩部分因素,一部分是由所有變量共同具有的少數(shù)幾個公共因子組成的,另一部分是每個變量獨自具有的因素,即特殊因子。,因子分析的基本理論,3、因子分析的目的: 因子分析的目的之一,簡化變量維數(shù)。即要使因素結構簡單化,希望以最少的共同因素(公共因子),能對總變

2、異量作最大的解釋,因而抽取得因子愈少愈好,但抽取因子的累積解釋的變異量愈大愈好。 在因子分析的公共因子抽取中,應最先抽取特征值最大的公共因子,其次是次大者,最后抽取公共因子的特征值最小,通常會接近0。,因子分析的基本理論,例:在企業(yè)形象或品牌形象的研究中,消費者可以通過一個有24個指標構成的評價體系,評價百貨商場的24個方面的優(yōu)劣。 但消費者主要關心的是三個方面,即商店的環(huán)境、商店的服務和商品的價格。因子分析方法可以通過24個變量,找出反映商店環(huán)境、商店服務水平和商品價格的三個潛在的因子,對商店進行綜合評價。而這三個公共因子可以表示為: 稱 是不可觀測的潛在因子,稱 為公共因子。24個變量共享

3、這三個因子,但是每個變量又有自己的個性,不被包含的部分,稱為特殊因子。,因子分析的基本理論,4、主成分分析分析與因子分析的聯(lián)系和差異: 聯(lián)系:(1)因子分析是主成分分析的推廣,是主成分分析的逆問題。 (2)二者都是以降維為目的,都是從協(xié)方差矩陣或相關系數(shù)矩陣出發(fā)。 區(qū)別:(1)主成分分析模型是原始變量的線性組合,是將原始變量加以綜合、歸納,僅僅是變量變換;而因子分析是將原始變量加以分解,描述原始變量協(xié)方差矩陣結構的模型;只有當提取的公因子個數(shù)等于原始變量個數(shù)時,因子分析才對應變量變換。 (2)主成分分析,中每個主成分對應的系數(shù)是唯一確定的;因子分析中每個因子的相應系數(shù)即因子載荷不是唯一的。 (

4、3)因子分析中因子載荷的不唯一性有利于對公因子進行有效解釋;而主成分分析對提取的主成分的解釋能力有限。,因子分析的基本理論,5、因子分析模型:,設 個變量,如果表示為,(1) (2),稱為 公共因子,是不可觀測的變量,他們的系數(shù)稱為因子載荷。 是特殊因子,是不能被前m個公共因子包含的部分。其中:,相互獨立即不相關;,即 互不相關,方差為1。,(3),即互不相關,方差不一定相等, 。 滿足以上條件的,稱為正交因子模型 如果(2)不成立,即 ,各公共因子之間不獨立,則因子分析模型為斜交因子模型,因子分析案例,F1 體現(xiàn)邏輯思維和運算能力,F(xiàn)2 體現(xiàn)空間思維和推理能力,因子分析的基本理論,6、因子分

5、析模型中的幾個重要統(tǒng)計量的意義: (1)因子負荷量(或稱因子載荷)-是指因子結構中原始變量與因子分析時抽取出的公共因子的相關程度。,在各公共因子不相關的前提下, (載荷矩陣中第i行,第j列的元素)是隨機變量xi*與公共因子Fj的相關系數(shù),表示xi*依賴于Fj的程度。反映了第i個原始變量在第j個公共因子上的相對重要性。因此 絕對值越大,則公共因子Fj與原有變量xi的關系越強。,(2)共同度-又稱共性方差或公因子方差(community或common variance)就是變量與每個公共因子之負荷量的平方總和(一行中所有因素負荷量的平方和)。變量 的共同度是因子載荷矩陣的第i行的元素的平方和。記為

6、 從共同性的大小可以判斷這個原始實測變量與公共因子間之關系程度。如因子分析案例中 共同度h12 = 0.8962 + 0.3412 = 0.919 特殊因子方差(剩余方差)-各變量的特殊因素影響大小就是1減掉該變量共同度的值。如 =1- 0.919 = 0.081,(3)特征值-是第j個公共因子Fj對于X*的每一分量Xi*所提供的方差的總和。又稱第j個公共因子的方差貢獻。即每個變量與某一共同因素之因素負荷量的平方總和(因子載荷矩陣中某一公共因子列所有因子負荷量的平方和)。 如因子分析案例中 F1的特征值 G=(0.896)平方+(0.802)平方+(0.516)平方+(0.841)平方+(0.

7、833)平方=3.113 (4)方差貢獻率-指公共因子對實測變量的貢獻,又稱變異量 方差貢獻率=特征值G/實測變量數(shù)p,是衡量公共因子相對重要性的指標,Gi越大,表明公共因子Fj對X*的貢獻越大,該因子的重要程度越高 如因子分析案例中 F1的貢獻率為3.113/5=62.26%,因子的基本內(nèi)容,1、因子分析的基本步驟: (1)因子分析的前提條件鑒定 考察原始變量之間是否存在較強的相關關系,是否適合進行因子分析。因為: 因子分析的主要任務之一就是對原有變量中信息重疊的部分提取和綜合成因子,最終實現(xiàn)減少變量個數(shù)的目的。所以要求原有變量之間應存在較強的相關關系。否則,如果原有變量相互獨立,不存在信息

8、重疊,也就無需進行綜合和因子分析。 (2)因子提取 研究如何在樣本數(shù)據(jù)的基礎上提取綜合因子。,(3)因子旋轉 通過正交旋轉或斜交旋轉使提取出的因子具有可解釋性。 (4)計算因子得分 通過各種方法求解各樣本在各因子上的得分,為進一步分析奠定基礎。,2、因子分析前提條件相關性分析: 分析方法主要有: (1)計算相關系數(shù)矩陣(correlation coefficients matrix) 如果相關系數(shù)矩陣中的大部分相關系數(shù)值均小于0.3,即各變量間大多為弱相關,原則上這些變量不適合進行因子分析。 (2)計算反映象相關矩陣(Anti-image correlation matrix),(3)巴特利特

9、球度檢驗(Bartlett test of sphericity ) 該檢驗以原有變量的相關系數(shù)矩陣為出發(fā)點,其零假設H0是:相關系數(shù)矩陣為單位矩陣,即相關系數(shù)矩陣主對角元素均為1,非主對角元素均為0。(即原始變量之間無相關關系)。,(4)KMO(Kaiser-Meyer-Olkin)檢驗 KMO檢驗的統(tǒng)計量是用于比較變量間簡單相關系數(shù)矩陣和偏相關系數(shù)的指標,數(shù)學定義為: KMO值越接近1,意味著變量間的相關性越強,原有變量適合做因子分析;越接近0,意味變量間的相關性越弱,越不適合作因子分析。 Kaiser給出的KMO度量標準:0.9以上非常適合;0.8表示適合;0.7表示一般;0.6表示不太

10、適合;0.5以下表示極不適合。,3、因子提取和因子載荷矩陣的求解: 因子載荷矩陣求解的方法: (1)基于主成分模型的主成分分析法 (2)基于因子分析模型的主軸因子法 (3)極大似然法 (4)最小二乘法 (5)a因子提取法 (6)映象分析法,(1)基于主成分模型的主成分分析法Principal components,設隨機向量 的均值為,協(xié)方差為, 為的特征根, 為對應的 標準化特征向量,則,上式給出的表達式是精確的,然而,它實際上是毫無價值的,因為我們的目的是尋求用少數(shù)幾個公共因子解釋,故略去后面的p-m項的貢獻,有:,上式有一個假定,模型中的特殊因子是不重要的,因而從的分解中忽略了特殊因子的

11、方差。,(2)基于因子分析模型的主軸因子法Principal axis factoring 是對主成分方法的修正,假定我們首先對變量進行標準化變換。則 R=AA+D R*=AA=R-D 稱R*為約相關矩陣,R*對角線上的元素是 ,而不是1。,直接求R*的前p個特征根和對應的正交特征向量。得如下的矩陣:,當特殊因子 的方差已知:,4、因子旋轉: 為什么要旋轉因子? 建立了因子分析數(shù)學目的不僅僅要找出公共因子以及對變量進行分組,更重要的要知道每個公共因子的意義,以便進行進一步的分析,如果每個公共因子的含義不清,則不便于進行實際背景的解釋。由于因子載荷陣是不惟一的,所以應該對因子載荷陣進行旋轉。目的

12、是使每個變量在盡可能少的因子上有比較高的載荷,讓某個變量在某個因子上的載荷趨于1,而在其他因子上的載荷趨于0。即:使載荷矩陣每列或行的元素平方值向0和1兩極分化。,奧運會十項全能運動項目 得分數(shù)據(jù)的因子分析 百米跑成績 跳遠成績 鉛球成績 跳高成績 400米跑成績 百米跨欄 鐵餅成績 撐桿跳遠成績 標槍成績 1500米跑成績,相關矩陣,因子載荷矩陣,因子載荷矩陣可以看出,除第一因子在所有的變量在公共因子上有較大的正載荷,可以稱為一般運動因子。其他的3個因子不太容易解釋。似乎是跑和投擲的能力對比,似乎是長跑耐力和短跑速度的對比。于是考慮旋轉因子,得下表,旋轉變幻后因子載荷矩陣,通過旋轉,因子有了

13、較為明確的含義。 百米跑, 跳遠和 400米跑,需要爆發(fā)力的項目在 有較大的載荷, 可以稱為短跑速度因子; 鉛球, 鐵餅和 標槍在 上有較大的載荷,可以稱為爆發(fā)性臂力因子; 百米跨欄, 撐桿跳遠, 跳遠和為 跳高在 上有較大的載荷, 爆發(fā)腿力因子; 長跑耐力因子。,旋轉的方法有:(1)正交旋轉;(2)斜交旋轉 (1)正交旋轉 由初始載荷矩陣A左乘一正交矩陣得到;目的是新的載荷系數(shù)盡可能的接近于0或盡可能的遠離0;只是在旋轉后的新的公因子仍保持獨立性。主要有以下方法: varimax:方差最大旋轉。簡化對因子的解釋 quartmax:四次最大正交旋轉。簡化對變量的解釋 equamax:等量正交旋

14、轉,A、方差最大法 方差最大法從簡化因子載荷矩陣的每一列出發(fā),使和每個因子有關的載荷的平方的方差最大。當只有少數(shù)幾個變量在某個因子上有較高的載荷時,對因子的解釋最簡單。方差最大的直觀意義是希望通過因子旋轉后,使每個因子上的載荷盡量拉開距離,一部分的載荷趨于1,另一部分趨于0。,B、四次方最大旋轉 四次方最大旋轉是從簡化載荷矩陣的行出發(fā),通過旋轉初始因子,使每個變量只在一個因子上有較高的載荷,而在其它的因子上盡可能低的載荷。如果每個變量只在一個因子上有非零的載荷,這時的因子解釋是最簡單的。 四次方最大法通過使因子載荷矩陣中每一行的因子載荷平方的方差達到最大。,C、等量最大法 等量最大法把四次方最

15、大法和方差最大法結合起來求行和列因子載荷平方的方差的加權平均最大。,(2)斜交旋轉 目的是新的載荷系數(shù)盡可能的接近于0或盡可能的遠離0;只是在旋轉時,放棄了因子之間彼此獨立的限制,旋轉后的新公因子更容易解釋。主要有以下的方法: direct oblimin:直接斜交旋轉。允許因子之間具有相關性; promax:斜交旋轉方法。允許因子之間具有相關性;,5、因子得分 因子得分的概念 前面我們主要解決了用公共因子的線性組合來表示一組觀測變量的有關問題。如果我們要使用這些因子做其他的研究,比如把得到的因子作為自變量來做回歸分析,對樣本進行分類或評價,這就需要我們對公共因子進行測度,即給出公共因子的值。

16、,例:人均要素變量因子分析。對我國32個省市自治區(qū)的要素狀況作因子分析。指標體系中有如下指標: X1 :人口(萬人) X2 :面積(萬平方公里) X3 :GDP(億元) X4 :人均水資源(立方米/人) X5:人均生物量(噸/人) X6:萬人擁有的大學生數(shù)(人) X7:萬人擁有科學家、工程師數(shù)(人),Rotated Factor Pattern FACTOR1 FACTOR2 FACTOR3 X1 -0.21522 -0.27397 0.89092 X2 0.63973 -0.28739 -0.28755 X3 -0.15791 0.06334 0.94855 X4 0.95898 -0.01

17、501 -0.07556 X5 0.97224 -0.06778 -0.17535 X6 -0.11416 0.98328 -0.08300 X7 -0.11041 0.97851 -0.07246,X1=-0.21522F1-0.27397F2+0.89092F3 X2=0.63973F1-0.28739F2-0.28755F3 X3=-0.15791F1+0.06334F2+0.94855F3 X4=0.95898F1-0.01501F2-0.07556F3 X5=0.97224F1-0.06778F2-0.17535F3 X6=-0.11416F1+0.98328F2-0.08300F3

18、 X7=-0.11041F1+0.97851F2-0.07246F3,Standardized Scoring Coefficients FACTOR1 FACTOR2 FACTOR3 X1 0.05764 -0.06098 0.50391 X2 0.22724 -0.09901 -0.07713 X3 0.14635 0.12957 0.59715 X4 0.47920 0.11228 0.17062 X5 0.45583 0.07419 0.10129 X6 0.05416 0.48629 0.04099 X7 0.05790 0.48562 0.04822,F1=0.05764X1+0.

19、22724X2+0.14635X3+0.47920X4+0.45583X5+0.05416X6+0.05790X7 F2=-0.06098X1-0.09901X2+0.12957X3+0.11228X4+0.07419X5+0.48629X6+0.48562X7 F3=0.50391X1-0.07713X2+0.59715X3+0.17062X4+0.10129X5+0.04099X6+0.04822X7,前三個因子得分,案例分析:,國民生活質量的因素分析 國家發(fā)展的最終目標,是為了全面提高全體國民的生活質量,滿足廣大國民日益增長的物質和文化的合理需求。在可持續(xù)發(fā)展消費的統(tǒng)一理念下,增加社會財

20、富,創(chuàng)造更多的物質文明和精神文明,保持人類的健康延續(xù)和生生不息,在人類與自然協(xié)同進化的基礎上,維系人類與自然的平衡,達到完整的代際公平和區(qū)際公平(即時間過程的最大合理性與空間分布的最大合理化)。 從1990年開始,聯(lián)合國開發(fā)計劃署(UYNP)首次采用“人文發(fā)展系數(shù)”指標對于國民生活質量進行測度。人文發(fā)展系數(shù)利用三類內(nèi)涵豐富的指標組合,即人的健康狀況(使用出生時的人均預期壽命表達)、人的智力程度(使用組合的教育成就表達)、人的福利水平(使用人均國民收入或人均GDP表達),并且特別強調(diào)三類指標組合的整體表達內(nèi)涵,去衡量一個國家或地區(qū)的社會發(fā)展總體狀況以及國民生活質量的總水平。,在這個指標體系中有如

21、下的指標: X1預期壽命 X2成人識字率 X3綜合入學率 X4人均GDP(美圓) X5預期壽命指數(shù) X6教育成就指數(shù) X7人均GDP指數(shù),旋轉后的因子結構 Rotated Factor Pattern FACTOR1 FACTOR2 FACTOR3 X1 0.38129 0.41765 0.81714 X2 0.12166 0.84828 0.45981 X3 0.64803 0.61822 0.22398 X4 0.90410 0.20531 0.34100 X5 0.38854 0.43295 0.80848 X6 0.28207 0.85325 0.43289 X7 0.90091 0.

22、20612 0.35052 FACTOR1為經(jīng)濟發(fā)展因子 FACTOR2為教育成就因子 FACTOR3為健康水平因子,被每個因子解釋的方差和共同度: Variance explained by each factor FACTOR1 FACTOR2 FACTOR3 2.439700 2.276317 2.009490 Final Communality Estimates: Total = 6.725507 X1 X2 X3 X4 X5 0.987530 0.945796 0.852306 0.975830 0.992050 X6 X7 0.994995 0.976999,Standardiz

23、ed Scoring Coefficients標準化得分系數(shù) FACTOR1 FACTOR2 FACTOR3 X1 -0.18875 -0.34397 0.85077 X2 -0.24109 0.60335 -0.10234 X3 0.35462 0.50232 -0.59895 X4 0.53990 -0.17336 -0.10355 X5 -0.17918 -0.31604 0.81490 X6 -0.09230 0.62258 -0.24876,生育率的影響因素分析 生育率受社會、經(jīng)濟、文化、計劃生育政策等很多因素影響,但這些因素對生育率的影響并不是完全獨立的,而是交織在一起,如果直接用

24、選定的變量對生育率進行多元回歸分析,最終結果往往只能保留兩三個變量,其他變量的信息就損失了。因此,考慮用因子分析的方法,找出變量間的數(shù)據(jù)結構,在信息損失最少的情況下用新生成的因子對生育率進行分析。 選擇的變量有:多子率、綜合節(jié)育率、初中以上文化程度比例、城鎮(zhèn)人口比例、人均國民收入。下表是1990年中國30個省、自治區(qū)、直轄市的數(shù)據(jù)。,特征根與各因子的貢獻,沒有旋轉的因子結構,在這個例子中我們得到了兩個因子,第一個因子是社會經(jīng)濟 發(fā)展水平因子,第二個是計劃生育因子。有了因子得分值后,則 可以利用因子得分為變量,進行其他的統(tǒng)計分析。,方差最大旋轉后的因子結構,標準化得分函數(shù),案例分析:學習途經(jīng)調(diào)查

25、情況,(01)建立數(shù)據(jù)文件,(02)選擇分析變量 選SPSS Analyze菜單中的(Data Reduction)(Factor),出現(xiàn)【 Factor Analysis】對話框; 在【 Factor Analysis】對話框中左邊的原始變量中,選擇將進行因子分析的變量選入(Variables)欄。,(03)設置描述性統(tǒng)計量 在【 Factor Analysis】框中選【 Descriptives】按鈕,出現(xiàn)【 Descriptives 】對話框; 選擇 Initial solution (未轉軸的統(tǒng)計量)選項 選擇KMO 選項 點擊(Contiue)按鈕確定。,(04)設置對因子的抽取選項

26、 在【 Factor Analysis】框中點擊【Extraction】按鈕,出現(xiàn)【 Factor Analysis:Extraction】對話框; 在Method 欄中選擇(Principal components)選項; 在Analyze 欄中選擇Correlation matrix選項; 在Display 欄中選擇Unrotated factor solution選項; 在Extract 欄中選擇Eigenvalues over 并填上 1 ; 點擊(Contiue)按鈕確定,回到【 Factor Analysis】對話框中。,(05)設置因子轉軸 在【 Factor Analysis】

27、對話框中,點擊【Rotation】 按鈕,出現(xiàn) 【 Factor Analysis:Rotation 】(因子分析:旋轉)對話框。 在Method 欄中選擇 Varimax(最大變異法) 在Display欄中選擇 Rotated solution(轉軸后的解) 點擊(Contiue)按鈕確定,回到【 Factor Analysis】對話框中。,(06)設置因素分數(shù) 在【 Factor Analysis】對話框中,點擊【Scores】 按鈕,出現(xiàn) 【 Factor Analysis: Scores 】(因素分析:分數(shù))對話框。 一般取默認值。 點擊(Contiue)按鈕確定,回到【 Factor Analysis】對話框。,(07)設置因子分析的選項 在【 Factor Analysis】對話框中,單擊【Options】按鈕,出現(xiàn) 【 Factor Analysis

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論