版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第13章主成分分析與因子分析介紹:
1、主成分分析與因子分析的概念
2、主成分分析與因子分析的過程第13章主成分分析與因子分析介紹:1主成分分析與因子分析的概念需要與可能:在各個領(lǐng)域的科學(xué)研究中,往往需要對反映事物的多個變量進行大量的觀測,收集大量數(shù)據(jù)以便進行分析尋找規(guī)律。多變量大樣本無疑會為科學(xué)研究提供豐富的信息,但也在一定程度上增加了數(shù)據(jù)采集的工作量,更重要的是在大多數(shù)情況下,許多變量之間可能存在相關(guān)性而增加了問題分析的復(fù)雜性,同時對分析帶來不便。如果分別分析每個指標(biāo),分析又可能是孤立的,而不是綜合的。盲目減少指標(biāo)會損失很多信息,容易產(chǎn)生錯誤的結(jié)論。因此需要找到一個合理的方法,減少分析指標(biāo)的同時,盡量減少原指標(biāo)包含信息的損失,對所收集的資料作全面的分析。由于各變量間存在一定的相關(guān)關(guān)系,因此有可能用較少的綜合指標(biāo)分別綜合存在于各變量中的各類信息。主成分分析與因子分析就是這樣一種降維的方法。主成分分析與因子分析是將多個實測變量轉(zhuǎn)換為少數(shù)幾個不相關(guān)的綜合指標(biāo)的多元統(tǒng)計分析方法直線綜合指標(biāo)往往是不能直接觀測到的,但它更能反映事物的本質(zhì)。因此在醫(yī)學(xué)、心理學(xué)、經(jīng)濟學(xué)等科學(xué)領(lǐng)域以及社會化生產(chǎn)中得到廣泛的應(yīng)用。主成分分析與因子分析的概念需要與可能:在各個領(lǐng)域的科學(xué)研究中2主成分分析與因子分析的概念(續(xù))由于實測的變量間存在一定的相關(guān)關(guān)系,因此有可能用較少數(shù)的綜合指標(biāo)分別綜合存在于各變量中的各類信息,而綜合指標(biāo)之間彼此不相關(guān),即各指標(biāo)代表的信息不重疊。綜合指標(biāo)稱為因子或主成分(提取幾個因子),一般有兩種方法:特征值>1累計貢獻率>0.8主成分分析與因子分析的概念(續(xù))由于實測的變量間存在一定的相3主成分分析實例P316-不旋轉(zhuǎn)使用默認值進行最簡單的主成分分析(默認為主成分分析法:Principalcomponents)例子P316:對美國洛杉磯12個人口調(diào)查區(qū)的5個經(jīng)濟學(xué)變量的數(shù)據(jù)進行因子分析,data13-01a,數(shù)據(jù)見下一張幻燈片)菜單:Analyze-DataReduction-FactorVariables:pop,School,employ,Services,house其他使用默認值(主成分分析法Principalcomponents,選取特征值>1,不旋轉(zhuǎn))比較有用的結(jié)果:兩個主成分(因子)f1,f2及因子載荷矩陣(ComponentMatrix),根據(jù)該表可以寫出每個原始變量(標(biāo)準(zhǔn)化值)的因子表達式:
Pop0.581f1+0.806f2School0.767f1-0.545f2employ0.672f1+0.726f2Services0.932f1-0.104f2house0.791f1-0.558f2每個原始變量都可以是5個因子的線性組合,提取兩個因子f1和f2,可以概括原始變量所包含信息的93.4%。f1和f2前的系數(shù)表示該因子對變量的影響程度,也稱為變量在因子上的載荷。但每個因子(主成分)的系數(shù)(載荷)沒有很明顯的差別,所以不好命名。因此為了對因子進行命名,可以進行旋轉(zhuǎn),使系數(shù)向0和1兩極分化,這就要使用選擇項。主成分分析實例P316-不旋轉(zhuǎn)使用默認值進行最簡單的主成分分4洛衫磯對12個人口調(diào)查區(qū)的數(shù)據(jù)編號
總?cè)丝?/p>
中等學(xué)校平均
總雇員數(shù)專業(yè)服務(wù)
中等房價no
pop
校齡School employ項目數(shù)Services house1 5700 12.8 2500 270 250002 1000 10.9 600 10 100003 3400 8.8 1000 10 90004 3800 13.6 1700 140 250005 4000 12.8 1600 140 250006 8200 8.3 2600 60 120007 1200 11.4 400 10 160008 9100 11.5 3300 60 140009 9900 12.5 3400 180 1800010 9600 13.7 3600 390 2500011 9600 9.6 3300 80 1200012 9400 11.4 4000 100 13000洛衫磯對12個人口調(diào)查區(qū)的數(shù)據(jù)編號總?cè)丝?因子分析實例322-旋轉(zhuǎn)Rotation由于系數(shù)沒有很明顯的差別,所以要進行旋轉(zhuǎn)(Rotation:method一般用Varimax方差最大旋轉(zhuǎn)),使系數(shù)向0和1兩極分化,例子同上菜單:Analyze-DataReduction-FactorVariables:pop,School,employ,Services,houseExtraction:使用默認值(method:Principalcomponents,選取特征值>1)Rotation:method選VarimaxScore:Saveasvariables和DisplayfactorscoreCoefficientmatrix比較有用的結(jié)果:兩個主成分(因子)f1,f2及旋轉(zhuǎn)后的因子載荷矩陣(RotatedComponentMatrix)
,根據(jù)該表可以寫出每個原始變量(標(biāo)準(zhǔn)化值)的因子表達式:
Pop0.01602
f1+0.9946f2School0.941f1-0.00882f2employ0.137f1+0.98f2Services0.825f1+0.447f2house0.968f1-0.00605f2第一主因子對中等學(xué)校平均校齡,專業(yè)服務(wù)項目,中等房價有絕對值較大的載荷(代表一般社會福利-福利條件因子);而第二主因子對總?cè)丝诤涂偣蛦T數(shù)有較大的載荷(代表人口-人口因子).P326比較有用的結(jié)果:因子得分fac1_1,fac2_1。其計算公式:因子得分系數(shù)和原始變量的標(biāo)準(zhǔn)化值的乘積之和(P326)。然后可以利用因子得分進行聚類p327(Analyze->Classify->HierarchicalCluster)。因子分析實例322-旋轉(zhuǎn)Rotation由于系數(shù)沒有很明顯的6主成分分析實例P330-不旋轉(zhuǎn)
市場研究中的顧客偏好分析在市場研究中,常常要求分析顧客的偏好和當(dāng)前市場的產(chǎn)品與顧客偏好之間的差別,從而找出新產(chǎn)品開發(fā)的方向。顧客偏好分析時常用到主成分分析方法(因子沒有旋轉(zhuǎn))。例子P330:數(shù)據(jù)來自SAS公司,1980年一個汽車制造商在競爭對手中選擇了17種車型,訪問了25個顧客,要求他們根據(jù)自己的偏好對17種車型打分。打分范圍0~9.9,9.9表示最高程度的偏好。data13-02a(17×25:17個case,25個變量V1-V25)菜單:Analyze-DataReduction-FactorVariables:V1-V25Extraction:method:Principalcomponents Extract:Numberoffactors:3要三個主成分Score:Saveasvariables比較有用的結(jié)果:3個主成分及其因子載荷矩陣(ComponentMatrix):第一主成分和第二主成分的載荷圖(Loadingplots)比較有用的結(jié)果:因子得分fac1_1,fac2_1,fac3_1。然后可以利用因子得分進行各種分析:做偏好圖:用fac1_1,fac2_1做散點圖(Graphs->Scatter:X-fac1_1,Y-fac2_1):第一主成分反映了車的產(chǎn)地,第二主成分反映了車的特性(質(zhì)量、動力、座位數(shù)等)具體見P332-334主成分分析實例P330-不旋轉(zhuǎn)
市場研究中的顧客偏好分析在7補充:主成分分析和因子分析以下的講義是吳喜之教授有關(guān)主成分分析和因子分析的講義,我覺得比書上講得清楚。補充:主成分分析和因子分析以下的講義是吳喜之教授有關(guān)主成分分8主成分分析和因子分析
主成分分析和因子分析9匯報什么?假定你是一個公司的財務(wù)經(jīng)理,掌握了公司的所有數(shù)據(jù),比如固定資產(chǎn)、流動資金、每一筆借貸的數(shù)額和期限、各種稅費、工資支出、原料消耗、產(chǎn)值、利潤、折舊、職工人數(shù)、職工的分工和教育程度等等。如果讓你向上面介紹公司狀況,你能夠把這些指標(biāo)和數(shù)字都原封不動地擺出去嗎?
當(dāng)然不能。你必須要把各個方面作出高度概括,用一兩個指標(biāo)簡單明了地把情況說清楚。
匯報什么?假定你是一個公司的財務(wù)經(jīng)理,掌握了公司的所有數(shù)據(jù),10主成分分析每個人都會遇到有很多變量的數(shù)據(jù)。比如全國或各個地區(qū)的帶有許多經(jīng)濟和社會變量的數(shù)據(jù);各個學(xué)校的研究、教學(xué)等各種變量的數(shù)據(jù)等等。這些數(shù)據(jù)的共同特點是變量很多,在如此多的變量之中,有很多是相關(guān)的。人們希望能夠找出它們的少數(shù)“代表”來對它們進行描述。本章就介紹兩種把變量維數(shù)降低以便于描述、理解和分析的方法:主成分分析(principalcomponentanalysis)和因子分析(factoranalysis)。實際上主成分分析可以說是因子分析的一個特例。在引進主成分分析之前,先看下面的例子。主成分分析每個人都會遇到有很多變量的數(shù)據(jù)。11成績數(shù)據(jù)(student.sav)100個學(xué)生的數(shù)學(xué)、物理、化學(xué)、語文、歷史、英語的成績?nèi)缦卤恚ú糠郑?。成績?shù)據(jù)(student.sav)100個學(xué)生的數(shù)學(xué)、物理、12從本例可能提出的問題目前的問題是,能不能把這個數(shù)據(jù)的6個變量用一兩個綜合變量來表示呢?這一兩個綜合變量包含有多少原來的信息呢?能不能利用找到的綜合變量來對學(xué)生排序呢?這一類數(shù)據(jù)所涉及的問題可以推廣到對企業(yè),對學(xué)校進行分析、排序、判別和分類等問題。從本例可能提出的問題目前的問題是,能不能把這個數(shù)據(jù)的6個變量13主成分分析例中的的數(shù)據(jù)點是六維的;也就是說,每個觀測值是6維空間中的一個點。我們希望把6維空間用低維空間表示。先假定只有二維,即只有兩個變量,它們由橫坐標(biāo)和縱坐標(biāo)所代表;因此每個觀測值都有相應(yīng)于這兩個坐標(biāo)軸的兩個坐標(biāo)值;如果這些數(shù)據(jù)形成一個橢圓形狀的點陣(這在變量的二維正態(tài)的假定下是可能的)那么這個橢圓有一個長軸和一個短軸。在短軸方向上,數(shù)據(jù)變化很少;在極端的情況,短軸如果退化成一點,那只有在長軸的方向才能夠解釋這些點的變化了;這樣,由二維到一維的降維就自然完成了。主成分分析例中的的數(shù)據(jù)點是六維的;也就是說,每個觀測值是6維14主成分分析當(dāng)坐標(biāo)軸和橢圓的長短軸平行,那么代表長軸的變量就描述了數(shù)據(jù)的主要變化,而代表短軸的變量就描述了數(shù)據(jù)的次要變化。但是,坐標(biāo)軸通常并不和橢圓的長短軸平行。因此,需要尋找橢圓的長短軸,并進行變換,使得新變量和橢圓的長短軸平行。如果長軸變量代表了數(shù)據(jù)包含的大部分信息,就用該變量代替原先的兩個變量(舍去次要的一維),降維就完成了。橢圓(球)的長短軸相差得越大,降維也越有道理。主成分分析當(dāng)坐標(biāo)軸和橢圓的長短軸平行,那么代表長軸的變量就描15應(yīng)用SPSS進行主成分分析與因子分析課件16主成分分析對于多維變量的情況和二維類似,也有高維的橢球,只不過無法直觀地看見罷了。首先把高維橢球的主軸找出來,再用代表大多數(shù)數(shù)據(jù)信息的最長的幾個軸作為新變量;這樣,主成分分析就基本完成了。注意,和二維情況類似,高維橢球的主軸也是互相垂直的。這些互相正交的新變量是原先變量的線性組合,叫做主成分(principalcomponent)。
主成分分析對于多維變量的情況和二維類似,也有高維的橢球,只不17主成分分析正如二維橢圓有兩個主軸,三維橢球有三個主軸一樣,有幾個變量,就有幾個主成分。選擇越少的主成分,降維就越好。什么是標(biāo)準(zhǔn)呢?那就是這些被選的主成分所代表的主軸的長度之和占了主軸長度總和的大部分。有些文獻建議,所選的主軸總長度占所有主軸長度之和的大約85%即可,其實,這只是一個大體的說法;具體選幾個,要看實際情況而定。主成分分析正如二維橢圓有兩個主軸,三維橢球有三個主軸一樣,有18對于我們的數(shù)據(jù),SPSS輸出為這里的InitialEigenvalues就是這里的六個主軸長度,又稱特征值(數(shù)據(jù)相關(guān)陣的特征值)。頭兩個成分特征值累積占了總方差的81.142%。后面的特征值的貢獻越來越少。對于我們的數(shù)據(jù),SPSS輸出為這里的InitialEige19特征值的貢獻還可以從SPSS的所謂碎石圖看出特征值的貢獻還可以從SPSS的所謂碎石圖看出20怎么解釋這兩個主成分。前面說過主成分是原始六個變量的線性組合。是怎么樣的組合呢?SPSS可以輸出下面的表。
這里每一列代表一個主成分作為原來變量線性組合的系數(shù)(比例)。比如第一主成分作為數(shù)學(xué)、物理、化學(xué)、語文、歷史、英語這六個原先變量的線性組合,系數(shù)(比例)為-0.806,-0.674,-0.675,0.893,0.825,0.836。怎么解釋這兩個主成分。前面說過主成分是原始六個變量的線性組合21如用x1,x2,x3,x4,x5,x6分別表示原先的六個變量,而用y1,y2,y3,y4,y5,y6表示新的主成分,那么,原先六個變量x1,x2,x3,x4,x5,x6與第一和第二主成分y1,y2的關(guān)系為:X1=-0.806y1+0.353y2X2=-0.674y1+0.531y2X3=-0.675y1+0.513y2X4=0.893y1+0.306y2x5=0.825y1+0.435y2x6=0.836y1+0.425y2這些系數(shù)稱為主成分載荷(loading),它表示主成分和相應(yīng)的原先變量的相關(guān)系數(shù)。比如x1表示式中y1的系數(shù)為-0.806,這就是說第一主成分和數(shù)學(xué)變量的相關(guān)系數(shù)為-0.806。相關(guān)系數(shù)(絕對值)越大,主成分對該變量的代表性也越大。可以看得出,第一主成分對各個變量解釋得都很充分。而最后的幾個主成分和原先的變量就不那么相關(guān)了。如用x1,x2,x3,x4,x5,x6分別表示原先的六個變量22可以把第一和第二主成分的載荷點出一個二維圖以直觀地顯示它們?nèi)绾谓忉屧瓉淼淖兞康?。這個圖叫做載荷圖??梢园训谝缓偷诙鞒煞值妮d荷點出一個二維圖以直觀地顯示它們?nèi)?3該圖左面三個點是數(shù)學(xué)、物理、化學(xué)三科,右邊三個點是語文、歷史、外語三科。圖中的六個點由于比較擠,不易分清,但只要認識到這些點的坐標(biāo)是前面的第一二主成分載荷,坐標(biāo)是前面表中第一二列中的數(shù)目,還是可以識別的。該圖左面三個點是數(shù)學(xué)、物理、化學(xué)三科,右邊三個點是語文、歷史24因子分析主成分分析從原理上是尋找橢球的所有主軸。因此,原先有幾個變量,就有幾個主成分。而因子分析是事先確定要找?guī)讉€成分,這里叫因子(factor)(比如兩個),那就找兩個。這使得在數(shù)學(xué)模型上,因子分析和主成分分析有不少區(qū)別。而且因子分析的計算也復(fù)雜得多。根據(jù)因子分析模型的特點,它還多一道工序:因子旋轉(zhuǎn)(factorrotation);這個步驟可以使結(jié)果更好。當(dāng)然,對于計算機來說,因子分析并不比主成分分析多費多少時間。從輸出的結(jié)果來看,因子分析也有因子載荷(factorloading)的概念,代表了因子和原先變量的相關(guān)系數(shù)。但是在輸出中的因子和原來變量相關(guān)系數(shù)的公式中的系數(shù)不是因子載荷,也給出了二維圖;該圖雖然不是載荷圖,但解釋和主成分分析的載荷圖類似。因子分析主成分分析從原理上是尋找橢球的所有主軸。因此,原先有25主成分分析與因子分析的公式上的區(qū)別主成分分析P312因子分析(m<p)P314因子得分P315主成分分析與因子分析的公式上的區(qū)別主成分分析P312因子分26對于我們的數(shù)據(jù),SPSS因子分析輸出為這里,第一個因子主要和語文、歷史、英語三科有很強的正相關(guān);而第二個因子主要和數(shù)學(xué)、物理、化學(xué)三科有很強的正相關(guān)。因此可以給第一個因子起名為“文科因子”,而給第二個因子起名為“理科因子”。從這個例子可以看出,因子分析的結(jié)果比主成分分析解釋性更強。對于我們的數(shù)據(jù),SPSS因子分析輸出為這里,第一個因子主要和27這兩個因子的系數(shù)所形成的散點圖(雖然不是載荷,在SPSS中也稱載荷圖,可以直觀看出每個因子代表了一類學(xué)科這兩個因子的系數(shù)所形成的散點圖(雖然不是載荷,在SPSS中也28計算因子得分可以根據(jù)前面的因子得分公式(因子得分系數(shù)和原始變量的標(biāo)準(zhǔn)化值的乘積之和),算出每個學(xué)生的第一個因子和第二個因子的大小,即算出每個學(xué)生的因子得分f1和f2。人們可以根據(jù)這兩套因子得分對學(xué)生分別按照文科和理科排序。當(dāng)然得到因子得分只是SPSS軟件的一個選項(可將因子得分存為新變量、顯示因子得分系數(shù)矩陣)計算因子得分可以根據(jù)前面的因子得分公式(因子得分系數(shù)和原始變29因子分析和主成分分析的一些注意事項
可以看出,因子分析和主成分分析都依賴于原始變量,也只能反映原始變量的信息。所以原始變量的選擇很重要。另外,如果原始變量都本質(zhì)上獨立,那么降維就可能失敗,這是因為很難把很多獨立變量用少數(shù)綜合的變量概括。數(shù)據(jù)越相關(guān),降維效果就越好。在得到分析的結(jié)果時,并不一定會都得到如我們例子那樣清楚的結(jié)果。這與問題的性質(zhì),選取的原始變量以及數(shù)據(jù)的質(zhì)量等都有關(guān)系在用因子得分進行排序時要特別小心,特別是對于敏感問題。由于原始變量不同,因子的選取不同,排序可以很不一樣。因子分析和主成分分析的一些注意事項
可以看出,因子分析和主30SPSS實現(xiàn)(因子分析與主成分分析)拿student.sav為例,選Analyze-DataReduction-Factor進入主對話框;把math、phys、chem、literat、history、english選入Variables,然后點擊Extraction,在Method選擇一個方法(如果是主成分分析,則選PrincipalComponents),下面的選項可以隨意,比如要畫碎石圖就選Screeplot,另外在Extract選項可以按照特征值的大小選主成分(或因子),也可以選定因子的數(shù)目;之后回到主對話框(用Continue)。然后點擊Rotation,再在該對話框中的Method選擇一個旋轉(zhuǎn)方法(如果是主成分分析就選None),在Display選Rotatedsolution(以輸出和旋轉(zhuǎn)有關(guān)的結(jié)果)和Loadingplot(以輸出載荷圖);之后回到主對話框(用Continue)。如果要計算因子得分就要點擊Scores,再選擇Saveasvariables(因子得分就會作為變量存在數(shù)據(jù)中的附加列上)和計算因子得分的方法(比如Regression);之后回到主對話框(用Continue)。這時點OK即可。SPSS實現(xiàn)(因子分析與主成分分析)拿student.sav31第13章主成分分析與因子分析介紹:
1、主成分分析與因子分析的概念
2、主成分分析與因子分析的過程第13章主成分分析與因子分析介紹:32主成分分析與因子分析的概念需要與可能:在各個領(lǐng)域的科學(xué)研究中,往往需要對反映事物的多個變量進行大量的觀測,收集大量數(shù)據(jù)以便進行分析尋找規(guī)律。多變量大樣本無疑會為科學(xué)研究提供豐富的信息,但也在一定程度上增加了數(shù)據(jù)采集的工作量,更重要的是在大多數(shù)情況下,許多變量之間可能存在相關(guān)性而增加了問題分析的復(fù)雜性,同時對分析帶來不便。如果分別分析每個指標(biāo),分析又可能是孤立的,而不是綜合的。盲目減少指標(biāo)會損失很多信息,容易產(chǎn)生錯誤的結(jié)論。因此需要找到一個合理的方法,減少分析指標(biāo)的同時,盡量減少原指標(biāo)包含信息的損失,對所收集的資料作全面的分析。由于各變量間存在一定的相關(guān)關(guān)系,因此有可能用較少的綜合指標(biāo)分別綜合存在于各變量中的各類信息。主成分分析與因子分析就是這樣一種降維的方法。主成分分析與因子分析是將多個實測變量轉(zhuǎn)換為少數(shù)幾個不相關(guān)的綜合指標(biāo)的多元統(tǒng)計分析方法直線綜合指標(biāo)往往是不能直接觀測到的,但它更能反映事物的本質(zhì)。因此在醫(yī)學(xué)、心理學(xué)、經(jīng)濟學(xué)等科學(xué)領(lǐng)域以及社會化生產(chǎn)中得到廣泛的應(yīng)用。主成分分析與因子分析的概念需要與可能:在各個領(lǐng)域的科學(xué)研究中33主成分分析與因子分析的概念(續(xù))由于實測的變量間存在一定的相關(guān)關(guān)系,因此有可能用較少數(shù)的綜合指標(biāo)分別綜合存在于各變量中的各類信息,而綜合指標(biāo)之間彼此不相關(guān),即各指標(biāo)代表的信息不重疊。綜合指標(biāo)稱為因子或主成分(提取幾個因子),一般有兩種方法:特征值>1累計貢獻率>0.8主成分分析與因子分析的概念(續(xù))由于實測的變量間存在一定的相34主成分分析實例P316-不旋轉(zhuǎn)使用默認值進行最簡單的主成分分析(默認為主成分分析法:Principalcomponents)例子P316:對美國洛杉磯12個人口調(diào)查區(qū)的5個經(jīng)濟學(xué)變量的數(shù)據(jù)進行因子分析,data13-01a,數(shù)據(jù)見下一張幻燈片)菜單:Analyze-DataReduction-FactorVariables:pop,School,employ,Services,house其他使用默認值(主成分分析法Principalcomponents,選取特征值>1,不旋轉(zhuǎn))比較有用的結(jié)果:兩個主成分(因子)f1,f2及因子載荷矩陣(ComponentMatrix),根據(jù)該表可以寫出每個原始變量(標(biāo)準(zhǔn)化值)的因子表達式:
Pop0.581f1+0.806f2School0.767f1-0.545f2employ0.672f1+0.726f2Services0.932f1-0.104f2house0.791f1-0.558f2每個原始變量都可以是5個因子的線性組合,提取兩個因子f1和f2,可以概括原始變量所包含信息的93.4%。f1和f2前的系數(shù)表示該因子對變量的影響程度,也稱為變量在因子上的載荷。但每個因子(主成分)的系數(shù)(載荷)沒有很明顯的差別,所以不好命名。因此為了對因子進行命名,可以進行旋轉(zhuǎn),使系數(shù)向0和1兩極分化,這就要使用選擇項。主成分分析實例P316-不旋轉(zhuǎn)使用默認值進行最簡單的主成分分35洛衫磯對12個人口調(diào)查區(qū)的數(shù)據(jù)編號
總?cè)丝?/p>
中等學(xué)校平均
總雇員數(shù)專業(yè)服務(wù)
中等房價no
pop
校齡School employ項目數(shù)Services house1 5700 12.8 2500 270 250002 1000 10.9 600 10 100003 3400 8.8 1000 10 90004 3800 13.6 1700 140 250005 4000 12.8 1600 140 250006 8200 8.3 2600 60 120007 1200 11.4 400 10 160008 9100 11.5 3300 60 140009 9900 12.5 3400 180 1800010 9600 13.7 3600 390 2500011 9600 9.6 3300 80 1200012 9400 11.4 4000 100 13000洛衫磯對12個人口調(diào)查區(qū)的數(shù)據(jù)編號總?cè)丝?6因子分析實例322-旋轉(zhuǎn)Rotation由于系數(shù)沒有很明顯的差別,所以要進行旋轉(zhuǎn)(Rotation:method一般用Varimax方差最大旋轉(zhuǎn)),使系數(shù)向0和1兩極分化,例子同上菜單:Analyze-DataReduction-FactorVariables:pop,School,employ,Services,houseExtraction:使用默認值(method:Principalcomponents,選取特征值>1)Rotation:method選VarimaxScore:Saveasvariables和DisplayfactorscoreCoefficientmatrix比較有用的結(jié)果:兩個主成分(因子)f1,f2及旋轉(zhuǎn)后的因子載荷矩陣(RotatedComponentMatrix)
,根據(jù)該表可以寫出每個原始變量(標(biāo)準(zhǔn)化值)的因子表達式:
Pop0.01602
f1+0.9946f2School0.941f1-0.00882f2employ0.137f1+0.98f2Services0.825f1+0.447f2house0.968f1-0.00605f2第一主因子對中等學(xué)校平均校齡,專業(yè)服務(wù)項目,中等房價有絕對值較大的載荷(代表一般社會福利-福利條件因子);而第二主因子對總?cè)丝诤涂偣蛦T數(shù)有較大的載荷(代表人口-人口因子).P326比較有用的結(jié)果:因子得分fac1_1,fac2_1。其計算公式:因子得分系數(shù)和原始變量的標(biāo)準(zhǔn)化值的乘積之和(P326)。然后可以利用因子得分進行聚類p327(Analyze->Classify->HierarchicalCluster)。因子分析實例322-旋轉(zhuǎn)Rotation由于系數(shù)沒有很明顯的37主成分分析實例P330-不旋轉(zhuǎn)
市場研究中的顧客偏好分析在市場研究中,常常要求分析顧客的偏好和當(dāng)前市場的產(chǎn)品與顧客偏好之間的差別,從而找出新產(chǎn)品開發(fā)的方向。顧客偏好分析時常用到主成分分析方法(因子沒有旋轉(zhuǎn))。例子P330:數(shù)據(jù)來自SAS公司,1980年一個汽車制造商在競爭對手中選擇了17種車型,訪問了25個顧客,要求他們根據(jù)自己的偏好對17種車型打分。打分范圍0~9.9,9.9表示最高程度的偏好。data13-02a(17×25:17個case,25個變量V1-V25)菜單:Analyze-DataReduction-FactorVariables:V1-V25Extraction:method:Principalcomponents Extract:Numberoffactors:3要三個主成分Score:Saveasvariables比較有用的結(jié)果:3個主成分及其因子載荷矩陣(ComponentMatrix):第一主成分和第二主成分的載荷圖(Loadingplots)比較有用的結(jié)果:因子得分fac1_1,fac2_1,fac3_1。然后可以利用因子得分進行各種分析:做偏好圖:用fac1_1,fac2_1做散點圖(Graphs->Scatter:X-fac1_1,Y-fac2_1):第一主成分反映了車的產(chǎn)地,第二主成分反映了車的特性(質(zhì)量、動力、座位數(shù)等)具體見P332-334主成分分析實例P330-不旋轉(zhuǎn)
市場研究中的顧客偏好分析在38補充:主成分分析和因子分析以下的講義是吳喜之教授有關(guān)主成分分析和因子分析的講義,我覺得比書上講得清楚。補充:主成分分析和因子分析以下的講義是吳喜之教授有關(guān)主成分分39主成分分析和因子分析
主成分分析和因子分析40匯報什么?假定你是一個公司的財務(wù)經(jīng)理,掌握了公司的所有數(shù)據(jù),比如固定資產(chǎn)、流動資金、每一筆借貸的數(shù)額和期限、各種稅費、工資支出、原料消耗、產(chǎn)值、利潤、折舊、職工人數(shù)、職工的分工和教育程度等等。如果讓你向上面介紹公司狀況,你能夠把這些指標(biāo)和數(shù)字都原封不動地擺出去嗎?
當(dāng)然不能。你必須要把各個方面作出高度概括,用一兩個指標(biāo)簡單明了地把情況說清楚。
匯報什么?假定你是一個公司的財務(wù)經(jīng)理,掌握了公司的所有數(shù)據(jù),41主成分分析每個人都會遇到有很多變量的數(shù)據(jù)。比如全國或各個地區(qū)的帶有許多經(jīng)濟和社會變量的數(shù)據(jù);各個學(xué)校的研究、教學(xué)等各種變量的數(shù)據(jù)等等。這些數(shù)據(jù)的共同特點是變量很多,在如此多的變量之中,有很多是相關(guān)的。人們希望能夠找出它們的少數(shù)“代表”來對它們進行描述。本章就介紹兩種把變量維數(shù)降低以便于描述、理解和分析的方法:主成分分析(principalcomponentanalysis)和因子分析(factoranalysis)。實際上主成分分析可以說是因子分析的一個特例。在引進主成分分析之前,先看下面的例子。主成分分析每個人都會遇到有很多變量的數(shù)據(jù)。42成績數(shù)據(jù)(student.sav)100個學(xué)生的數(shù)學(xué)、物理、化學(xué)、語文、歷史、英語的成績?nèi)缦卤恚ú糠郑?。成績?shù)據(jù)(student.sav)100個學(xué)生的數(shù)學(xué)、物理、43從本例可能提出的問題目前的問題是,能不能把這個數(shù)據(jù)的6個變量用一兩個綜合變量來表示呢?這一兩個綜合變量包含有多少原來的信息呢?能不能利用找到的綜合變量來對學(xué)生排序呢?這一類數(shù)據(jù)所涉及的問題可以推廣到對企業(yè),對學(xué)校進行分析、排序、判別和分類等問題。從本例可能提出的問題目前的問題是,能不能把這個數(shù)據(jù)的6個變量44主成分分析例中的的數(shù)據(jù)點是六維的;也就是說,每個觀測值是6維空間中的一個點。我們希望把6維空間用低維空間表示。先假定只有二維,即只有兩個變量,它們由橫坐標(biāo)和縱坐標(biāo)所代表;因此每個觀測值都有相應(yīng)于這兩個坐標(biāo)軸的兩個坐標(biāo)值;如果這些數(shù)據(jù)形成一個橢圓形狀的點陣(這在變量的二維正態(tài)的假定下是可能的)那么這個橢圓有一個長軸和一個短軸。在短軸方向上,數(shù)據(jù)變化很少;在極端的情況,短軸如果退化成一點,那只有在長軸的方向才能夠解釋這些點的變化了;這樣,由二維到一維的降維就自然完成了。主成分分析例中的的數(shù)據(jù)點是六維的;也就是說,每個觀測值是6維45主成分分析當(dāng)坐標(biāo)軸和橢圓的長短軸平行,那么代表長軸的變量就描述了數(shù)據(jù)的主要變化,而代表短軸的變量就描述了數(shù)據(jù)的次要變化。但是,坐標(biāo)軸通常并不和橢圓的長短軸平行。因此,需要尋找橢圓的長短軸,并進行變換,使得新變量和橢圓的長短軸平行。如果長軸變量代表了數(shù)據(jù)包含的大部分信息,就用該變量代替原先的兩個變量(舍去次要的一維),降維就完成了。橢圓(球)的長短軸相差得越大,降維也越有道理。主成分分析當(dāng)坐標(biāo)軸和橢圓的長短軸平行,那么代表長軸的變量就描46應(yīng)用SPSS進行主成分分析與因子分析課件47主成分分析對于多維變量的情況和二維類似,也有高維的橢球,只不過無法直觀地看見罷了。首先把高維橢球的主軸找出來,再用代表大多數(shù)數(shù)據(jù)信息的最長的幾個軸作為新變量;這樣,主成分分析就基本完成了。注意,和二維情況類似,高維橢球的主軸也是互相垂直的。這些互相正交的新變量是原先變量的線性組合,叫做主成分(principalcomponent)。
主成分分析對于多維變量的情況和二維類似,也有高維的橢球,只不48主成分分析正如二維橢圓有兩個主軸,三維橢球有三個主軸一樣,有幾個變量,就有幾個主成分。選擇越少的主成分,降維就越好。什么是標(biāo)準(zhǔn)呢?那就是這些被選的主成分所代表的主軸的長度之和占了主軸長度總和的大部分。有些文獻建議,所選的主軸總長度占所有主軸長度之和的大約85%即可,其實,這只是一個大體的說法;具體選幾個,要看實際情況而定。主成分分析正如二維橢圓有兩個主軸,三維橢球有三個主軸一樣,有49對于我們的數(shù)據(jù),SPSS輸出為這里的InitialEigenvalues就是這里的六個主軸長度,又稱特征值(數(shù)據(jù)相關(guān)陣的特征值)。頭兩個成分特征值累積占了總方差的81.142%。后面的特征值的貢獻越來越少。對于我們的數(shù)據(jù),SPSS輸出為這里的InitialEige50特征值的貢獻還可以從SPSS的所謂碎石圖看出特征值的貢獻還可以從SPSS的所謂碎石圖看出51怎么解釋這兩個主成分。前面說過主成分是原始六個變量的線性組合。是怎么樣的組合呢?SPSS可以輸出下面的表。
這里每一列代表一個主成分作為原來變量線性組合的系數(shù)(比例)。比如第一主成分作為數(shù)學(xué)、物理、化學(xué)、語文、歷史、英語這六個原先變量的線性組合,系數(shù)(比例)為-0.806,-0.674,-0.675,0.893,0.825,0.836。怎么解釋這兩個主成分。前面說過主成分是原始六個變量的線性組合52如用x1,x2,x3,x4,x5,x6分別表示原先的六個變量,而用y1,y2,y3,y4,y5,y6表示新的主成分,那么,原先六個變量x1,x2,x3,x4,x5,x6與第一和第二主成分y1,y2的關(guān)系為:X1=-0.806y1+0.353y2X2=-0.674y1+0.531y2X3=-0.675y1+0.513y2X4=0.893y1+0.306y2x5=0.825y1+0.435y2x6=0.836y1+0.425y2這些系數(shù)稱為主成分載荷(loading),它表示主成分和相應(yīng)的原先變量的相關(guān)系數(shù)。比如x1表示式中y1的系數(shù)為-0.806,這就是說第一主成分和數(shù)學(xué)變量的相關(guān)系數(shù)為-0.806。相關(guān)系數(shù)(絕對值)越大,主成分對該變量的代表性也越大??梢钥吹贸?,第一主成分對各個變量解釋得都很充分。而最后的幾個主成分和原先的變量就不那么相關(guān)了。如用x1,x2,x3,x4,x5,x6分別表示原先的六個變量53可以把第一和第二主成分的載荷點出一個二維圖以直觀地顯示它們?nèi)绾谓忉屧瓉淼淖兞康摹_@個圖叫做載荷圖??梢园训谝缓偷诙鞒煞值妮d荷點出一個二維圖以直觀地顯示它們?nèi)?4該圖左面三個點是數(shù)學(xué)、物理、化學(xué)三科,右邊三個點是語文、歷史、外語三科。圖中的六個點由于比較擠,不易分清,但只要認識到這些點的坐標(biāo)是前面的第一二主成分載荷,坐標(biāo)是前面表中第一二列中的數(shù)目,還是可以識別的。該圖左面三個點是數(shù)學(xué)、物理、化學(xué)三科,右邊三個點是語文、歷史55因子分析主成分分析從原理上是尋找橢球的所有主軸。因此,原先有幾個變量,就有幾個主成分。而因子分析是事先確定要找?guī)讉€成分,這里叫因子(factor)(比如兩個),那就找兩個。這使得在數(shù)學(xué)模型上,因子分析和主成分分析有不少區(qū)別。而且因子分析的計算也
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 保險公司統(tǒng)計制度
- 企業(yè)檔案二合一制度
- 教育部考級試題及答案
- 交通事故處理室制度
- 嚴(yán)格落實三檢制度
- 2025-2030水彩顏料行業(yè)市場發(fā)展分析及發(fā)展趨勢前景研究報告
- 化州市公安局2025年招聘警務(wù)輔助人員備考題庫完整參考答案詳解
- 2025-2030中國醫(yī)療美容市場經(jīng)營風(fēng)險與投融資戰(zhàn)略規(guī)劃分析研究報告
- 2025-2030中國微耕機行業(yè)發(fā)展需求及前景競爭力優(yōu)勢分析研究報告
- 寧夏銀行2026年度校園招聘備考題庫及一套答案詳解
- 浙江省寧波市2024-2025學(xué)年高三上學(xué)期期末模擬檢測語文試題(原卷版+解析版)
- 生態(tài)修復(fù)技術(shù)集成-深度研究
- 中小企業(yè)專利質(zhì)量控制指引編制說明
- 旅游行業(yè)安全風(fēng)險管控與隱患排查方案
- 專題15 物質(zhì)的鑒別、分離、除雜、提純與共存問題 2024年中考化學(xué)真題分類匯編
- DL-T5418-2009火電廠煙氣脫硫吸收塔施工及驗收規(guī)程
- 復(fù)方蒲公英注射液在痤瘡中的應(yīng)用研究
- 高考數(shù)學(xué)專題:導(dǎo)數(shù)大題專練(含答案)
- 腘窩囊腫的關(guān)節(jié)鏡治療培訓(xùn)課件
- 淮安市2023-2024學(xué)年七年級上學(xué)期期末歷史試卷(含答案解析)
- 課件:曝光三要素
評論
0/150
提交評論