版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、回歸分析與因子分析之比較劉婷玉數(shù)學(xué)與統(tǒng)計(jì)學(xué)院06級(jí)【摘 要】回歸分析與因子分析是數(shù)理統(tǒng)計(jì)中常用的兩種數(shù)據(jù)處理方 法,本文對(duì)他們進(jìn)行比較,分析了兩種方法的區(qū)別與聯(lián)系,各自的使 用和適用范圍,對(duì)教學(xué)質(zhì)量的提高及在實(shí)際中對(duì)于有效選擇此兩種統(tǒng) 計(jì)方法提供了依據(jù)?!娟P(guān)鍵詞】回歸分析因子分析 比較一、問(wèn)題提出回歸分析和因子分析都是研究因變量與因子間關(guān)系的一種數(shù)據(jù)處理 方法,在模型上看,只是因子結(jié)構(gòu)不一樣,他們之間到底有什么內(nèi)在 聯(lián)系,值得我們研究并加以利用。二、問(wèn)題分析1、統(tǒng)計(jì)模型和類(lèi)型多元線性回歸模型表示方法為Y = b + bX + b X + + b X + u01122k k個(gè)樣本觀測(cè)值(Y, X
2、., X2.,X .)i = 1,2,n得:Y = b + bX + bX + . + bX + ui 01 1i 2 2 ik ki i其解析表達(dá)式為:= b + bX + b X + + b X + u TOC o 1-5 h z 0111221kk 11= b + bX + b X + + b X + u0112222k k22Y = b + bX + b X + + b X + uk kn nn 01 1n2 2n多元模型的矩陣表達(dá)式為fY1f1XXX21Y11X111222:2=:Y1:XX2nJ1nY = XB + U.XXk 1 k2.Xknf b Ibb2bJfY1f1XX.X
3、 1Y11X11X21V k1 X:2X =. 12 :22 :k 2Y1: XX.X 1J1n2nkn Y =B=fb b b:2b k般地,U =f u11 u:2u77n設(shè) X=(x1, x2,xp)為可觀測(cè)的隨機(jī)變量,且有X = p+ a , f + a , f +. + a , f + ei i i11 i 22im m i。在因子分析中,p維的變量向量x被賦予一個(gè)隨機(jī)結(jié)構(gòu),x =a+Af+具體也可以寫(xiě)成以下形式:x p = a f + a f +. + a f + 811 112 21m m 1x p = a f + a f +. + a f + 8x p = a f + a f
4、+. + a f +8 pp1 1 p 2 2pm m p21 122 22m m 2(1)其中a是p維向量,A是pXr參數(shù)矩陣,f是r維潛變量向量,稱為公共因子(Common factors),而e是p維的變量向量,稱為特殊因子(Specific factors),滿足下列假定:E( e ) =0, cov( e ) 二 (對(duì)角矩陣)E(f) =0, cov (f, e )=0, cov(f) =I (2)它把每個(gè)變量分解為兩部分,一部分是由這些變量?jī)?nèi)含的公共因 子所構(gòu)成的,即公共因子部分,另一部分是每個(gè)變量各自獨(dú)有的因子, 即所謂特殊因子部分。應(yīng)當(dāng)注意,因子模型不具有唯一性,設(shè)T是一 個(gè)正
5、交矩陣,由TT I可知,因子模型x = a +Af+ e與模型x = a+(AT)(T f)+e等價(jià)。后者載荷矩陣為AT,新的公共因子T f。正是由于因子模型的不唯一性,所以當(dāng)原模型不適合專(zhuān)業(yè)解釋時(shí),則作 一個(gè)正交變換T,把原模型改變?yōu)樾履P?,在新模型中再去尋找因?的專(zhuān)業(yè)解釋?zhuān)@就為因子旋轉(zhuǎn)提供了理論的基礎(chǔ)。由兩者的比較可知,兩種模型都是用某幾個(gè)因子來(lái)解釋變量的, 只是因子構(gòu)成不一樣,回歸分析的因子之間可能存在相關(guān)關(guān)系,但是 后者卻是獨(dú)立的?;貧w分析模型寫(xiě)成了原觀測(cè)變量的線性組合,因子 分析是描述原指標(biāo)X協(xié)方差陣結(jié)構(gòu)的一種模型,對(duì)原觀測(cè)變量分解 成公共因子和特殊因子兩部分,當(dāng)公共因子的個(gè)數(shù)m
6、=原變量個(gè)數(shù)p 時(shí),就不能考慮特殊因子了,此時(shí)因子分析也對(duì)應(yīng)于一種線性組合了, 餓而且因子模型的系數(shù)矩陣表明了原變量和公共因子的相關(guān)程度。2、目的和作用回歸分析是為了分析一個(gè)變量如何依賴其它變量而提出的一種 統(tǒng)計(jì)分析方法,它的目的是要確定引起因變量變化的各個(gè)因素,多元 線性回歸是研究一個(gè)因變量(Y)和多個(gè)自變量(Xi)之間數(shù)量上相互依存的線性關(guān)系。利用回歸分析可以進(jìn)行因素分析、調(diào)整混雜因素和統(tǒng)計(jì)預(yù)測(cè)。因子分析是用于研究個(gè)體測(cè)量指標(biāo)的協(xié)方差(或相關(guān))結(jié)構(gòu)的探 索性數(shù)據(jù)分析的多元技術(shù)。它找出若干可以解釋可觀測(cè)指標(biāo)之間的變 差或者聯(lián)系的潛變量從而簡(jiǎn)化高維數(shù)據(jù),并對(duì)相似指標(biāo)進(jìn)行分組及檢 測(cè)多重共線性,
7、將高維數(shù)據(jù)在低維空間中圖示以利于直觀考察數(shù)據(jù)的 分布情況及檢測(cè)異常值。目標(biāo)是通過(guò)減少變量的個(gè)數(shù)來(lái)了解數(shù)據(jù)的結(jié) 構(gòu),在某種意義上可以取代原始數(shù)據(jù),而且通過(guò)圖示和多元推斷技術(shù) 更容易進(jìn)行研究。它就是用少數(shù)幾個(gè)有意義因子來(lái)描述多個(gè)指標(biāo)或因 素之間的聯(lián)系,與此同時(shí),又能保存住原有數(shù)據(jù)結(jié)構(gòu)所提供的大部分 信息,這樣就可以找出潛在的特征。其目的為化簡(jiǎn)數(shù)據(jù)、濃縮信息、 探討內(nèi)在結(jié)構(gòu),也就是說(shuō)將分散在多個(gè)變量中的同類(lèi)信息集中起來(lái)、 提純,從而便于分析、解釋和利用。同樣是因變量和因子之間的關(guān)系,但是回歸分析卻能得出確切的 數(shù)值關(guān)系,而且通常是定量的(不過(guò)對(duì)定性因素可以采用虛擬變數(shù)的 處理方法)。但因子分析一般適
8、用于定性的,不可觀測(cè)的數(shù)據(jù)。不過(guò), 回歸分析的關(guān)系不精簡(jiǎn)明了,而且確定的因子也是根據(jù)人為經(jīng)驗(yàn)事先 定好的,不如因子分析的全面,可能還得做逐步回歸等才能剔除或增 加變量。3、適用顧首先,回歸分析和因子分析使用的數(shù)據(jù)不一樣?;貧w分析同時(shí)需 要因子和因變量的數(shù)據(jù),數(shù)據(jù)結(jié)構(gòu)為因變量和因子對(duì)應(yīng)的順序數(shù)據(jù), 即,XJ = 1,2, ,n。而因子分析只需要在不同情況下對(duì)應(yīng)的因變量 的值,無(wú)需知道X的確切數(shù)值,只要根據(jù)調(diào)的數(shù)值就行了,也即這 種方法可以揭示因子內(nèi)部的關(guān)系。其次,樣本容量的要求也不同?;貧w分析最小樣本容量 n N k+1。對(duì)B =(XX)-1XY,有(xX)-l 存在 ol XX I 豐 0 o
9、 XX 為 k+1 階的滿秩陣,R(AB) W min(R(A),R(B),R(X) N k+1,因此,必 須有nNk+1。根據(jù)經(jīng)驗(yàn),有n N 30或者n N 3(k+1)才能滿足模 型估計(jì)的基本要求。n N 3(k+1)時(shí),t分布才穩(wěn)定,檢驗(yàn)才較為有 效。根據(jù)Gromuch(1983)的觀點(diǎn),因子分析的樣本量要求如下:一般原 則是要求樣本數(shù)目至少是變量個(gè)數(shù)的五倍,能有一比十的比例是較可 被接受的,有些研究建議觀察值個(gè)數(shù)為變量個(gè)數(shù)的二十倍;總樣本最 好應(yīng)有100個(gè)或以上的觀察值,通常不要少于50個(gè)觀察值。最后,模型假設(shè)也有不同之處:在回歸分析中,有如下假設(shè):解釋變量Xi是確定性變量,不是隨機(jī)變
10、量;解釋變量 之間互不相關(guān),即無(wú)多重共線性。隨機(jī)誤差項(xiàng)具有0均值和同方差。隨機(jī)誤差項(xiàng)不存在序列相關(guān)關(guān)系。隨機(jī)誤差項(xiàng)與解釋變量之間不相關(guān)。隨機(jī)誤差項(xiàng)服從0均值、同方差的正態(tài)分布。在因子分析中,假定:公共因子的均數(shù)為0,方差為1。特殊因子的均數(shù)為0,方差為6i,且特殊因子互不相關(guān)。公共因子與特殊因子相互獨(dú)立。由比較可知,兩種分析方法在兩類(lèi)因子的相關(guān)性上有相似之處, 差別主要在于回歸分析中的隨機(jī)誤差項(xiàng)要求服從0均值、同方差的正 態(tài)分布。4、模型的解七回歸分析應(yīng)用最小二乘估計(jì),其矩陣表示如下:Y = xB Y = XB + UE = Y - Y = Y - XBQ = &2 = (y y )i i=1
11、=ee = (Y XB)(Y XB)Q = (Y B X f)(Y XB)=(Y Y Y XB B XY + B X XB)為什么 Y XB = B XY ? 人_-X Y + X XB = 0=Y Y 2 B XY + B BXXB竺=06 2 = een k 1它具有線性(估計(jì)量都是被解釋變量觀測(cè)值的線性組合)無(wú)aBB = ( XX )-1 XY偏性(估計(jì)量的數(shù)學(xué)期望=被估計(jì)的真值)有效性(估計(jì)量的方差是所有線性無(wú)偏估計(jì)中最小的)而因子分析有若干種方法 主成分法(principal component factor)a = . 1,2,p; j 1,2,m每一個(gè)公共因子的載荷系數(shù)之平方和等
12、于對(duì)應(yīng)的特征根,即該P(yáng) C-公共因子的方差。人=z a 2 = g2 jij i。i=1主因子法(principal factor)設(shè)原變量的相關(guān)矩陣為R=(七),其逆矩陣為R-1=( rij )。各變量 特征方差的初始值取為逆相關(guān)矩陣對(duì)角線元素的倒數(shù),& ;=1/r。則共同度的初始值為h 2 La 2。1ijj=1極大似然法(maximum likelihood factor)假定原變量服從正態(tài)分布,公共因子和特殊因子也服從正態(tài)分 布,構(gòu)造因子負(fù)荷和特殊方差的似然函數(shù),求其極大,得到唯一解。由上可知,因子載荷的統(tǒng)計(jì)意義是第個(gè)變量與第j個(gè)公共因子 的相關(guān)系數(shù),表示X,依賴巧的份量(比重)。統(tǒng)計(jì)
13、中應(yīng)稱為權(quán)?,F(xiàn)稱 載荷,表示第i個(gè)變量在第j個(gè)因子上的負(fù)荷,反映了第i個(gè)變量在 第j個(gè)因子上的相對(duì)重要性。另外,回歸的系數(shù)是唯一確定的,而因 子模型的系數(shù)矩陣不唯一,且該矩陣表明了原變量和公共因子的相關(guān) 程度。差陣的特征值所對(duì)應(yīng)的特征向量。某解釋變量前回歸系數(shù)的含 義是,在其他解釋變量保持不變的條件下,該變量變化一個(gè)單位,被 解釋變量將平均發(fā)生偏回歸系數(shù)大小的變動(dòng)。另外,因子分析中的載 荷矩陣是不可逆的,只能通過(guò)可觀測(cè)的原變量去估計(jì)不可觀測(cè)的公共 因子,bj是因子載荷矩陣中的元素,是第變量Xi與第j個(gè)公共因 子Z j的相關(guān)系數(shù),即表示Xi依賴Z j的份量,是第i變量在第j個(gè) 公共因子上的負(fù)荷,
14、它反映了第變量在第j個(gè)公共因子上的相對(duì)重的均要性。e y是第/個(gè)原觀測(cè)變量的特殊因子,且此處的X.與Z. 值都為0,方差都為1。5、效果檢驗(yàn)對(duì)多元線性回歸可作如下平方和分解: (Y - Y)2 = (Y - Y )2 + (Y Y)2ii iiTSS = RSS + ESS總離差平方和=回歸平方和+殘差平方和自由度:n-1=k-1+ n-k回歸方程的總體檢驗(yàn):H 0 : P1 = P 2 = P k = 0H1 :并非所有的P都為零*據(jù)給定的a n F根據(jù)樣本資料計(jì)算統(tǒng)計(jì)量F乙 / y - ;IkMSR SSR k I、JMSE SSEn - 1 - k 、-;力 -k*如果FF則拒絕H 0,
15、否則接收H 0回歸系數(shù)的檢驗(yàn):H0: pk =0H1 : Pk 公 0 *據(jù)給定的an F計(jì)算統(tǒng)計(jì)量 FFLssr lx 1, X 2,/. Xk) SSR l 1, X 2,Xk_1 刀/1SSex 1 , X 2 , X k,/ n 1 k . _.* 如果FF則拒絕H 0,否則接收H 0而對(duì)于因子分析而言,是沒(méi)有統(tǒng)計(jì)檢驗(yàn)的,只是在模型中各個(gè)量 的統(tǒng)計(jì)意義上有所表現(xiàn):特征根(Eigenvalue),(H.Kaiser)所謂特征值,是指每一行因子 負(fù)荷量平方加總后之總和,表示該因子能解釋全體變異的能力。每一 個(gè)公共因子的載荷系數(shù)之平方和等于對(duì)應(yīng)的特征根,即該公共因子的 方差。它可以被看成是主
16、成分影響度的指標(biāo),代表引入因子、主成分 后可解釋平均多少原始變量的信息。因每一變量之變異數(shù)均為1,若 所抽取的因子特征根小于1,說(shuō)明該主成分的解釋力度還不如直接引 入一個(gè)原變量的平均解釋力度大。因此一般可以用特征根大于1作為 納入標(biāo)準(zhǔn)。變量共同度(Communalities),也稱為公共方差(common variance),反映全部公共因子變量對(duì)原有變量X.的總方差解釋說(shuō)明 比例。原有變量X.的共同度為因子載荷矩陣A中第,行元素的平方和h12 =Y a, h;越接近于1(原有變量X.標(biāo)準(zhǔn)化前提下,總j=1方差為1),說(shuō)明公共因子解釋原有變量越多的信息。如果大部分變量 的共同度都高于0.8,則
17、說(shuō)明提取出的公共因子已經(jīng)基本反映了各原 始變量80%以上的信息,僅有較少的信息丟失,因子分析效果較好。 可以說(shuō),各個(gè)變量的共同度是衡量因子分析效果的一個(gè)指標(biāo)公共因子 F 的方差貢獻(xiàn)定義為因子載荷矩陣A中第/列各元素的平方和,方 差貢獻(xiàn)反映了該因子對(duì)所有原始變量總方差的解釋能力,其值越高, 說(shuō)明因子重要程度越高。累積貢獻(xiàn)率達(dá)到80%85%就比較滿意了。因子載荷(負(fù)荷)a j是隨機(jī)變量x,與公共因子匕的相關(guān)系數(shù)。 設(shè)稱g 2為公共因子匕對(duì)X的“貢獻(xiàn)”,是衡量公共因子fj重要性的一 個(gè)指標(biāo)。6、步驟回歸分析A、找出被選變量B、試建回歸模型C、評(píng)核回歸模型D、修改回歸模型E、解釋并應(yīng)用回歸模型因子分析
18、A、輸入原始數(shù)據(jù)Xn*p,計(jì)算樣本均值和方差,進(jìn) 行標(biāo)準(zhǔn)化計(jì)算(處理);B、求樣本相關(guān)系數(shù)矩陣R=(.);j p*pC、求相關(guān)系數(shù)矩陣的特征根人(人,人,人。)和i 12 p相應(yīng)的標(biāo)準(zhǔn)正交的特征向量l ;iD、確定公共因子數(shù);E、計(jì)算公共因子的共性方差七2;F、對(duì)載荷矩陣進(jìn)行旋轉(zhuǎn),以求能更好地解釋公共因子;G、對(duì)公共因子作出專(zhuān)業(yè)性的解釋。三、結(jié)束語(yǔ)回歸分析和因子分析是兩種常用的數(shù)據(jù)處理方法,通過(guò)主成分分 析和因子分析的對(duì)比,我們可以很清楚的看出回歸分析和因子分析有 一定的關(guān)系,本文只給出一部分區(qū)別和聯(lián)系。希望通過(guò)本文的分析, 能給初學(xué)者有一定的幫助,在學(xué)習(xí)和研究中能提供信息。另外,由以 上比較可知,在處理數(shù)據(jù)時(shí),若數(shù)據(jù)包含因子的信息,則可以先進(jìn)行 回歸分析,再用因子分析進(jìn)行進(jìn)一步驗(yàn)證和擴(kuò)展,發(fā)現(xiàn)其內(nèi)在規(guī)律, 以盡量全面客觀的解釋客觀事實(shí)。參考文獻(xiàn)1高惠璇.應(yīng)用多元統(tǒng)計(jì)分析M.北京大學(xué)出版社,2005,1.2何曉群,劉義卿.應(yīng)用回歸分析M.中國(guó)人民大學(xué)出版社.3張堯庭.多元統(tǒng)計(jì)分析選講.北京:中國(guó)統(tǒng)計(jì)出版社出版,20024數(shù)學(xué)建模方法及其應(yīng)用韓中庚北京:高等教育出版社,20055回歸分析及其試驗(yàn)設(shè)計(jì)茆詩(shī)松、丁元、周紀(jì)薌、呂乃剛?cè)A東師范大學(xué)出版社,20016多元線性回歸的數(shù)學(xué)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 助理全科醫(yī)生政策培訓(xùn)
- 同城票交培訓(xùn)課件
- 口腔知識(shí)講座
- 口腔疾病知識(shí)講座課件
- 制氮機(jī)培訓(xùn)課件
- 《我有一個(gè)夢(mèng)想》課件
- 口腔衛(wèi)生保護(hù)知識(shí)
- 《我聽(tīng)見(jiàn)時(shí)光的聲音》課件
- 制作教學(xué)專(zhuān)業(yè)培訓(xùn)班
- 口服流產(chǎn)藥的課件
- 護(hù)理護(hù)理科研與論文寫(xiě)作
- 2025年健康體檢中心服務(wù)與質(zhì)量管理手冊(cè)
- 2025-2030中國(guó)駱駝市場(chǎng)前景規(guī)劃與投資運(yùn)作模式分析研究報(bào)告
- 2026中國(guó)電信四川公用信息產(chǎn)業(yè)有限責(zé)任公司社會(huì)成熟人才招聘?jìng)淇碱}庫(kù)及完整答案詳解一套
- 鋼結(jié)構(gòu)玻璃雨棚安裝施工方案
- 鄂爾多斯輔警考試題型及答案
- 《中華人民共和國(guó)危險(xiǎn)化學(xué)品安全法》全套解讀
- 房建工程電氣安裝施工方案
- 同等學(xué)力申碩公共管理真題及答案
- 成都市高新區(qū)2025-2026學(xué)年七年級(jí)上數(shù)學(xué)期末試題及答案
- DB45∕T 2364-2021 公路路基監(jiān)測(cè)技術(shù)規(guī)范
評(píng)論
0/150
提交評(píng)論