多重共線性的情形及其處理.ppt_第1頁
多重共線性的情形及其處理.ppt_第2頁
多重共線性的情形及其處理.ppt_第3頁
多重共線性的情形及其處理.ppt_第4頁
多重共線性的情形及其處理.ppt_第5頁
已閱讀5頁,還剩54頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第五章 多重共線性的情形及其處理,5 .1 多重共線性產生的背景和原因及其 影響 5 .2 多重共線性的診斷 5 .3 主成分回歸 5 .4 嶺回歸,第五章 多重共線性的情形及其處理,如果存在不全為0的p+1個數c0,c1,c2,cp ,使得 c0+c1xi1+c2xi2+cpxip=0 , i=1,2,n (6.1) 則稱自變量x1,x2,xp之間存在著完全多重共線性。 在實際經濟問題中完全的多重共線性并不多見,常見的是(6.1)式近似成立的情況,即存在不全為0的p+1個數c0,c1,c2,cp ,使得 c0+c1xi1+c2xi2+cpxip0 , i=1,2,n(6.2) 稱自變量x1,

2、x2,xp之間存在著多重共線性 (Multi-collinearity),也稱為復共線性。,5.1多重共線性產生的經濟背景和原因及其影響,在研究社會、經濟問題時,因為問題本身的復雜性,設計的因素很多。在建立回歸模型時,往往由于研究者認識水平的局限性,很難在眾多因素中找到一組互不相關又對因變量y有顯著影響的變量,不可避免地出現所選按自變量相關的情形。,設回歸模型 y=0+1x1+2x2+pxp+ 存在完全的多重共線性,即對設計矩陣X的列向量存在不全為零的一組數c0,c1,c2,cp ,使得 c0+c1xi1+c2xi2+cpxip=0 , i=1,2,n 設計矩陣X的秩rank(X) p+1,此

3、時|xx|=0,正規(guī)方程組的解不唯一,(xx)-1不存在,回歸參數的最小二乘估計表達式 不成立。,對非完全共線性, 存在不全為零的一組數c0,c1,c2,cp ,使得 c0+c1xi1+c2xi2+cpxip0 , i=1,2,n,例:做y對兩個自變量x1,x2的線性回歸,假定y與x1,x2都已經中心化,此時回歸常數項為零,回歸方程為,5.2 多重共線性的診斷,一、方差擴大因子法,對自變量做中心標準化,則X*X*=(rij)為自變量的相關陣。記 C=(cij)=(X*X*)-1 稱其主對角線元素VIFj=cjj為自變量xj的方差擴大因子(Variance Inflation Factor,簡記

4、為VIF)。根據OLS性質3可知,,其中Ljj是xj的離差平方和,由(6.6)式可知用cjj做為衡量自變量xj的方差擴大程度的因子是恰如其分的。,5.2 多重共線性的診斷,5.2 多重共線性的診斷,經驗表明,當VIFj10時,就說明自變量xj與其余自變量之間有嚴重的多重共線性,且這種多重共線性可能會過度地影響最小二乘估計值。 還可用p個自變量所對應的方差擴大因子的平均數來度量多重共線性。當,遠遠大于1時就表示存在嚴重的多重共線性問題。,5.2 多重共線性的診斷,5.2 多重共線性的診斷,以下用SPSS軟件診斷例3.2中國民航客運量一例中的多重共線性問題。,5.2 多重共線性的診斷,二、特征根判

5、定法,(一)特征根分析,根據矩陣行列式的性質,矩陣的行列式等于其特征根的連乘積。因而,當行列式|XX|0時, 矩陣XX至少有一個特征根近似為零。反之可以證明,當矩陣XX至少有一個特征根近似為零時,X 的列向量間必存在復共線性,證明如下:,記X =(X0 ,X1,Xp),其中 Xi為X 的列向量, X0 =(1,1,1)是元素全為1的n維列向量。 是矩陣XX的一個近似為零的特征根,0 c=(c0,c1, ,cp)是對應于特征根的單位特征向量,則 XX c=c0,上式兩邊左乘c,得 cXX c0 從而有 X c0 即 c0X0 +c1X1+cp Xp0 寫成分量形式即為 c0+c1xi1+c2xi

6、2+cpxip0 , i=1,2,n 這正是定義的多重共線性關系。,(二)條件數,特征根分析表明,當矩陣XX有一個特征根近似為零時,設計矩陣X 的列向量間必存在復共線性。那么特征根近似為零的標準如何確定哪?這可以用下面介紹的條件數確定。記XX的最大特征根為m,稱,為特征根i的條件數(Condition Index)。,0k10時,設計矩陣X沒有多重共線性; 10k100時,認為X存在較強的多重共線性; 當k100時,則認為存在嚴重的多重共線性。,用條件數判斷多重共線性的準則,對例3.2中國民航客運量的例子,用SPSS軟件計算出 特征根與條件數如下:,方差比例是用于判斷哪幾個自變量之間存在共線性

7、的。實際上共線性關系可以直接從特征向量看出來,只是SPSS軟件在線性回歸模塊中沒有輸出特征向量陣。 把特征向量按照特征值由大到小排成行向量,每個數值平方后再除以特征值,然后再把每列數據除以列數據之和,使得每列數據之和為1,這樣就得到了輸出結果6.2的方差比。 再次強調的是線性回歸分析共線性診斷中設計陣X包含代表常數項的一列1,而因子分析模塊中給出的特征向量是對標準化的設計陣給出的,兩者之間有一些差異。,三、 等級相關系數法 (Spearman Rank Correlation ),四、 Bartlett球度檢驗(Bartlett test of sphericity ),Bartlett球度檢

8、驗以原有變量的相關系數矩陣為出發(fā)點,其原假設是:相關系數矩陣式單位陣,即相關系數矩陣為對角陣(對角元素不為0,非對角元素均為0)且對角元素均為1. Bartlett球度檢驗的檢驗統(tǒng)計量根據相關系數矩陣的行列式計算得到,且近似服從卡方分布。 如果該統(tǒng)計量的觀測值比較大,且對應的概率P值小于給定的顯著性水平,則應拒絕原假設,認為相關系數矩陣不太可能是單位陣; 反之,如果檢驗統(tǒng)計量的觀測值比較小且對應的概率P值大于給定的顯著性水平,則不能拒絕原假設,可以認為相關系數矩陣與單位陣無顯著差異。,5.2 多重共線性的診斷,五、直觀判定法 1.當增加或剔除一個自變量,或者改變一個觀測值時,回歸系數的估計值發(fā)

9、生較大變化。 2.從定性分析認為,一些重要的自變量在回歸方程中沒有通過顯著性檢驗。 3.有些自變量的回歸系數所帶正負號與定性分析結果違背。 4.自變量的相關矩陣中,自變量間的相關系數較大。 5.一些重要的自變量的回歸系數的標準誤差較大。,5.3 消除多重共線性的方法,一、剔除一些不重要的解釋變量,在剔除自變量時,可以將回歸系數的顯著性檢驗、方差擴大因子VIF以及自變量的經濟含義結合起來考慮,以引進或剔除變量。,5.3 消除多重共線性的方法,二、增大樣本容量,例如,可以看到,在r12固定不變時,當樣本容量n增大時,L11和L22都會增大,兩個方差均可減小,從而減弱了多重共線性對回歸方程的影響。,

10、5.3 消除多重共線性的方法,三、回歸系數的有偏估計,消除多重共線性對回歸模型的影響是近30年來統(tǒng)計學家們關注的熱點課題之一,除以上方法被人們應用外,統(tǒng)計學家還致力于改進古典的最小二乘法,提出以采用有偏估計為代價來提高估計量穩(wěn)定性的方法,如: 主成分回歸法 嶺回歸法 偏最小二乘法等。,5.4 主成分回歸,主成分分析(Principal Components Analysis,簡記為PCA)是多元統(tǒng)計分析的一個基本方法,是對數據做一個正交旋轉變換,也就是對原有變量做一些線性變換,變換后的變量是正交的。為了避免變量的量綱不同所產生的影響,要求先把數據做中心標準化,中心標準化后的自變量樣本觀測數據矩

11、陣(即設計陣)就是n行p列的矩陣, 就是相關陣。,一、定義 任何一組p各變量均可變換為一組p個正交的變量,新的正交的變量稱為主成分,記為 每一個線性回歸方程都可用一組正交的預測變量來重新表述,這些新變量是以原始預測變量的線性組合形式獲得的,稱為自變量集的主成分。,二、步驟 用主成分分析方法選擇kp個獨立的主成分,可以解釋設計矩陣的大多數或所有變化。將因變量對k個主成分回歸,得到最小二乘估計。 (1)對p個自變量計算主成分 (2)選擇k個含有原始變量大部分信息的主成分 (3)用y對k個主成分F1,F2,Fk做普通最小二乘回歸 (4)轉換回到用原始自變量表示的回歸方程 轉換方法: 載荷矩陣;主成分

12、對自變量做線性回歸,三、注意事項 舍棄任何主成分時都應慎重; 結果可能會過度收到異常點和強影響點的影響,5.5 嶺回歸,一、嶺回歸的定義,嶺回歸(Ridge Regression,簡記為RR)提出的想法是很自然的。 當自變量間存在復共線性時,XX0, 我們設想給XX加上一個正常數矩陣kI,(k0), 那么XX+kI接近奇異的程度就會比XX接近奇異的程度小得多。 考慮到變量的量綱問題,我們先對數據做標準化,為了記號方便,標準化后的設計陣仍然用X表示,我們稱,為的嶺回歸估計,其中k稱為嶺參數。,由于假設X已經標準化,所以XX就是自變量樣本相關陣,上式計算的實際是標準化嶺回歸估計。 式中因變量觀測向

13、量y可以經過標準化也可以未經標準化。 顯然,嶺回歸做為的估計應比最小二乘估計穩(wěn)定, 當k=0時的嶺回歸估計就是普通的最小二乘估計。,二、嶺回歸估計的性質,在本節(jié)嶺回歸估計的性質的討論中,假定估計式中因變量觀測向量y未經標準化。,嶺回歸的不足 (1)碰運氣; (2)k可變動,不唯一; (3)有偏。,三、嶺跡分析,三、嶺跡分析,四、 嶺參數k的選擇,1、嶺跡法,嶺跡法選擇k值的一般原則是:,(1)各回歸系數的嶺估計基本穩(wěn)定; (2)用最小二乘估計時符號不合理的回歸系數,其嶺估計的符號變得合理; (3)回歸系數沒有不合乎經濟意義的絕對值; (4)殘差平方和增大不太多。,2、方差擴大因子法,三、由殘差

14、平方和來確定k值,嶺估計在減小均方誤差的同時增大了殘差平方和,我們希望嶺回歸的殘差平方和SSE(k)的增加幅度控制在一定的限度以內,可以給定一個大于1的c值,要求: SSE(k)cSSE 尋找使上式成立的最大的k值。在后邊的例子中我們將會看到對該方法的應用。,五、 用嶺回歸選擇變量,嶺回歸選擇變量的原則: (1)在嶺回歸中設計矩陣X已經中心化和標準化了,這樣可以直接比較標準化嶺回歸系數的大小。可以剔除掉標準化嶺回歸系數比較穩(wěn)定且絕對值很小的自變量。 (2)隨著k的增加,回歸系數不穩(wěn)定,震動趨于零的自變量也可以剔除。 (3)如果依照上述去掉變量的原則,有若干個回歸系數不穩(wěn)定,究竟去掉幾個,去掉哪

15、幾個,這并無一般原則可循,這需根據去掉某個變量后重新進行嶺回歸分析的效果來確定。,例7.2 空氣污染問題。Mcdonald和Schwing在參考文獻18 中曾研究死亡率與空氣污染、氣候以及社會經濟狀況等因素 的關系。考慮了15個解釋變量,收集了60組樣本數據。 x1Average annual precipitation in inches 平均年降雨量 x2Average January temperature in degrees F 1月份平均氣溫 x3Same for July 7月份平均氣溫 x4Percent of 1960 SMSA population aged 65 or o

16、lder 年齡65歲以上的人口占總人口的百分比 x5Average household size 每家人口數 x6Median school years completed by those over 22 年齡在22歲以上的人受教育年限的中位數,x7Percent of housing units which are sound & with all facilities 住房符合標準的家庭比例數 x8Population per sq. mile in urbanized areas, 1960 每平方公里人口數 x9Percent non-white population in urba

17、nized areas, 1960 非白種人占總人口的比例 x10Percent employed in white collar occupations 白領階層人口比例 x11Percent of families with income $3000 收入在3000美元以下的家庭比例 x12Relative hydrocarbon pollution potential 碳氫化合物的相對污染勢 x13 Same for nitric oxides 氮氧化合物的相對污染勢 x14Same for sulphur dioxide 二氧化硫的相對污染勢 x15Annual average % r

18、elative humidity at 1pm 年平均相對濕度 yTotal age-adjusted mortality rate per 100,000 每十萬人中的死亡人數,計算XX的15個特征為: 4.5272,2.7547,2.0545,1.3487,1.2227 0.9605,0.6124, 0.4729,0.3708,0.2163 0.1665,0.1275,0.1142,0.0460,0.0049,條件數,注:以上特征根是按照原文獻的計算方式,自變量觀測陣未包含代表常數項的第一列1,與用SPSS計算結果有所不同,進行嶺跡分析 把15個回歸系數的嶺跡畫到圖7.4中,我們可看到,當k=0.20時嶺跡大體上達到穩(wěn)定。按照嶺跡法,應

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論