多元線性回歸分析_第1頁
多元線性回歸分析_第2頁
多元線性回歸分析_第3頁
多元線性回歸分析_第4頁
多元線性回歸分析_第5頁
已閱讀5頁,還剩91頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、第六章 回 歸 分 析目錄回歸分析6.1 REG過程6.2 線性回歸6.2.1線性回歸模型的數(shù)學(xué)表示6.2.2 回歸參數(shù)的估計6.2.3 回歸方程的假設(shè)檢驗6.2.4 自變量的選擇6.2.5 多重共線性識別及處理6.2.6 回歸診斷6.2.7 綜合實例返回作業(yè)思考題1回 歸 分 析多元線性回歸回歸分析是研究變量間的依賴關(guān)系一種方法 本章目錄2回 歸 分 析多元線性回歸提 綱 REG過程回歸分析的基本內(nèi)容回歸分析實例本章目錄3回 歸 分 析 多元線性回歸REG過程的調(diào)用格式:PROC REG DATA=SAS數(shù)據(jù)集 選項1; MODEL 因變量=自變量名表/選項2; PLOT Y變量*X變量/選

2、項3; OUTPUT OUT=數(shù)據(jù)集名 關(guān)鍵字=變量名.;RUN;必選項1 REG過程本章目錄4回 歸 分 析 多元線性回歸1 REG過程選項1中常用選擇項有:GRAPHICS 高分辯率的圖形方式OUTEST=SAS數(shù)據(jù)集 保存回歸分析的結(jié)果 COVOUT=SAS數(shù)據(jù)集 存入估計的協(xié)方差陣OUTSSCP=SAS數(shù)據(jù)集 保存離差陣RIDGE=值 給出嶺回歸中的K值,其方式有M、 M TO N、 M TO N BY I 、M1,M2 TO M3NOPRINT 不打印輸出本章目錄5回 歸 分 析 多元線性回歸1 REG過程選項2中常用選擇項有:CLI 每個個體預(yù)測值的95%上、下限CLM 每個觀測因

3、變量期望值的95%上、下限R 每個個體的預(yù)測值、殘差及標(biāo)準(zhǔn)誤P 每個個體的觀測值、預(yù)測值、殘差等 (若選擇CLI CLM R,則無需選擇它)I 計算(XX)-1 XPX 計算XX XY 本章目錄6回 歸 分 析 多元線性回歸1 REG過程選項2中常用選擇項有:VIF 方差膨脹因子,它表示由于共線性的存在而使參數(shù) 估計值的方差增大的情況.STB 標(biāo)準(zhǔn)化偏回歸系數(shù)CORRB 參數(shù)估計的相關(guān)陣COVB 參數(shù)估計的協(xié)方差陣COLLIN 要求進行共線性分析INFLUENCE 要求分析觀測值對參數(shù)估計和預(yù)測值的影響 本章目錄7回 歸 分 析 多元線性回歸1 REG過程選項2中常用選擇項有:SELECTIO

4、N= BACKWARD 后退法 SLSTAY=值(缺省值為0.1)FORWARD 向前法 SLENTRY=值(缺省值為0.5)STEPWISE 逐步回歸法 SLSTAY=值 SLENTRY=值(缺省值均為0.15)RSQUARE R2選擇法ADJRSQ 修正.R2選擇法CP Mallous Cp統(tǒng)計量MAXR R2最大增量法MINR R2最小增量法本章目錄8回 歸 分 析 多元線性回歸1 REG過程選項3中常用選擇項有:OVERLAY 多個圖在一個圖上表示SYMBOL= 用某一符號表示圖形HPLOTS=N 在同一頁水平方向作N幅圖VPLOTS=N 在同一頁垂直方向作N幅圖本章目錄9回 歸 分

5、析 多元線性回歸1 REG過程常用的統(tǒng)計關(guān)鍵詞有 :P(PRIDICTED) 預(yù)測值R(RESIDUAL) 殘差L95M 期望值的95%下限U95M 期望值的95%上限L95 個體預(yù)測值的95%下限U95 個體預(yù)測值的95%上限STDP 期望值的標(biāo)準(zhǔn)誤本章目錄10回 歸 分 析 多元線性回歸1 REG過程常用的統(tǒng)計關(guān)鍵詞有 :STDI 預(yù)測值的標(biāo)準(zhǔn)誤STUDENT 學(xué)生化殘差RSTUDENT 去掉某觀測后的學(xué)生化殘差COOKD COOK D值H 杠桿值PRESS 當(dāng)去掉第I個觀測值后擬合模型的第I個觀測的殘差除以1-H; DFFITS 預(yù)測值的標(biāo)準(zhǔn)影響力. 本章目錄11回 歸 分 析 多元線性

6、回歸2 線性回歸2.1 線性回歸的數(shù)學(xué)表示因變量自變量為滿足線性關(guān)系(I)次觀測,對 進行所得的組數(shù)據(jù)為它們均滿足(I)式本章目錄12回 歸 分 析 多元線性回歸2 線性回歸2.1 線性回歸的數(shù)學(xué)表示因變量自變量為滿足線性關(guān)系(I)次觀測,對 進行所得的組數(shù)據(jù)為它們均滿足(I)式本章目錄13回 歸 分 析 多元線性回歸2 線性回歸2.1 線性回歸的數(shù)學(xué)表示本章目錄14因此(I)式可寫成如下矩陣形式:(II)此為多元線性回歸方程。回 歸 分 析 多元線性回歸2 線性回歸2.1 線性回歸的數(shù)學(xué)表示本章目錄15最小二乘法解回 歸 分 析 多元線性回歸2 線性回歸2.2 回歸參數(shù)的估計本章目錄16回

7、歸 分 析 多元線性回歸2 線性回歸2.2 回歸參數(shù)的估計若對 進行標(biāo)準(zhǔn)化,即 ,其中 , ,則得到的回歸系數(shù)即標(biāo)準(zhǔn)化回歸系數(shù)。標(biāo)準(zhǔn)化回歸系數(shù) 表示當(dāng)其他自變量固定時, 每變化一個單位,因變量 平均變化 個單位。因此 反映了自變量 對因變量 的影響大小。另外 的正號反映了 與 間是正相關(guān)關(guān)系,負號則為負相關(guān)關(guān)系 本章目錄17回 歸 分 析 多元線性回歸2 線性回歸2.3 回歸方程的假設(shè)檢驗?zāi)P偷臋z驗對于任一組觀測數(shù)據(jù),我們都可按上述方法建立回歸方程,那么它們是否具備建立線性回歸方程的條件呢?這就需要進行回歸方程的顯著性檢驗。即檢驗假設(shè) ,也就是所有回歸系數(shù)都等于零。如果檢驗的結(jié)果是拒絕 ,即接

8、受其備擇假設(shè),說明至少有一個回歸系數(shù) ,從而說明變量 線性依賴于某個變量 ;若檢驗的結(jié)果是接受 ,則說明所有變量 對變量的線性關(guān)系是不重要的。 本章目錄18回 歸 分 析 多元線性回歸2 線性回歸2.3 回歸方程的假設(shè)檢驗?zāi)P偷臋z驗對回歸方程的顯著性檢驗是通過方差分析得到。首先將因變量的離均差平方和分解為由回歸和誤差引起兩部分,然后構(gòu)造F統(tǒng)計量來進行統(tǒng)計推斷的 本章目錄19其中復(fù)決定系數(shù)回 歸 分 析 多元線性回歸2 線性回歸2.3 回歸方程的假設(shè)檢驗?zāi)P偷臋z驗其中:本章目錄20回 歸 分 析 多元線性回歸2 線性回歸2.3 回歸方程的假設(shè)檢驗回歸系數(shù)的檢驗 回歸方程顯著性檢驗是從總體上對自變

9、量與因變量之間是否存在線性關(guān)系進行了考察,若檢驗的結(jié)果是拒絕原假設(shè),則接受其對立假設(shè),也就是說至少存在某個變量的回歸系數(shù)不為零,因此還需對每個變量的回歸系數(shù)進行逐個檢驗,即對某個固定的 檢驗:本章目錄21回 歸 分 析 多元線性回歸2 線性回歸2.3 回歸方程的假設(shè)檢驗回歸系數(shù)的檢驗考慮統(tǒng)計量 ,則 服從自由度為的T-分布。其中 , 的標(biāo)準(zhǔn)誤為 ,其估計為 。通過計算 和 ,若 或 中任一個不比 大,則拒絕 , 認(rèn)為該變量的回歸系數(shù)顯著地不為零。反之則認(rèn)為該變量與因變量之間沒有顯著的線性關(guān)系。本章目錄22回 歸 分 析 多元線性回歸2 線性回歸2.3 回歸方程的假設(shè)檢驗預(yù)測與置信區(qū)間 將變量

10、的一組觀測值代入回歸方程,即得到變量 的預(yù)測值。因此預(yù)測是一件很簡單的事,只要確定了一個非常有效的回歸方程即可。有時我們還需要對預(yù)測值進行區(qū)間估計,下面給出因變量的期望值 和預(yù)測值 的區(qū)間估計。本章目錄23例回 歸 分 析 多元線性回歸2 線性回歸2.3 回歸方程的假設(shè)檢驗預(yù)測與置信區(qū)間預(yù)測值的 置信區(qū)間為:的 置信區(qū)間為:本章目錄24熟悉SAS中的REG過程掌握回歸分析的過程回 歸 分 析 多元線性回歸2 線性回歸小結(jié)與作業(yè)SAS中的REG過程回歸分析的基本內(nèi)容小 結(jié)作 業(yè)本章目錄25自變量的選擇回 歸 分 析 多元線性回歸2 線性回歸2.4 自變量的選擇本章目錄26選擇自變量的準(zhǔn)則 選擇自

11、變量進入回歸模型的方法(SAS實例)提 綱 提 綱 回 歸 分 析 多元線性回歸2 線性回歸2.4 自變量的選擇本章目錄27選擇自變量的準(zhǔn)則選擇自變量的準(zhǔn)則選擇自變量進入回歸模型的方法1. 引言因變量自變量為滿足線性關(guān)系(I)次觀測,對 進行所得的組數(shù)據(jù)為它們均滿足(I)式回 歸 分 析 多元線性回歸2 線性回歸2.4 自變量的選擇本章目錄28選擇自變量的準(zhǔn)則選擇自變量的準(zhǔn)則選擇自變量進入回歸模型的方法回 歸 分 析 多元線性回歸2 線性回歸2.4 自變量的選擇本章目錄29選擇自變量的準(zhǔn)則選擇自變量的準(zhǔn)則選擇自變量進入回歸模型的方法因此(I)式可寫成如下矩陣形式:(II)此為多元線性回歸方程。

12、全模型回 歸 分 析 多元線性回歸2 線性回歸2.4 自變量的選擇本章目錄30選擇自變量的準(zhǔn)則選擇自變量的準(zhǔn)則選擇自變量進入回歸模型的方法其中復(fù)決定系數(shù)最小二乘法解回 歸 分 析 多元線性回歸2 線性回歸2.4 自變量的選擇本章目錄31選擇自變量的準(zhǔn)則選擇自變量的準(zhǔn)則選擇自變量進入回歸模型的方法選模型現(xiàn)在從 個變量中選出 個 變量,同樣考慮上述過程:回 歸 分 析 多元線性回歸2 線性回歸2.4 自變量的選擇本章目錄32選擇自變量的準(zhǔn)則選擇自變量的準(zhǔn)則選擇自變量進入回歸模型的方法2. 從擬合的角度考慮的準(zhǔn)則:-觀測個數(shù)-模型中參數(shù)個數(shù)其中:修正決定系數(shù)準(zhǔn)則: (最大)回 歸 分 析 多元線性回

13、歸2 線性回歸2.4 自變量的選擇本章目錄33選擇自變量的準(zhǔn)則選擇自變量的準(zhǔn)則選擇自變量進入回歸模型的方法2. 從擬合的角度考慮的準(zhǔn)則:均方誤差準(zhǔn)則: (最小)回 歸 分 析 多元線性回歸2 線性回歸2.4 自變量的選擇本章目錄34選擇自變量的準(zhǔn)則選擇自變量進入回歸模型的方法3. 從極大似然估計法考慮的準(zhǔn)則:選擇自變量的準(zhǔn)則AIC或BIC信息量準(zhǔn)則: (最小)日本統(tǒng)計學(xué)家赤池(Akaike)1974年提出的。應(yīng)用到我們的選模型,有:回 歸 分 析 多元線性回歸2 線性回歸2.4 自變量的選擇本章目錄35選擇自變量的準(zhǔn)則選擇自變量的準(zhǔn)則選擇自變量進入回歸模型的方法4. 從預(yù)測的角度考慮的準(zhǔn)則:

14、準(zhǔn)則: (最小)1964年由馬勒斯(Mallows)提出,其思想是:使得(均方預(yù)測誤差)愈小愈好是全模型下誤差方差的估計。即:回 歸 分 析 多元線性回歸2 線性回歸2.4 自變量的選擇本章目錄36選擇自變量的準(zhǔn)則選擇自變量進入回歸模型的方法1. 常用的簡便方法:選擇自變量進入回歸模型的方法向前引入法(FORWARD)向后剔除法(BACKWARD)逐步篩選法(STEPWISE)回 歸 分 析 多元線性回歸2 線性回歸2.4 自變量的選擇本章目錄37選擇自變量的準(zhǔn)則選擇自變量進入回歸模型的方法1. 常用的簡便方法:選擇自變量進入回歸模型的方法引言:(偏F檢驗)-全模型-選模型記:表示全模型的復(fù)決

15、定系數(shù)表示減模型的復(fù)決定系數(shù)回 歸 分 析 多元線性回歸2 線性回歸2.4 自變量的選擇本章目錄38選擇自變量的準(zhǔn)則選擇自變量進入回歸模型的方法1. 常用的簡便方法:選擇自變量進入回歸模型的方法引言:(偏F檢驗)定義:顯然若幾乎為零,說明增加 對 的解釋能力沒有明顯提高;否則,若顯著不為零,則 就可以為回歸模型提供顯著的解釋信息?;?歸 分 析 多元線性回歸2 線性回歸2.4 自變量的選擇本章目錄39選擇自變量的準(zhǔn)則選擇自變量進入回歸模型的方法1. 常用的簡便方法:選擇自變量進入回歸模型的方法引言:(偏F檢驗)統(tǒng)計假設(shè):統(tǒng)計檢驗量為:回 歸 分 析 多元線性回歸2 線性回歸2.4 自變量的選擇

16、本章目錄40選擇自變量的準(zhǔn)則選擇自變量進入回歸模型的方法1. 常用的簡便方法:選擇自變量進入回歸模型的方法引言:(偏F檢驗)檢驗:(對給定的檢驗水平 )從全模型中刪除 , 對Y的解釋能力無明顯的減弱變化。若時,則接受 ,顯著為零,所以,若時,拒絕引入 會明顯提高對 的解釋能力;,說明顯著不為零,這說明在變量已進入模型后,回 歸 分 析 多元線性回歸2 線性回歸2.4 自變量的選擇本章目錄41選擇自變量的準(zhǔn)則選擇自變量進入回歸模型的方法1. 常用的簡便方法:選擇自變量進入回歸模型的方法向前引入法:(FORWARD)其做法是: 令:(1)對 個自變量,分別同因變量建立一元回歸方程計算變量 相應(yīng)的

17、值,記為回 歸 分 析 多元線性回歸2 線性回歸2.4 自變量的選擇本章目錄42選擇自變量的準(zhǔn)則選擇自變量進入回歸模型的方法1. 常用的簡便方法:選擇自變量進入回歸模型的方法向前引入法:(FORWARD)(2)建立因變量與自變量子集的二元回歸方程,并計算相應(yīng)的 ,記為:若:,則將引入回歸方程.否則,算法終止?;?歸 分 析 多元線性回歸2 線性回歸2.4 自變量的選擇本章目錄43選擇自變量的準(zhǔn)則選擇自變量進入回歸模型的方法1. 常用的簡便方法:選擇自變量進入回歸模型的方法向前引入法:(FORWARD)若:,則將引入回歸方程否則終止。(3)重復(fù)上述過程,直到?jīng)]有變量可引入為止?;?歸 分 析 多

18、元線性回歸2 線性回歸2.4 自變量的選擇本章目錄44選擇自變量的準(zhǔn)則選擇自變量進入回歸模型的方法1. 常用的簡便方法:選擇自變量進入回歸模型的方法向后刪除:(BACKWARD)其做法是: 選其中最小者的全模型,然后計算各自變量 相應(yīng)選模型的 值,記為:(1)建立 個自變量與因變量回 歸 分 析 多元線性回歸2 線性回歸2.4 自變量的選擇本章目錄45選擇自變量的準(zhǔn)則選擇自變量進入回歸模型的方法1. 常用的簡便方法:選擇自變量進入回歸模型的方法向后刪除:(BACKWARD) (2)對剩下的 個變量重復(fù)(1),直到?jīng)]有變量可剔除為止。若:,則將從回歸方程中剔除否則算法終止。回 歸 分 析 多元線

19、性回歸2 線性回歸2.4 自變量的選擇本章目錄46選擇自變量的準(zhǔn)則選擇自變量進入回歸模型的方法1. 常用的簡便方法:選擇自變量進入回歸模型的方法逐步篩選法:(STEPWISE) 逐步篩選法是人們最常用的的變量篩選方法。它是向前選擇變量法和向后刪除變量法的一種結(jié)合。 向前選擇變量法中,一旦某個自變量被選入模型,它就永遠留在模型之中。然而,隨著其他變量的引入,由于變量之間互相傳遞的相關(guān)關(guān)系,一些先進入模型的變量的解釋作用可能會變得不再顯著。 向后刪除變量法中,一旦某個自變量被刪除后它就永遠被排斥在模型之外。但是,隨著其他變量的被刪除,它對Y的解釋作用也可能會顯著起來?;?歸 分 析 多元線性回歸2

20、 線性回歸2.4 自變量的選擇本章目錄47選擇自變量的準(zhǔn)則選擇自變量進入回歸模型的方法1. 常用的簡便方法:選擇自變量進入回歸模型的方法逐步篩選法:(STEPWISE)其做法是: (1)(模型的起始與向前選擇變量法一樣)首先,求Y與每一個Xj的一元線性回歸方程,選擇F值最大的變量進入模型。然后,對剩下的(p-1)個模型外的變量進行偏F檢驗,在若干通過偏F檢驗的變量中,選擇Fj值最大者進入模型?;?歸 分 析 多元線性回歸2 線性回歸2.4 自變量的選擇本章目錄48選擇自變量的準(zhǔn)則選擇自變量進入回歸模型的方法1. 常用的簡便方法:選擇自變量進入回歸模型的方法逐步篩選法:(STEPWISE) (2

21、)對模型外的(p-2)個自變量做偏F檢驗。在通過偏F檢驗的變量中選擇Fj值最大者進入模型。接著對模型中的三個自變量分別進行偏F檢驗,如果三個自變量都通過了偏F檢驗,則接著選擇第四個變量。但如果有某一個變量沒有通過偏F檢驗,則將其從模型中刪除。 (3)重復(fù)上述步驟,直到所有模型外的變量都不能通過偏F檢驗,則算法終止。其做法是:回 歸 分 析 多元線性回歸2 線性回歸2.4 自變量的選擇本章目錄49選擇自變量的準(zhǔn)則選擇自變量進入回歸模型的方法2. 全子集法:選擇自變量進入回歸模型的方法其做法是: 先計算所有可能變量子集的回歸方程(共 個), 然后按修正R2選擇法(ADJRSQ)、 選擇法(CP)、

22、均方誤差法(MSE)以及AIC或BIC等準(zhǔn)則進行選擇?;?歸 分 析 多元線性回歸2 線性回歸2.4 自變量的選擇本章目錄50選擇自變量的準(zhǔn)則選擇自變量進入回歸模型的方法例子 考慮Hald水泥數(shù)據(jù)。其中:X13CaOAl2O3的含量(%) X23CaOSiO2的含量(%)X34CaOAl2O3Fe2O3的含量(%) X42CaOSiO2的含量(%)Y表示水泥凝固時釋放的熱量(卡/克)?;?歸 分 析 多元線性回歸2 線性回歸2.4 自變量的選擇本章目錄51選擇自變量的準(zhǔn)則選擇自變量進入回歸模型的方法小 結(jié)R2adj最大均方誤差最小Cp最小AIC或BIC最小選擇自變量進入回歸模型的方法:向前引入

23、法向后刪除法逐步篩選法利用選擇自變量的準(zhǔn)則,計算所 有可能變量子集的回歸方程選擇自變量的準(zhǔn)則:回 歸 分 析 多元線性回歸2 線性回歸2.4 自變量的選擇本章目錄52選擇自變量的準(zhǔn)則選擇自變量進入回歸模型的方法進一步閱讀的文獻:1 王松桂,陳敏,陳立萍。 線性統(tǒng)計模型-線性回歸 與方差分析。 北京:高等教育出版社,19992 何曉群。 回歸分析與經(jīng)濟數(shù)據(jù)建模。 北京:中國人 民大學(xué)出版社,19973 胡良平。 現(xiàn)代統(tǒng)計學(xué)與SAS應(yīng)用。 北京: 軍事醫(yī)學(xué) 科學(xué)出版社,2000?;?歸 分 析 多元線性回歸2 線性回歸2.4 自變量的選擇本章目錄53選擇自變量的準(zhǔn)則選擇自變量進入回歸模型的方法謝謝

24、回 歸 分 析 多元線性回歸2 線性回歸2.4 自變量的選擇本章目錄54回 歸 分 析 多元線性回歸2 線性回歸2.5 多重共線性的識別及處理多重共線性的識別及處理本章目錄55回 歸 分 析 多元線性回歸2 線性回歸2.5 多重共線性的識別及處理提 綱 背景多重共線性的識別多重共線性的處理本章目錄56回 歸 分 析 多元線性回歸2 線性回歸2.5 多重共線性的識別及處理在多元線性回歸中,有時會出現(xiàn)一些奇怪的現(xiàn)象,有時在某一顯著性水平下,回歸方程通過了顯著性水平檢驗,而回歸系數(shù)則不能通過相應(yīng)的顯著性檢驗;有時某個自變量與因變量有很強的相關(guān)性,然而在回歸方程中該變量的回歸系數(shù)卻沒有通過顯著性檢驗;

25、有時回歸系數(shù)的符號與相關(guān)專業(yè)相矛盾等,這些現(xiàn)象的出現(xiàn),是由于所選的自變量間存在著線性相關(guān)。這種現(xiàn)象稱為多重共線性。 背景背景多重共線性的識別多重共線性的處理背景本章目錄57回 歸 分 析 多元線性回歸2 線性回歸2.5 多重共線性的識別及處理背景多重共線性的識別多重共線性的處理多重共線性的識別共線性的識別方法是基于信息矩陣 進行的,常用的統(tǒng)計量有方差膨脹因子VIF(或容限TOL)、條件指數(shù)和方差比例等。 本章目錄58回 歸 分 析 多元線性回歸2 線性回歸2.5 多重共線性的識別及處理方差膨脹因子 背景多重共線性的識別多重共線性的處理設(shè)變量為 ,若它們之間存在或近似存在多重共線性,表明其中某個

26、變量能表示或近似表示為其它變量的線性組合,因此,若分別以 為因變量,以 自變量( )建立線性回歸方程,看這 個回歸方程的決定系數(shù) ( )有沒有較大者,若有,則表明它們之間有多重共線性關(guān)系。多重共線性的識別多重共線性的識別本章目錄59回 歸 分 析 多元線性回歸2 線性回歸2.5 多重共線性的識別及處理方差膨脹因子 背景多重共線性的識別多重共線性的處理方差膨脹因子表示由于共線性的存在而使參數(shù)估計值的方差增大的情況 與 的關(guān)系 多重共線性的識別多重共線性的識別本章目錄60回 歸 分 析 多元線性回歸2 線性回歸2.5 多重共線性的識別及處理方差膨脹因子 背景多重共線性的識別多重共線性的處理 當(dāng) =

27、0, =1,此時表示 與其它變量間不存在線性關(guān)系; 當(dāng)0 1,此時表示 與其它變量間存在不同程度的 線性關(guān)系; 當(dāng) =1時, ,此時表示 與其它變量間存在完全的線性關(guān)系。 在實際應(yīng)用中若某個 10,則表明模型中存在很強的共線性問題。多重共線性的識別多重共線性的識別本章目錄61回 歸 分 析 多元線性回歸2 線性回歸2.5 多重共線性的識別及處理條件指數(shù)和方差比例 背景多重共線性的識別多重共線性的處理若矩陣 的特征值為 ,則比值 ( )反映了矩陣 奇異的程度,故稱此比值為條件指數(shù)。在具體實踐中設(shè)計矩陣不包含常數(shù)項:若條件指數(shù)值在1030為弱共線性;在30100為中等共線性;大于100為強共線性。

28、設(shè)計矩陣中包括常數(shù)項:條件指數(shù)值小于100為弱共線性;在1001000為中等共線性;大于1000為強共線性。 多重共線性的識別多重共線性的識別本章目錄62回 歸 分 析 多元線性回歸2 線性回歸2.5 多重共線性的識別及處理條件指數(shù)和方差比例 背景多重共線性的識別多重共線性的處理 每個條件指數(shù),都對應(yīng)著一個特征值。對于較大的條件指數(shù),則對應(yīng)著一個較小的特征值,此時可求得其對應(yīng)的特征向量,故構(gòu)成這一特征向量的變量間有近似的線性關(guān)系,由此即可找出存在強線性關(guān)系的變量組。此外統(tǒng)計中用方差比例來量化各個變量在構(gòu)成這個特征向量中的貢獻,一般認(rèn)為在大的條件指數(shù)中由方差比例超過0.5的變量間存在共線性。 多

29、重共線性的識別多重共線性的識別本章目錄63回 歸 分 析 多元線性回歸2 線性回歸2.5 多重共線性的識別及處理對變量進行篩選(具體內(nèi)容見上一節(jié)的描述) 背景多重共線性的識別多重共線性的處理多重共線性的處理本章目錄64回 歸 分 析 多元線性回歸2 線性回歸2.5 多重共線性的識別及處理背景多重共線性的識別多重共線性的處理嶺回歸 當(dāng)變量間存在共線性關(guān)系時,我們用下式來估計線性回歸方程參數(shù), ,此式稱為回歸系數(shù)的嶺估計。其中 是可選擇的參數(shù),嶺回歸就是要選擇合適的 值,選擇的原則是使得回歸模型的均方誤差最小,即使得 達到最小時的 值;或選取使得 中每個分量的變化大體上穩(wěn)定的 值。多重共線性的處理

30、本章目錄65回 歸 分 析 多元線性回歸2 線性回歸2.5 多重共線性的識別及處理背景多重共線性的識別多重共線性的處理主成分回歸 多重共線性的處理本章目錄 步驟如下:首先提取主成分 , 其中 是矩陣 的特征根 所對應(yīng)的單位正交化的特征向量, 中第 個分量就稱為第 個主成分;其次根據(jù)方差累計貢獻率確定主成分的個數(shù)r,(即根據(jù) 的值來確定r的值,通常取 時最小的r值即可)并利用這r個主成分進行回歸建模;最后再還原到原變量即得主成分回歸模型。66小 結(jié)方差膨脹因子VIF(或容限TOL)條件指數(shù)方差比例多重共線性的處理:對變量進行篩選嶺回歸主成分回歸多重共線性的識別:回 歸 分 析 多元線性回歸2 線

31、性回歸2.5 多重共線性的識別及處理背景多重共線性的識別多重共線性的處理多重共線性的處理本章目錄67回 歸 分 析 多元線性回歸2 線性回歸2.5 回歸診斷回歸模型的建立是有一定條件的,在檢驗時通常還假定 ,那么在建立模型時這樣的條件是否能得到滿足?關(guān)于這方面的內(nèi)容又稱之為殘差分析;同時我們還要考察觀測值對模型影響,當(dāng)然我們不希望所建模型僅受一組或少數(shù)幾組數(shù)據(jù)的強烈影響,那樣會使模型不穩(wěn)定,如何判斷觀測數(shù)據(jù)的影響,這也是回歸診斷的內(nèi)容,關(guān)于這方面的分析又稱之為影響分析。 本章目錄68殘差分析影響分析。 回 歸 分 析 多元線性回歸2 線性回歸2.5 回歸診斷提 綱 本章目錄69回 歸 分 析

32、多元線性回歸2 線性回歸2.5 回歸診斷殘差圖 因變量實測值與模型預(yù)測值之差稱之為殘差 。即 ,它是模型中誤差項 的估計。再將 標(biāo)準(zhǔn)化即得到學(xué)生化殘差,即 ,其中 為帽子矩陣第 行第 列的元素。以 為縱軸,以 , , 任一個量作為橫軸所得到的圖稱為殘差圖 影響分析殘差分析殘差分析本章目錄70回 歸 分 析 多元線性回歸2 線性回歸2.5 回歸診斷殘差圖 若模型關(guān)于誤差正態(tài)性的條件得到滿足,則有95.4%的 落在-2,2范圍內(nèi),在殘差圖上則表現(xiàn)為有95.4%的 落在 和 的帶子里,且不呈現(xiàn)任何趨勢。這就告訴我們,可從殘差圖來判斷模型的條件是否滿足。只要給出的殘差圖中其點大致落在寬度為4的水平帶

33、內(nèi),且不呈現(xiàn)任何趨勢,則表明誤差的正態(tài)性得到滿足。 影響分析殘差分析殘差分析本章目錄71回 歸 分 析 多元線性回歸2 線性回歸2.5 回歸診斷影響分析方差齊性的檢測及修正 殘差分析殘差分析本章目錄72回 歸 分 析 多元線性回歸2 線性回歸2.5 回歸診斷影響分析方差齊性的檢測及修正 殘差分析殘差分析(a)表示正常的殘差圖,(b)表示回歸函數(shù)可能是非線性的,應(yīng)改為曲線模型。(c)表示殘差的絕對值隨著預(yù)測值的增加 而增加的趨勢(或有減少的趨勢,或先增后減 的趨勢),表明關(guān)于方差齊性的假定不成立。 (d)則表示觀測值間的獨立性不成立。本章目錄73回 歸 分 析 多元線性回歸2 線性回歸2.5 回

34、歸診斷影響分析方差齊性的檢測及修正 殘差分析殘差分析對于誤差方差非齊性時,可通過適當(dāng)?shù)淖儞Q,使得變換后的變量在回歸中誤差的方差接近齊性即可,否則通過改變變換函數(shù)重新計算,直到方差齊性為止。常用的變換為平方根變換、對數(shù)變換和倒數(shù)變換等,即 、 和 本章目錄74回 歸 分 析 多元線性回歸2 線性回歸2.5 回歸診斷影響分析Cook D統(tǒng)計量 殘差分析影響分析其中 表示剔除第個數(shù)據(jù)點后得到的回歸系數(shù)估計值,其余變量定義同前 本章目錄75回 歸 分 析 多元線性回歸2 線性回歸2.5 回歸診斷影響分析Cook D統(tǒng)計量 殘差分析影響分析這是一種從參數(shù)估計的角度提出的統(tǒng)計量,一般認(rèn)為當(dāng) 時,為強影響點

35、 本章目錄76回 歸 分 析 多元線性回歸2 線性回歸2.6 綜合實例數(shù)據(jù):X1X2X3X4Y7 26 6 60 78.5 1 29 15 52 74.3 11 56 8 20 104.3 11 31 8 47 87.6 7 52 6 33 95.9 11 55 9 22 109.2 3 71 17 6 102.7 1 31 22 44 72.5 2 54 18 22 93.1 21 47 4 26 115.9 1 40 23 34 83.8 11 66 9 12 113.3 10 68 8 12 109.4本章目錄77回 歸 分 析 多元線性回歸2 線性回歸2.6 綜合實例建立數(shù)據(jù)集及一般線

36、性方程Data hald;Input x1-x4 y;Cards;7 26 6 60 78.5 1 29 15 52 74.3 11 56 8 20 104.3 11 31 8 47 87.6 7 52 6 33 95.9 11 55 9 22 109.2 3 71 17 6 102.7 1 31 22 44 72.5 2 54 18 22 93.1 21 47 4 26 115.9 1 40 23 34 83.8 11 66 9 12 113.3 10 68 8 12 109.4Run;proc reg data=hald; model y=x1-x4; run; 本章目錄78回 歸 分 析

37、 多元線性回歸2 線性回歸2.6 綜合實例建立數(shù)據(jù)集及一般線性方程模型檢驗: ProbF 0.0001表明y與x1,x2,x3,x4之間的線性關(guān)系成立參數(shù)檢驗:(結(jié)果表明每個參數(shù)均不顯著)Variable Prob |T|INTERCEP 0.891X1 2.083X2 0.705X3 0.135X4 -0.203結(jié)論:可能存在多重共線性本章目錄79回 歸 分 析 多元線性回歸2 線性回歸2.6 綜合實例識別多重共線性proc reg data=hald;model y=x1-x4/ vif collin;run;本章目錄80回 歸 分 析 多元線性回歸2 線性回歸2.6 綜合實例識別多重共線

38、性 VarianceVariable InflationINTERCEP 0.00000000X1 38.49621149X2 254.42316585X3 46.86838633X4 282.51286479 X4的方差膨脹因子達282.51286479,可認(rèn)為這四個變量間存在嚴(yán)重的多重共線性關(guān)系 本章目錄81回 歸 分 析 多元線性回歸2 線性回歸2.6 綜合實例識別多重共線性 Collinearity Diagnostics Condition Var Prop Var Prop Var Prop Var Prop Var PropNumber Eigenvalue Index INTE

39、RCEP X1 X2 X3 X41 4.11970 1.00000 0.0000 0.0004 0.0000 0.0002 0.00002 0.55389 2.72721 0.0000 0.0100 0.0000 0.0027 0.00013 0.28870 3.77753 0.0000 0.0006 0.0003 0.0016 0.00174 0.03764 10.46207 0.0001 0.0574 0.0028 0.0457 0.00095 0.0000661 249.57825 0.9999 0.9316 0.9969 0.9498 0.9973最大的條件指數(shù)為249.57825,介

40、于100到1000之間,表明這些變量間存在中等程度的多重共線性關(guān)系。 從方差比例來看,對應(yīng)最大條件指數(shù)的那一行,其方差比例最小的是變量X1,其值為0.9316,比0.5大,表明這四個變量就是一個共線性組。 本章目錄82回 歸 分 析 多元線性回歸2 線性回歸2.6 綜合實例多重共線性的處理選擇變量法 逐步回歸法proc reg data=hald; model y=x1-x4/selection=stepwise; run; 本章目錄83回 歸 分 析 多元線性回歸2 線性回歸2.6 綜合實例多重共線性的處理選擇變量法 逐步回歸法All variables left in the model

41、are significant at the 0.1500 level.No other variable met the 0.1500 significance level for entry into the model. Summary of Stepwise Procedure for Dependent Variable Y Variable Number Partial ModelStep Entered Removed In R*2 R*2 C(p) F ProbF 1 X4 1 0.6745 0.6745 138.7308 22.7985 0.0006 2 X1 2 0.297

42、9 0.9725 5.4959 108.2239 0.0001 3 X2 3 0.0099 0.9823 3.0182 5.0259 0.0517 4 X4 2 0.0037 0.9787 2.6782 1.8633 0.2054可以看出,逐步回歸法第一步是選進變量X4,在第二、三兩步選入變量X1和X2后,變量X4的作用變得不明顯,故第四步將X4從模型中刪除掉。故用此法所選的變量為X1和X2 本章目錄84回 歸 分 析 多元線性回歸2 線性回歸2.6 綜合實例多重共線性的處理選擇變量法 全子集法proc reg data=hald;model y=x1-x4/selection=adjrsq

43、cp bic;run;本章目錄85回 歸 分 析 多元線性回歸2 線性回歸2.6 綜合實例多重共線性的處理選擇變量法 全子集法In AdjRsq C(p) BIC Variables in Model 1 0.6450 138.7 55.54 X4 1 0.6359 142.5 55.85 X2 1 0.4916 202.5 60.00 X1 1 0.2210 315.2 65.39 X3- 2 0.9744 2.678 29.24 X1 X2 2 0.9670 5.496 30.98 X1 X4 2 0.9223 22.37 37.89 X3 X4 2 0.8164 62.44 46.84

44、X2 X3 2 0.6161 138.2 55.51 X2 X4 2 0.4578 198.1 59.74 X1 X3- 3 0.9764 3.018 31.17 X1 X2 X4 3 0.9764 3.041 31.18 X1 X2 X3 3 0.9750 3.497 31.41 X1 X3 X4 3 0.9638 7.337 33.00 X2 X3 X4- 4 0.9736 5.000 34.41 X1 X2 X3 X4-Cp原則比較準(zhǔn)確得到相應(yīng)的回歸方程為: y=52.577349+1.468306X1+0.66225X2本章目錄86回 歸 分 析 多元線性回歸2 線性回歸2.6 綜合實

45、例多重共線性的處理嶺回歸法 proc reg data=hald outest=rghald outvif graphics corr; model y=x1-x4/ridge=0 to 1 by 0.1 2 3 4 5 6 ; plot/ridgeplot;run;proc print data=rghald;run;本章目錄87回 歸 分 析 多元線性回歸2 線性回歸2.6 綜合實例多重共線性的處理嶺回歸法 其中outest=rghald要求REG過程將結(jié)果保存在rghald數(shù)據(jù)集中,選項outvif要求輸出方差膨脹因子,選項graphics要求在高分辨率方式下作圖, corr則要求計算相

46、關(guān)系數(shù)。MODEL語句后面ridge=0 to 1 by 0.1 2 3 4 5 6給出嶺回歸中的k值,共計有16個。plot語句后面加上參數(shù)ridgeplot,要求作出嶺跡圖。 本章目錄88回 歸 分 析 多元線性回歸2 線性回歸2.6 綜合實例多重共線性的處理嶺回歸法 可取k=0.2的嶺回歸估計,得到如下嶺回歸模型:y=87.7519+0.9788X1+0.289X2-0.3268X3-0.324X4 本章目錄89回 歸 分 析 多元線性回歸2 線性回歸2.6 綜合實例多重共線性的處理主成分回歸法 proc reg data=ff.hald outest=pchald outvif;mod

47、el y=x1-x4/pcomit=1,2 ;run;proc print data=pchald;run;選項pcomit=1,2表示分別求出在刪除最后1個和2個主成分后所得到的回歸方程 本章目錄90回 歸 分 析 多元線性回歸2 線性回歸2.6 綜合實例多重共線性的處理主成分回歸法 數(shù)據(jù)集pchald中關(guān)于主成分回歸的輸出為 OBS _MODEL_ _TYPE_ _DEPVAR_ _RIDGE_ _PCOMIT_ _RMSE_1 MODEL1 PARMS Y . . 2.446012 MODEL1 IPCVIF Y . 1 .3 MODEL1 IPC Y . 1 2.322064 MODEL1 IPCVIF Y . 2 .5 MODEL1 IPC Y .

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論