版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、第十一章 多重線性回歸分析,2,內(nèi) 容,3,一、方法簡介,1.1 分析目的與方法選擇 研究一個因變量與一個自變量間的線性關(guān)系時 簡單線性回歸分析 研究一個因變量與多個自變量間的線性關(guān)系時 多重線性回歸分析,4,一、方法簡介,1.2 概念 用回歸方程定量地刻畫一個因變量與多個自變量之間的線性依存關(guān)系,稱為多重線性回歸分析(multiple linear regression analysis)。 自變量是相互獨立的連續(xù)型變量或分類變量。,一、方法簡介,1.3 數(shù)據(jù)結(jié)構(gòu) 表1 進行多重線性回歸分析資料的數(shù)據(jù)結(jié)構(gòu),5,6,二、基本原理,2.1 原理簡介 多重線性回歸模型: Y=b0+b1X1+b2X
2、2+bkXk+e=bX+e 其中,bj (j=0, 1 , 2 , k)為未知參數(shù),e為隨機誤差項。,7,二、基本原理,多重線性回歸模型中包含多個自變量,它們同時對因變量Y 發(fā)生作用。 若要考察一個自變量對Y 的影響,就必須假設(shè)其他自變量保持不變。 因此,多重線性回歸模型中的回歸系數(shù)為偏回歸系數(shù)。 它反映的是當模型中的其他自變量不變時,其中一個自變量對因變量Y 的均值的影響。,8,二、基本原理,2.2 前提條件 多重線性回歸分析要求資料滿足線性(Linear)、獨立性(Independence)、正態(tài)性(Normality)和方差齊性(Equal variance),即LINE條件。 除此之外
3、,還要求多個自變量之間相關(guān)性不要太強。,9,二、基本原理,2.2 前提條件 線性指自變量與因變量之間的關(guān)系是線性的 獨立性指各觀測值之間是相互獨立的 正態(tài)性指自變量取不同值時,因變量服從正 態(tài)分布 方差齊性指自變量取不同值時,因變量的方 差相等,10,三、分析步驟,1. 基本任務 求出模型中參數(shù)的估計值,對模型和參數(shù)進行假設(shè)檢驗; 對自變量進行共線性診斷,對觀測值進行異常值診斷; 結(jié)合統(tǒng)計學知識和專業(yè)知識,對回歸方程進行合理的解釋,并加以應用。,11,三、分析步驟,2. 具體步驟 2.1 回歸參數(shù)估計 多重線性回歸分析的參數(shù)估計,常采用最小二乘法(OLS)進行。 參數(shù)估計值為:,12,三、分析
4、步驟,2. 具體步驟 2.2 模型檢驗 根據(jù)方差分析的思想,將總的離均差平方和SS總分解為回歸平方和SS回和殘差平方和SS殘兩部分。 SS總的自由度為n-1, SS回的自由度為k, SS殘的自由度為n-k-1。,SS總= SS回歸+ SS殘差,v總= v回歸+ v殘差,14,三、分析步驟,2. 具體步驟 2.2 模型檢驗 模型的顯著性檢驗步驟為: 第一步,建立檢驗假設(shè)。 H0:b1=b2= =bk=0 H1: b1, b2, , bk不同時為0,15,三、分析步驟,第二步,計算統(tǒng)計量F的值。 第三步,確定P值,下統(tǒng)計學結(jié)論。 根據(jù)檢驗統(tǒng)計量F的值和自由度,確定其對應的P值。若Pa,則接受H0,
5、認為回歸模型的系數(shù)全部為0;若Pa,則拒絕H0,接受H1,認為回歸模型的系數(shù)不全為0。,16,三、分析步驟,2. 具體步驟 2.3 參數(shù)檢驗 回歸方程有統(tǒng)計學意義,可以說明整體上自變量對Y 有影響,但并不意味著每個自變量對因變量的影響都有統(tǒng)計學意義。 考察各個自變量對因變量的影響,即檢驗其系數(shù)是否為0。 若某自變量對因變量的影響無統(tǒng)計學意義,可將其從模型中刪除,重新建立回歸方程。,17,三、分析步驟,對自變量Xi的系數(shù)是否為0進行假設(shè)檢驗,步驟為: 第一步,建立檢驗假設(shè)。 H0:bi=0 H1: bi0,18,三、分析步驟,第二步,計算檢驗統(tǒng)計量。 第三步,確定P值。 根據(jù)自由度和臨界水平,查
6、t分布表,可得雙側(cè)界值為ta/2(n-k-1)。 若t ta/2(n-k-1)或t - ta/2(n-k-1),則Pa。此時,拒絕H0,接受H1,認為該回歸系數(shù)不等于0。反之,則接受H0,認為該回歸系數(shù)為0。,19,三、分析步驟,2. 具體步驟 2.4 變量篩選 不是所有的自變量都對因變量的作用都有統(tǒng)計學意義。 故需要找到一個較好的回歸方程,使之滿足:方程內(nèi)的自變量對回歸都有統(tǒng)計學意義,方程外的自變量對回歸都無統(tǒng)計學意義。,20,三、分析步驟,這就是自變量的選擇問題,或稱為變量篩選。選擇時, 一要盡可能地不漏掉重要的自變量; 二要盡可能地減少自變量的個數(shù),保持模型的精簡。 就回歸方程而言,每個
7、變量均有兩種可能性,即被選擇或被踢除。所以,所有可能的模型有2k個(k為自變量個數(shù))。 自變量個數(shù)較多時,計算量過大。此時,需要一定的變量篩選方法。,全局擇優(yōu)法 變量篩選 逐步選擇法,校正決定系數(shù)R2選擇法 Cp選擇法,前進法 后退法 逐步回歸法,c,22,三、分析步驟,2.4.1 前進法(FORWARD) 回歸方程中變量從無到有依次選擇一個自變量進入回歸方程,并根據(jù)該變量在回歸方程中的型離差平方和(SS2)計算F統(tǒng)計量及P值。 當P小于sle (規(guī)定的選變量進入方程的臨界水平)則該變量入選,否則不能入選。,23,三、分析步驟,當回歸方程中變量少時某變量不符合入選標準,但隨著回歸方程中變量逐次
8、增多時,該變量就可能符合入選標準;這樣直到?jīng)]有變量可入選為止。 具體而言,是從僅含常數(shù)項(即截距項)的最簡單模型開始,逐步在模型中添加自變量。,24,三、分析步驟,局限性: sle取值小時,可能沒有一個變量能入選; sle取值大時,開始選入的變量后來在新條件下不再進行檢驗,因而不能剔除后來變得無統(tǒng)計學意義的變量。,25,三、分析步驟,2.4.2 后退法(BACKWARD) 從模型中包含全部自變量開始,計算留在回歸方程中的各個自變量所產(chǎn)生的F統(tǒng)計量和P值,當P值小于sls(規(guī)定的從方程中踢除變量的臨界水準)則將此變量保留在方程中。 否則,從最大的P值所對應的自變量開始逐一踢除,直到回歸方程中沒有
9、變量可以被踢除時為止。,26,三、分析步驟,局限性: sls大時,任何一個自變量都不能被踢除; sls小時,開始被踢除的自變量后來在新條件下即使變得對因變量有較大的貢獻了,也不能再次被選入回歸方程并參與檢驗。,27,三、分析步驟,2.4.3 逐步回歸法(STEPWISE) 此法是前進法和后退法的結(jié)合。 回歸方程中的變量從無到有像前進法那樣,根據(jù)F統(tǒng)計量和P值大小按sle水平?jīng)Q定該自變量是否入選。,28,三、分析步驟,當回歸方程選入自變量后,又像后退法那樣,根據(jù)F統(tǒng)計量和P值按sls水平踢除無統(tǒng)計學意義的各自變量,依次類推。 這樣直到?jīng)]有自變量可入選,也沒有自變量可被踢除或入選的自變量就是剛被剔
10、除的自變量時,則停止逐步篩選過程。,29,三、分析步驟,2.4.3 逐步回歸法,30,三、分析步驟,逐步回歸法比前進法和后退法都能更好地選出變量構(gòu)造模型,但它也有局限性: 其一,當有m個變量入選后,選第m1個變量時,對它來說,前m個變量不一定是最佳組合; 其二,選入或踢除自變量僅以F值和P值作標準,完全沒考慮其它標準。,31,三、分析步驟,2.4.4 變量篩選方法的選擇 究竟哪一種篩選變量的方法最好?這個問題沒有絕對的定論。 一般來說,逐步回歸法和最優(yōu)回歸子集法較好。對于一個給定的資料,可試用多種變量篩選的方法,結(jié)合以下幾條判斷原則,從中選擇最佳者。,32,三、分析步驟,其一,擬合的回歸方程在
11、整體上有統(tǒng)計學意義; 其二,回歸方程中各回歸參數(shù)的估計值的假設(shè)檢驗結(jié)果都有統(tǒng)計學意義; 其三,回歸方程中各回歸參數(shù)的估計值的正負號與其后的變量在專業(yè)上的含義相吻合; 其四,根據(jù)回歸方程計算出因變量的所有預測值在專業(yè)上都有意義。 其五,若有多個較好的多重線性回歸方程時,殘差平方和較小且多重線性回歸方程中所含的自變量的個數(shù)又較少者為最佳。,33,三、分析步驟,2.5 模型擬合效果評價 2.5.1 決定系數(shù)(R2) 即復(全)相關(guān)系數(shù)的平方,其值等于因變量觀測值與預測值之間簡單相關(guān)系數(shù)的平方。計算公式為:,34,三、分析步驟,2.5 模型擬合效果評價 2.5.1 決定系數(shù)(R2) R2取值介于0到1
12、之間,其含義為自變量能夠解釋因變量y變異的百分比。 R2越接近于1,說明線性回歸對實際數(shù)據(jù)的擬合程度越好。,35,三、分析步驟,2.5 模型擬合效果評價 2.5.2 校正決定系數(shù)(Rc2) 隨著模型中自變量個數(shù)的增加,決定系數(shù)R2將不斷增大,這不符合回歸模型中自變量個數(shù)盡可能少的原則。,36,三、分析步驟,2.5 模型擬合效果評價 2.5.2 校正決定系數(shù)(Rc2) 故在評價兩個包含不同個數(shù)自變量的回歸模型的擬合效果時,不能簡單地用決定系數(shù)作為評價標準。 此時,必須考慮回歸模型中自變量個數(shù)的影響。,37,三、分析步驟,2.5 模型擬合效果評價 2.5.2 校正決定系數(shù)(Rc2) 構(gòu)造校正決定系
13、數(shù),其公式為: 其中,n為樣本含量,p為模型中自變量個數(shù)。決定系數(shù)相同時,自變量個數(shù)越多, Rc2越小。,38,三、分析步驟,2.5 模型擬合效果評價 2.5.3 AIC信息準則 該準則由日本學者赤池于1973年提出,廣泛應用于時間序列分析中自回歸階數(shù)的確定,多重回歸、廣義線性回歸中自變量的篩選以及非線性回歸模型的比較和選優(yōu)。該統(tǒng)計量取值越小,反映模型擬合效果越好。,在進行多重線性回歸分析時,除了要滿足LINE 外,還要求各變量之間不能存在共線性,即各變量之間要相互獨立。為此,需要進行共線性診斷; 當自變量均為隨機變量時,若它們之間高度相關(guān),則稱變量間存在多重共線性(multicollinea
14、rity);自變量之間不存在多重共線性,即稱其互相獨立。,三、分析步驟,2.6 共線性診斷,40,三、分析步驟,多重線性回歸分析中,可能會出現(xiàn)以下問題: 回歸方程的檢驗有統(tǒng)計學意義,而各偏回歸系數(shù)的檢驗均無統(tǒng)計學意義。 偏回歸系數(shù)的估計值大小或其符號與實際情況和專業(yè)知識相違背,難以解釋。 某個(些)與因變量關(guān)系密切的自變量,因為參數(shù)標準誤的估計值較大,相應t值就會變得較小,造成其偏回歸系數(shù)無統(tǒng)計學意義。,41,三、分析步驟,導致這些問題的原因可能有: (1)研究設(shè)計不夠合理; (2)資料收集存在問題; (3)自變量間近似線性; (4)數(shù)據(jù)中存在異常點; (5)樣本少而自變量多。,42,三、分析
15、步驟,何謂多重共線性? 自變量間的近似線性關(guān)系,即是多重共線性。 由于數(shù)據(jù)自身的特征,回歸模型中的自變量之間或多或少地存在一些相關(guān)性,這違反了自變量間相互獨立的假設(shè)條件,稱為多重共線性。,43,三、分析步驟,多重共線性的分類: (1)嚴重的多重共線性 此時,自變量之間存在著較高甚至完全的線性相關(guān)關(guān)系,雖然最小二乘法仍可應用,但由于觀測誤差的穩(wěn)定性變差,所得的估計值可能面目全非。這類情況較為少見。 (2)某種程度的多重共線性 此時,最小二乘法仍可獲得參數(shù)的無偏估計值,但參數(shù)的方差估計值將變得很大,導致估計精度下降,且無法判斷自變量對因變量的影響程度。,例 研究胎兒受精齡Y/周與胎兒身長X1/cm
16、、頭圍 X2/cm,體重X3/g之間的依存關(guān)系。,顯然,此處的3個解釋變量X1、X2、X3 之間存在著高度的共線性, X1、X2、X3 兩項對Y 的過分貢獻只能用X2 項的負系數(shù)抵消,造成其專業(yè)意義無法解釋而出現(xiàn)悖論。,三、分析步驟,相關(guān)系數(shù) Correlation 容忍度 Torelance 方差膨脹因子 VIF 條件數(shù) Condition index 方差比例Variance proportions, VP 方差相關(guān)矩陣Variance Matrix,可用來判斷變量之間的獨立性、 或說多重共線性,三、分析步驟,如果兩個自變量之間的相關(guān)系數(shù)超過0.9,則會帶來共線性問題,如果在0.8以下,一
17、般不會出現(xiàn)多大問題。,共線性診斷1.兩個自變量之間的相關(guān)系數(shù),2.容忍度 Tolerance /方差膨脹因子 VIF,經(jīng)驗表明:VIF大于5或10時,存在嚴重的共線性;一般要求Tolerance必須大于0.1,或 VIF必須小于10。,48,3.條件數(shù) 最大特征根與其余每個特征根比值的平方根,稱為條件指數(shù)(conditional number),公式為: 而最大條件指數(shù),簡稱為條件數(shù),其值為最大特征根與最小特征根之比值的平方根。即:,49,條件數(shù)越大,說明設(shè)計矩陣X具有越強的共線性。 經(jīng)驗上,若030,則認為自變量間存在嚴重的多重共線性。,50,三、分析步驟,2.6.3 共線性的解決方法 (1
18、)變量篩選 采用自變量篩選的方法一般可選出對因變量有統(tǒng)計學影響且相互之間獨立或相關(guān)性較低的一組自變量。 (2)有偏估計 自變量間存在多重共線性且專業(yè)上認為需要保留在模型中時,不宜使用最小二乘法估計模型。此時,可采用有偏估計。 此類方法包括嶺回歸分析、主成分回歸分析等。 (3)增大樣本含量 通過增加樣本含量,減少估計量的方差,提高估計精度,可在一定程度上克服多重共線性。,51,三、分析步驟,2.7 異常點診斷 2.7.1 異常點 對因變量的預測值影響特別大,甚至容易導致相反結(jié)論的觀測點,稱為異常點。 異常點的診斷,可采用學生化殘差統(tǒng)計量、Cooks D統(tǒng)計量。,52,三、分析步驟,2.7.2 學
19、生化殘差統(tǒng)計量 Studentized residual,計算公式為: 該統(tǒng)計量的絕對值大于2時,所對應的觀測點可能是異常點。,53,三、分析步驟,2.7.3 Cooks D統(tǒng)計量 庫克距離統(tǒng)計量。 一般認為, Cooks D0.5時,可認為此觀測點對回歸模型的擬合有強影響,即可認為是異常點。,54,三、分析步驟,2.7.4 異常點的處置 認真核對原始數(shù)據(jù)。若屬抄寫或輸入等人為錯誤,應予以糾正;若非人為錯誤,可刪除異常點,重新擬合回歸模型。 如有可能,最好在此實驗點上補做實驗,進一步確定此可疑異常點是否屬實。,55,三、分析步驟,2.8 自變量作用大小評價 由于自變量量綱不同,不能直接根據(jù)原始數(shù)據(jù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 影視視聽語言1(鏡頭、景別)
- 護理本科就業(yè)趨勢
- 食品安全監(jiān)管技術(shù)規(guī)范(標準版)
- 2026年劇本殺運營公司員工職業(yè)道德準則管理制度
- 2025年鋰電池拆解五年技術(shù)成本報告
- 2025年建筑外墻防水涂料市場前景分析報告
- 生態(tài)旅游景區(qū)生態(tài)修復工程中生物多樣性保護技術(shù)2025年可行性報告
- 2026年教育數(shù)據(jù)驅(qū)動創(chuàng)新報告
- 2026年建筑行業(yè)智能制造報告
- 2026年通信行業(yè)5G技術(shù)商用化報告及未來五至十年通信行業(yè)報告
- 2024年養(yǎng)殖業(yè)創(chuàng)新合作:肉牛養(yǎng)殖與科研合作協(xié)議3篇
- 變電站消防安全
- 單位租車合同協(xié)議樣本
- 《JJG196-2006-常用玻璃量器檢定規(guī)程》
- 《陸上風電場工程設(shè)計概算編制規(guī)定及費用標準》(NB-T 31011-2019)
- 介入導管室有關(guān)知識課件
- 銀行客戶經(jīng)理壓力與情緒管理培訓
- 推廣經(jīng)理半年工作計劃
- 無人機駕駛員培訓計劃及大綱
- 價格說明函格式范本正規(guī)范本(通用版)
- 水車澆水施工方案
評論
0/150
提交評論