版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、第十一章 多元線性回歸(簡介),當(dāng)研究兩個變量間的線性關(guān)系時,直線回歸是回歸分析中最簡單的一種。直線回歸主要研究一個應(yīng)變量(dependent variable)與一個自變量(independent variable)間的線性趨勢的數(shù)量關(guān)系。生物醫(yī)學(xué)研究中,常遇到一個應(yīng)變量與多個自變量數(shù)量關(guān)系的問題。,收縮壓與年齡和體重的關(guān)系、血糖的變化與胰島素、生長素等因素有關(guān)。 肺活量與身高、體重、胸圍的關(guān)系; 胃癌術(shù)后效果與癌組織類型、浸潤程度、肉芽反應(yīng)、有無淋巴轉(zhuǎn)移等因素有關(guān);,例如:,用線性方程表達一個應(yīng)變量與一組自變量的數(shù)量關(guān)系,就是多元線性回歸(multiple linear regressio
2、n),常簡稱為多元回歸(multiple regression)。,設(shè)應(yīng)變量為Y,自變量為: X1,X2,Xk, Y與自變量X1,X2,Xk 的多元回歸,就是指 Y與 k 個自變量X1,X2,Xk 有如下線性關(guān)系:,多元線性回歸方程:,式中 是為Y的估計值或預(yù)測值(predicted value),表示當(dāng)給定各自變量的值時,因變量Y 的估計值; b0 為截距,在回歸方程中又稱為常數(shù)項,表示各自變量均為0 時Y 的估計值; bi 稱為偏回歸系數(shù)(partial regression coefficient),簡稱為回歸系數(shù),表示其它自變量不變時,Xi 每改變一個單位,Y 的平均變化量。,原始資料
3、作多元線性回歸分析,理論上應(yīng)滿足的條件有:,1)線性(linear),因變量與自變量的關(guān)系是線性的; 2)獨立性(independence),隨機誤差項在不同樣本點之間是獨立的,無自相關(guān); 3)正態(tài)性(normality),隨機誤差項服從均數(shù)為零、方差為2的正態(tài)分布;,4) 方差齊性(equal variance ,or homogeneity),隨機誤差項在不同樣本點的方差相等。 以上四個條件縮寫為LINE,與直線回歸中的條件是相同的。 如果目的是建立多元回歸方程,探討自變量與因變量間的數(shù)量關(guān)系,而無需根據(jù)自變量的取值預(yù)測因變量的容許區(qū)間、可信區(qū)間等,則后兩個條件可以適當(dāng)放寬。,多元回歸方程
4、的資料格式 例號y x1 x2 xk 1 y1 x11 x21 x1k 2 y2 x12 x22 x2k n yn xn1 xn2 xnk,例11.1同樣身高的20名健康男子的收縮壓、年齡和體重的測量結(jié)果見表。試建立收縮壓與年齡和體重之間的多元線性回歸方程。,偏回歸系數(shù)的估計,回歸分析的目的之一就是要建立一個回歸方程,以使研究人員能夠根據(jù)已知的自變量去預(yù)測因變量的取值。 回歸系數(shù)的估計仍然用最小二乘法(LSM)。 (計算方法略),20名建康男子的收縮壓、年齡和體征的測定值,編號 收縮壓y 年齡x1體重x2 1 15.60 50 76.0 2 18.80 20 91.5 . . . . 20 1
5、9.19 43 85.5 用最小二乘法(method of least square)求解b1、b2 、b0得:,在該方程中,b1=0.0546,表示在體重不變的前提下,年齡每增加1歲,收縮壓平均增加0.0546(kPa);b2=0.1944(kg),表示在年齡不變的情況下,體重每增加1kg,收縮壓平均增加0.1944(kPa)。,截距b0= -0.6815,表示X1,X2 都為0 時,Y 的估計值,在這里沒有實際意義,是根據(jù)方程估算出來的值。 例如,當(dāng)X1=50,X2=80 時, =17.60,表示對所有年齡為50歲,體重為80kg 的男子,估計平均收縮壓為17.60(kPa)。,二、多元回
6、歸方程統(tǒng)計學(xué)意義的假設(shè)檢驗,假設(shè)檢驗包括多元回歸方程的假設(shè)檢驗與偏回歸系數(shù)的假設(shè)檢驗。 多元回歸方程的假設(shè)檢驗常用方差分析: ANOVA(方差分析表) 變異來源 Sum of squares df Mean Square F P Regression 33.65 2 16.82 11.31 0.0008 Residual 25.28 17 1.49 Total 58.93 19,偏回歸系數(shù)的假設(shè)檢驗用t檢驗: Coefficients(參數(shù)估計) Unstandardized Standardized Coefficients Coefficients Bota b std. Error b
7、t P 偏回歸系數(shù)b的標(biāo)準(zhǔn)誤標(biāo)準(zhǔn)化偏回歸系數(shù) Constant -0.6815 3.9017 -0.175 0.8634 X1 0.0546 0.0241 0.3667 2.268 0.0366 X2 0.1944 0.0429 0.7323 4.530 0.0003,三、標(biāo)準(zhǔn)化偏回歸系數(shù),由公式求出的偏回歸系數(shù)的絕對值大小與自變量的度量單位有關(guān),因而偏回歸系數(shù)大的應(yīng)變量未必對應(yīng)變量y的線性影響也大。 當(dāng)自變量之間不存在較強的相關(guān)關(guān)系時,可以計算每一個自變量的標(biāo)準(zhǔn)化偏回歸系數(shù)。具有較大標(biāo)準(zhǔn)化偏回歸系數(shù)的自變量對應(yīng)變量y的影響相對較大。,四、復(fù)相關(guān)系數(shù),在多元線性回歸分析中,直接建立Y 與全部自
8、變量之間的線性回歸模型通常是不可取的,因為不能說這些自變量對建立回歸模型都是必要的。因此,在建立回歸方程的過程中有必要考慮對變量進行篩選,從許多自變量中挑選出對Y 有影響的自變量,有利于提高回歸方程的質(zhì)量。,一般來說,當(dāng)回歸方程中自變量個數(shù)增加,或多或少總能減少剩余誤差,提高模型的擬合精度,但勢必導(dǎo)致模型的復(fù)雜性。 因此,在建立回歸方程時,要遵循一個原則,即“少而精”。具體地說:既要盡可能地提高擬合的精度,又要盡可能地使模型簡單。這就需要有一些量化的標(biāo)準(zhǔn)來衡量所得模型的“優(yōu)劣”。 目前,常用的衡量方程“優(yōu)劣”的標(biāo)準(zhǔn)有復(fù)相關(guān)系數(shù)。,復(fù)相關(guān)系數(shù)(multiple correlation coeff
9、icient)用R表示,取值在01之間。表示m個自變量共同對應(yīng)變量y的相關(guān)密切程度。 復(fù)相關(guān)系數(shù)的平方R2稱為決定系數(shù)(coefficient of determination),R2表示回歸平方和在y的總變異中所占的比重。用R2可定量評價y的總變異能被x1、x2、xm解釋的比重。 如本例R2=0.5709,可知由年齡和體重可解釋該組觀察對象收縮壓變異的57.09%。,第二節(jié)多元逐步回歸,一、多元逐步回歸的基本思想 逐步回歸(stepwise regression)是從眾多的回歸模型中快速地選出“最優(yōu)”模型而提出的一種策略算法。 它是將自變量一個一個引入方程,引入變量的條件是該自變量對應(yīng)變量的
10、影響經(jīng)檢驗是有統(tǒng)計學(xué)意義的。用該方法建立的回歸方程一般具有較少的自變量,且變量之間具有較強的相關(guān)關(guān)系的可能性較少。,當(dāng)人們應(yīng)用回歸分析去處理實際問題時,經(jīng)常碰到的重要問題就是選擇自變量。一般說來,研究人員在設(shè)計、搜集資料時,常盡可能多地羅列出一切可能與因變量有關(guān)的自變量,生怕遺漏。事實上,其中有一些變量對應(yīng)變量根本沒有影響或影響很小,如果這些變量都進入回歸方程,不但計算量大,而且模型參數(shù)的估計(偏回歸系數(shù))和預(yù)測的精度也會下降。因而在應(yīng)用回歸分析時,有必要對進入模型的自變量作精心選擇。,前進法(step-up, forward-entry procedure) 事先給定一個挑選自變量進入方程的
11、標(biāo)準(zhǔn)。開始時,方程中除常數(shù)項外沒有自變量,按各自變量對Y 的貢獻大小由大到小依次挑選進入方程。每選入一個變量進入方程,再重新計算方程外各自變量(扣除已進入方程的自變量影響)對Y 的貢獻。直到方程外變量均達不到入選標(biāo)準(zhǔn),沒有自變量可被引入方程為止。 該法只考慮選入變量,不考慮剔除。,對Y 貢獻大者入選,計算方程外X對Y 的貢獻,對Y 貢獻大者入選,給定入選標(biāo)準(zhǔn),直到方程外變量沒有自變量可被引入,方程內(nèi)無自變量,后退法(step-down, backward-elimination procedure) 與前進法相反,后退法是事先給定一個剔除自變量的標(biāo)準(zhǔn)。開始全部自變量都在方程之中,按自變量對Y
12、的貢獻大小由小到大依次剔除。每剔除一個自變量后,重新計算未被剔除的各自變量對Y 的貢獻。直到方程中沒有自變量可被剔除為止。 該法只考慮剔除自變量,不考慮進入。,對Y 貢獻小者剔出,計算方程內(nèi)X對Y 的貢獻,對Y 貢獻小者剔出,給定剔出標(biāo)準(zhǔn),直到方程內(nèi)無變量可剔出,全部自量都在方程內(nèi),逐步向前法(forward stepwise) 本法事先給定一個剔選變量的標(biāo)準(zhǔn)。它不同于前進法,每選入一個自變量,都要對已在模型中的自變量進行檢驗,對低于剔除標(biāo)準(zhǔn)的變量要逐一剔除。,具體做法是,按自變量對Y 的貢獻大小由大到小依次挑選進入方程;每選一個變量進入方程,則重新計算各自變量對Y 的貢獻。并考察已在方程中的
13、變量是否由于新變量的引入,其作用被新變量代替或部分代替,抑制了它的作用并退化為無意義。如果有,將它剔除并重新計算各自變量對Y 的貢獻。如仍有變量低于入選標(biāo)準(zhǔn),則繼續(xù)考慮剔除,直到方程內(nèi)變量均符合入選標(biāo)準(zhǔn),沒有自變量可被剔除,方程外沒有自變量可被引進為止。,選入方程外對Y 貢獻大者 剔出方程內(nèi)對Y 貢獻小者,計算方程內(nèi)、外X對Y 的貢獻,對Y 貢獻大者入選,給定入選及剔出標(biāo)準(zhǔn),直到方程內(nèi)無變量可被剔出 方程外無變量可被引入為止,方程內(nèi)無自變量,逐步向后法(backward stepwise) 本法亦事先給定一個剔選變量的標(biāo)準(zhǔn),但思路與逐步向前法的方向正好相反。每剔除一個自變量,都要對方程外的自變
14、量進行檢驗,對符合入選標(biāo)準(zhǔn)的變量要重新考慮選入。,具體做法是,開始時所有變量均在方程中,計算自變量對Y 的貢獻,并將貢獻最小者剔除;每剔除一個變量,則重新計算各自變量對Y 的貢獻,并考察方程外的變量;如符合入選標(biāo)準(zhǔn),則將貢獻最大的自變量選入,并重新計算各自變量對Y 的貢獻;如仍有變量符合入選標(biāo)準(zhǔn),則繼續(xù)考慮選入,直到方程外變量均不符合入選標(biāo)準(zhǔn),沒有自變量可被引入,再考慮剔除。直到方程內(nèi)沒有變量可被剔除,方程外沒有變量可被引進為止。,剔出方程內(nèi)對Y 貢獻小者 選入方程外對Y 貢獻大者,計算方程內(nèi)、外X對Y 的貢獻,對Y 貢獻小者剔出,給定剔出及入選標(biāo)準(zhǔn),直到方程內(nèi)無變量可剔出 方程外無變量可引入
15、為止,全部自量都在方程內(nèi),常采用的剔選變量的標(biāo)準(zhǔn)有兩種。 一是假設(shè)檢驗的P 值,即對偏回歸系數(shù)進行假設(shè)檢驗,P 值越小則貢獻越大,反之亦然。若自變量的P值小于事先給定的標(biāo)準(zhǔn)P 選(如0.05),則稱符合入選標(biāo)準(zhǔn),反之,如大于事先給定的標(biāo)準(zhǔn),則不符合入選標(biāo)準(zhǔn)。 二是偏回歸平方和的檢驗統(tǒng)計量F,F(xiàn) 值越大則貢獻越大,反之亦然。,理論上,剔除變量和選擇變量是同一個界值。但實際分析時,可能會出現(xiàn)剛被剔除的變量,馬上又被選入,從而使計算機進入“死循環(huán)”,特別是在界值附近時。為了避免這種情況的出現(xiàn),總是選兩個界值,一個用于剔除變量(P剔),一個用于選入變量(P選)。且P剔略大于P選,尤其是編寫計算機程序時
16、。,不同的逐步回歸方法所得結(jié)果不盡相同; 不同的界值所得結(jié)果不同; 方程的優(yōu)劣與界值F 的大小無必然聯(lián)系;,應(yīng)當(dāng)注意:,逐步回歸所得方程不一定是真正最優(yōu)的,而是局部的、相對的最優(yōu)。因此,從尋求最優(yōu)方程的角度說,界值要多取幾個,以便得到多種不同組合的方程,從中找出“最優(yōu)”,免得遺漏;從因素分析的角度看,多取幾個界值,可以得到多組對因變量有統(tǒng)計學(xué)意義的變量組合,再結(jié)合逐步向前法和逐步向后法剔選變量的過程,可以得到更多的信息,找到最優(yōu)方程的可能性也就大一些。,一般的做法是,先選擇F = 0,用逐步向前法剔選變量,看哪個變量先進入方程、每個變量進入方程時的F 值以及哪個變量先進入方程后又被剔除。再用逐
17、步向后法逐個剔除變量,看哪個變量先被剔除方程、每個變量被剔除時的F 值以及哪個變量先被剔除后又被選入。然后,根據(jù)上述結(jié)果選擇幾個不同的界值,再用逐步向前法和逐步向后法分別觀察變量進出方程的情況。直至所得方程在專業(yè)上能得到較為合理的解釋為止。,第三節(jié)多元回歸分析的注意事項,一、多元回歸的基本假定 1. y,x1,x2,xm是正態(tài)分布的隨機變量; 2. 自變量x1,x2,xm之間相互獨立; 3. mn。 二、樣本含量 樣本含量n是自變量m的310倍。,三、變量篩選 1. 因變量與自變量呈線性關(guān)系; 2. 選擇適當(dāng)?shù)闹?選入變量的entry值剔除變量的removal值); 3. 選擇適當(dāng)?shù)淖兞亢Y選方法(逐步法、前進法、后退法)。 四、自變量的聯(lián)合作用分析 主要靠醫(yī)學(xué)專業(yè)知識或根據(jù)決定系數(shù)R2的大
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 家庭中央空調(diào)選購安裝服務(wù)合同范本
- 2025年石材干掛工程索賠合同
- 2025中原航空融資租賃股份有限公司招聘2人備考考試試題及答案解析
- 2025江蘇南通市保障房建設(shè)投資集團有限公司子公司招聘1人參考考試題庫及答案解析
- 2025廣東佛山市順德區(qū)樂從鎮(zhèn)沙滘小學(xué)招文員1人考試參考試題及答案解析
- 2025年甘肅省新華書店招聘考試備考資料包(公共基礎(chǔ)知識)參考考試題庫及答案解析
- 2025年江西移動第四季度社會招聘備考筆試試題及答案解析
- 2025湖北鄂州市華容區(qū)屬國有企業(yè)招聘7人備考筆試試題及答案解析
- 左腳和右腳課件
- 寧夏石嘴山市三中2026屆生物高三上期末調(diào)研模擬試題含解析
- 2024年人民法院聘用書記員考試試題及答案
- 2025年高三英語口語模擬(附答案)
- 大明湖課件教學(xué)課件
- 2025年新出臺貝殼出租合同模板
- 離婚財產(chǎn)分割培訓(xùn)課件
- 口腔科種植牙預(yù)防感染要點培訓(xùn)指南
- 小學(xué)語文板書基本功培訓(xùn)
- 2025甘肅酒泉市公安局招聘留置看護崗位警務(wù)輔助人員30人(第三批)考試筆試參考題庫附答案解析
- 測繪安全生產(chǎn)作業(yè)規(guī)范
- 2026年焦作大學(xué)單招職業(yè)適應(yīng)性考試必刷測試卷必考題
- 安全生產(chǎn)先進評選方案
評論
0/150
提交評論