線性相關(guān)與回歸(簡(jiǎn)單線性相關(guān)與回歸、多重線性回歸、Spearman等級(jí)相關(guān))_第1頁(yè)
線性相關(guān)與回歸(簡(jiǎn)單線性相關(guān)與回歸、多重線性回歸、Spearman等級(jí)相關(guān))_第2頁(yè)
線性相關(guān)與回歸(簡(jiǎn)單線性相關(guān)與回歸、多重線性回歸、Spearman等級(jí)相關(guān))_第3頁(yè)
線性相關(guān)與回歸(簡(jiǎn)單線性相關(guān)與回歸、多重線性回歸、Spearman等級(jí)相關(guān))_第4頁(yè)
線性相關(guān)與回歸(簡(jiǎn)單線性相關(guān)與回歸、多重線性回歸、Spearman等級(jí)相關(guān))_第5頁(yè)
已閱讀5頁(yè),還剩57頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、SPSS軟件在醫(yī)學(xué)科研中的應(yīng)用軟件在醫(yī)學(xué)科研中的應(yīng)用何平平何平平北大醫(yī)學(xué)部流行病與衛(wèi)生統(tǒng)計(jì)學(xué)系北大醫(yī)學(xué)部流行病與衛(wèi)生統(tǒng)計(jì)學(xué)系Tel:82801619線性相關(guān)與回歸線性相關(guān)與回歸內(nèi)容:內(nèi)容:多重線性回歸分析多重線性回歸分析簡(jiǎn)單線性相關(guān)與回歸簡(jiǎn)單線性相關(guān)與回歸Spearman等級(jí)相關(guān)等級(jí)相關(guān)特例特例(一)(一)直線回歸(直線回歸(linear regression)1.1.定義:用直線方程表達(dá)定義:用直線方程表達(dá)X(自變量,(自變量,independent variable;解釋變量,;解釋變量,explanatory variable;預(yù)測(cè)變量,;預(yù)測(cè)變量,predictor variable

2、)和和Y (因變量,(因變量,dependent variable;響應(yīng)變量,;響應(yīng)變量,response variable;結(jié)局變量,;結(jié)局變量,outcome variable )之間的數(shù)量關(guān)系。之間的數(shù)量關(guān)系。一、一、簡(jiǎn)單線性相關(guān)與回歸簡(jiǎn)單線性相關(guān)與回歸YabXY:是:是Y(實(shí)測(cè)值)的(實(shí)測(cè)值)的預(yù)測(cè)值(預(yù)測(cè)值(predicted value),是直線上點(diǎn)的縱坐標(biāo)。對(duì)于每一個(gè)是直線上點(diǎn)的縱坐標(biāo)。對(duì)于每一個(gè)X值,根據(jù)直線值,根據(jù)直線回歸方程都可以計(jì)算出相應(yīng)的回歸方程都可以計(jì)算出相應(yīng)的Y預(yù)測(cè)值。預(yù)測(cè)值。(具體計(jì)算過(guò)程參見(jiàn)(具體計(jì)算過(guò)程參見(jiàn)衛(wèi)生統(tǒng)計(jì)學(xué)衛(wèi)生統(tǒng)計(jì)學(xué)第第4版)。版)。2.2.b和和a

3、的意義的意義a:是回歸直線在:是回歸直線在Y軸上的截距,即軸上的截距,即X0時(shí)時(shí)Y的預(yù)測(cè)值。的預(yù)測(cè)值。b:是回歸直線的斜率,又稱為回歸系數(shù)。:是回歸直線的斜率,又稱為回歸系數(shù)。 表示當(dāng)表示當(dāng)X改變一個(gè)單位時(shí),改變一個(gè)單位時(shí),Y的預(yù)測(cè)值平均改變的預(yù)測(cè)值平均改變| |b| |個(gè)單位。個(gè)單位。3.3.b和和a的估計(jì)的估計(jì)最小二乘方法(最小二乘方法(the method of least squares): :各實(shí)測(cè)點(diǎn)到直線的縱向距離的平方和最小。各實(shí)測(cè)點(diǎn)到直線的縱向距離的平方和最小。4.4.b的假設(shè)檢驗(yàn)的假設(shè)檢驗(yàn): b為樣本回歸系數(shù),由于抽樣誤差,為樣本回歸系數(shù),由于抽樣誤差,實(shí)際工作中實(shí)際工作中b

4、一般都不為一般都不為0。要判斷直線回歸方程是否成。要判斷直線回歸方程是否成立,需要檢驗(yàn)總體回歸系數(shù)立,需要檢驗(yàn)總體回歸系數(shù) 是否為是否為0。只有當(dāng)只有當(dāng) 0 0時(shí),才能認(rèn)為直線回歸方程成立(具有統(tǒng)計(jì)時(shí),才能認(rèn)為直線回歸方程成立(具有統(tǒng)計(jì)學(xué)意義)。學(xué)意義)。H0: =0 H1: 0bbtS方法一:方法一:t檢驗(yàn)檢驗(yàn)方法二:方法二:F檢驗(yàn)檢驗(yàn)MSFMS回歸剩余兩種方法等價(jià),兩種方法等價(jià),F(xiàn)t5.5.直線回歸方程的置信區(qū)間估計(jì)直線回歸方程的置信區(qū)間估計(jì)(1)總體回歸系數(shù)總體回歸系數(shù) 的的95置信區(qū)間估計(jì)置信區(qū)間估計(jì)0.05/2,2nbbts(2) Y的均數(shù)的均數(shù)的的95置信區(qū)間估計(jì)置信區(qū)間估計(jì)當(dāng)當(dāng)X

5、X0時(shí),以時(shí),以95的概率估計(jì)的概率估計(jì)Y的均數(shù)的均數(shù)的置信區(qū)間為的置信區(qū)間為0.05/2,2nYYts(3)個(gè)體個(gè)體Y值的值的95容許區(qū)間估計(jì)容許區(qū)間估計(jì)當(dāng)當(dāng)XX0時(shí),以時(shí),以95的概率估計(jì)的概率估計(jì)個(gè)體個(gè)體Y值值的波動(dòng)范圍為的波動(dòng)范圍為0.05/2,2nY YYts1.1.定義定義描述具有直線關(guān)系的兩個(gè)變量之間的相互關(guān)系。描述具有直線關(guān)系的兩個(gè)變量之間的相互關(guān)系。 (二)直線相關(guān)(二)直線相關(guān)(linear correlation)r:相關(guān)系數(shù),相關(guān)系數(shù),correlation coefficient用來(lái)衡量有直線關(guān)系的兩個(gè)變量之間相關(guān)的密切程度和用來(lái)衡量有直線關(guān)系的兩個(gè)變量之間相關(guān)的密切

6、程度和方向。方向。-1-1 r 1 1r00,正相關(guān);,正相關(guān);r=1為完全正相關(guān)為完全正相關(guān)r 00,負(fù)相關(guān),負(fù)相關(guān);r=-1為完全負(fù)相關(guān)為完全負(fù)相關(guān)| |r| |越大,兩變量相關(guān)越密切越大,兩變量相關(guān)越密切(前提:(前提:r有統(tǒng)計(jì)學(xué)意義)有統(tǒng)計(jì)學(xué)意義)2.2.相關(guān)類型相關(guān)類型正相關(guān):正相關(guān):0r 1負(fù)相關(guān)負(fù)相關(guān)-1 r0零相關(guān)零相關(guān) r =02.2.相關(guān)類型相關(guān)類型曲線相關(guān)曲線相關(guān)r為樣本相關(guān)系數(shù),由于抽樣誤差,實(shí)際工作中為樣本相關(guān)系數(shù),由于抽樣誤差,實(shí)際工作中r一般都一般都不為不為0 0。要判斷兩變量之間是否存在相關(guān)性,需要檢驗(yàn)。要判斷兩變量之間是否存在相關(guān)性,需要檢驗(yàn)總體相關(guān)系數(shù)總體相

7、關(guān)系數(shù) 是否為是否為0 0。212rrrtsrn只有當(dāng)只有當(dāng) 0 0時(shí),才能根據(jù)時(shí),才能根據(jù)| |r| |的大小判斷相關(guān)的大小判斷相關(guān)的密切程度。的密切程度。3.3.r的假設(shè)檢驗(yàn)的假設(shè)檢驗(yàn)H0:=0 H1: 04.相關(guān)與回歸的區(qū)別和聯(lián)系相關(guān)與回歸的區(qū)別和聯(lián)系(1)相關(guān)與回歸的意義不同相關(guān)與回歸的意義不同 相關(guān)表達(dá)兩個(gè)變量相關(guān)表達(dá)兩個(gè)變量之間相互關(guān)系的密切程度和方向?;貧w表達(dá)兩個(gè)變之間相互關(guān)系的密切程度和方向?;貧w表達(dá)兩個(gè)變量之間的數(shù)量關(guān)系,已知量之間的數(shù)量關(guān)系,已知X值可以預(yù)測(cè)值可以預(yù)測(cè)Y值。從散點(diǎn)值。從散點(diǎn)圖上,散點(diǎn)圍繞回歸直線的分布越密集,則兩變量圖上,散點(diǎn)圍繞回歸直線的分布越密集,則兩變

8、量相關(guān)系數(shù)越大;回歸直線的斜率越大,則回歸系數(shù)相關(guān)系數(shù)越大;回歸直線的斜率越大,則回歸系數(shù)越大。越大。(2)r與與b的符號(hào)一致的符號(hào)一致 同正同負(fù)。同正同負(fù)。(3)r與與b的假設(shè)檢驗(yàn)等價(jià)的假設(shè)檢驗(yàn)等價(jià)(4) 可以用回歸解釋相關(guān)可以用回歸解釋相關(guān)2SSrSS回歸總r2稱為決定系數(shù)(稱為決定系數(shù)(coefficient of determination), , 其越接近于其越接近于1,回歸直線擬和的效果越好。,回歸直線擬和的效果越好。4.相關(guān)與回歸的區(qū)別和聯(lián)系相關(guān)與回歸的區(qū)別和聯(lián)系例例1 1 為研究中年女性體重指數(shù)和收縮壓的關(guān)系,隨機(jī)測(cè)量為研究中年女性體重指數(shù)和收縮壓的關(guān)系,隨機(jī)測(cè)量了了1616名

9、名4040歲以上的女性的體重指數(shù)和收縮壓(見(jiàn)數(shù)據(jù)文件歲以上的女性的體重指數(shù)和收縮壓(見(jiàn)數(shù)據(jù)文件p237.savp237.sav)。)。變量說(shuō)明:變量說(shuō)明:X: :體重指數(shù);體重指數(shù);Y: :收縮壓(收縮壓(mmHg)。)。1.1.繪制散點(diǎn)圖繪制散點(diǎn)圖散點(diǎn)圖顯示:收散點(diǎn)圖顯示:收縮壓與體重指數(shù)縮壓與體重指數(shù)之間有線性相關(guān)之間有線性相關(guān)趨勢(shì),因此可以趨勢(shì),因此可以進(jìn)一步做直線回進(jìn)一步做直線回歸與相關(guān)歸與相關(guān)2.2.直線回歸與相關(guān)分析直線回歸與相關(guān)分析Regression, 回歸回歸 Linear, 線性線性2.2.直線回歸與相關(guān)分析直線回歸與相關(guān)分析因變量因變量自變量自變量P值值相關(guān)相關(guān)系數(shù)系數(shù)r

10、決定決定系數(shù)系數(shù)r2調(diào)整調(diào)整r2截距截距a回歸系數(shù)回歸系數(shù)bsb標(biāo)準(zhǔn)化回歸系數(shù)標(biāo)準(zhǔn)化回歸系數(shù)t值值P值值F值值3.3.直線回歸的預(yù)測(cè)及置信區(qū)間估計(jì)直線回歸的預(yù)測(cè)及置信區(qū)間估計(jì)給定給定XX0,預(yù)測(cè)預(yù)測(cè)Y3.3.直線回歸的預(yù)測(cè)及置信區(qū)間估計(jì)直線回歸的預(yù)測(cè)及置信區(qū)間估計(jì)因變量因變量自變量自變量統(tǒng)計(jì)統(tǒng)計(jì)保存(產(chǎn)生新變量,保保存(產(chǎn)生新變量,保存在當(dāng)前數(shù)據(jù)庫(kù))存在當(dāng)前數(shù)據(jù)庫(kù))3.3.直線回歸的預(yù)測(cè)及置信區(qū)間估計(jì)直線回歸的預(yù)測(cè)及置信區(qū)間估計(jì)總體回歸系總體回歸系數(shù)的置信區(qū)數(shù)的置信區(qū)間估計(jì)間估計(jì)3.3.直線回歸的預(yù)測(cè)及置信區(qū)間估計(jì)直線回歸的預(yù)測(cè)及置信區(qū)間估計(jì)預(yù)測(cè)值預(yù)測(cè)值非標(biāo)準(zhǔn)化非標(biāo)準(zhǔn)化預(yù)測(cè)區(qū)間預(yù)測(cè)區(qū)間Y的均數(shù)

11、的均數(shù)個(gè)體個(gè)體Y值值總體回歸系數(shù)的總體回歸系數(shù)的95置信區(qū)間置信區(qū)間預(yù)測(cè)值預(yù)測(cè)值殘差殘差3.3.直線回歸的預(yù)測(cè)及置信區(qū)間估計(jì)直線回歸的預(yù)測(cè)及置信區(qū)間估計(jì)3.3.直線回歸的預(yù)測(cè)及置信區(qū)間估計(jì)直線回歸的預(yù)測(cè)及置信區(qū)間估計(jì)X0Y的預(yù)測(cè)的預(yù)測(cè)值值Y的均數(shù)的置信區(qū)的均數(shù)的置信區(qū)間的下限及上限間的下限及上限個(gè)體個(gè)體Y值的容許區(qū)值的容許區(qū)間的下限及上限間的下限及上限例例2:由于改革開(kāi)放政策,深圳特區(qū)中外來(lái)人口大幅度增由于改革開(kāi)放政策,深圳特區(qū)中外來(lái)人口大幅度增加,為了考察特區(qū)中外來(lái)人口對(duì)本地經(jīng)濟(jì)發(fā)展的貢獻(xiàn),深加,為了考察特區(qū)中外來(lái)人口對(duì)本地經(jīng)濟(jì)發(fā)展的貢獻(xiàn),深圳特區(qū)統(tǒng)計(jì)局收集了所屬的寶安縣在圳特區(qū)統(tǒng)計(jì)局收集了

12、所屬的寶安縣在1987年末年末18個(gè)鎮(zhèn)的個(gè)鎮(zhèn)的人口與工農(nóng)業(yè)總產(chǎn)值數(shù)據(jù)(人口與工農(nóng)業(yè)總產(chǎn)值數(shù)據(jù)(見(jiàn)數(shù)據(jù)文件見(jiàn)數(shù)據(jù)文件reg.sav)。此處)。此處把工農(nóng)業(yè)總產(chǎn)值當(dāng)作因變量(把工農(nóng)業(yè)總產(chǎn)值當(dāng)作因變量(W),而把外地及本地人口),而把外地及本地人口數(shù)當(dāng)作兩個(gè)自變量(數(shù)當(dāng)作兩個(gè)自變量(Z1,Z2)。)。二、多重線性回歸分析二、多重線性回歸分析(有關(guān)統(tǒng)計(jì)方法的原理及計(jì)算參見(jiàn)(有關(guān)統(tǒng)計(jì)方法的原理及計(jì)算參見(jiàn)孫尚拱,孫尚拱,醫(yī)學(xué)多變醫(yī)學(xué)多變量統(tǒng)計(jì)與統(tǒng)計(jì)軟件量統(tǒng)計(jì)與統(tǒng)計(jì)軟件,北京醫(yī)科大學(xué)出版社,北京醫(yī)科大學(xué)出版社,2000)數(shù)據(jù)文件數(shù)據(jù)文件reg.sav1.如何估計(jì)自變量與因變量之間的相互關(guān)系?(如何估計(jì)自變量

13、與因變量之間的相互關(guān)系?(估計(jì)回歸估計(jì)回歸方程)方程)2.哪些自變量對(duì)因變量有影響?(哪些自變量對(duì)因變量有影響?(影響因素分析影響因素分析)3.哪一個(gè)自變量對(duì)因變量的影響更重要?(哪一個(gè)自變量對(duì)因變量的影響更重要?(自變量的相對(duì)自變量的相對(duì)重要性分析重要性分析)4.如何用自變量預(yù)測(cè)因變量?(如何用自變量預(yù)測(cè)因變量?(預(yù)測(cè)分析預(yù)測(cè)分析)(一)多重回歸分析的任務(wù)(一)多重回歸分析的任務(wù)(二)多重回歸分析的適用條件(二)多重回歸分析的適用條件1.自變量與因變量之間存在線性關(guān)系自變量與因變量之間存在線性關(guān)系2.殘差的正態(tài)性殘差的正態(tài)性3.殘差的等方差性殘差的等方差性4.剔除強(qiáng)影響點(diǎn)(突出點(diǎn),剔除強(qiáng)影響

14、點(diǎn)(突出點(diǎn),outliers)5.自變量之間不應(yīng)存在共線性自變量之間不應(yīng)存在共線性6.獨(dú)立性獨(dú)立性關(guān)于獨(dú)立性:關(guān)于獨(dú)立性:所有的觀測(cè)值是相互獨(dú)立的。如果受試對(duì)象僅被隨機(jī)所有的觀測(cè)值是相互獨(dú)立的。如果受試對(duì)象僅被隨機(jī)觀測(cè)一次,那么一般都會(huì)滿足獨(dú)立性的假定。但是出觀測(cè)一次,那么一般都會(huì)滿足獨(dú)立性的假定。但是出現(xiàn)下列三種情況時(shí),觀測(cè)值不是相互獨(dú)立的:時(shí)間序現(xiàn)下列三種情況時(shí),觀測(cè)值不是相互獨(dú)立的:時(shí)間序列、重復(fù)測(cè)量等情況。列、重復(fù)測(cè)量等情況。SPSS軟件在軟件在“Linear Regression:Statistics”對(duì)話對(duì)話框中,提供了框中,提供了Durbin-Watson統(tǒng)計(jì)量統(tǒng)計(jì)量d,以檢驗(yàn)自

15、相,以檢驗(yàn)自相關(guān)系數(shù)是否為關(guān)系數(shù)是否為0。當(dāng)。當(dāng)d值接近于值接近于2,則殘差之間是不相,則殘差之間是不相關(guān)的。關(guān)的。1.如何估計(jì)自變量與因變量之間的相互關(guān)系?(如何估計(jì)自變量與因變量之間的相互關(guān)系?(估計(jì)回歸方程估計(jì)回歸方程)01 122.mmybb xb xb x01 122.mmybb xb xb x其中其中y為實(shí)測(cè)值,為實(shí)測(cè)值, 為預(yù)測(cè)值(為預(yù)測(cè)值(predicted value) y估計(jì)模型中系數(shù)的方法:估計(jì)模型中系數(shù)的方法:最小二乘方法(最小二乘方法(Least Square,LS),即殘差平方和最小。),即殘差平方和最小。b1, b2. bm稱為偏回歸系數(shù)(稱為偏回歸系數(shù)(part

16、ial regression coefficient) :當(dāng)固定其他變量時(shí)當(dāng)固定其他變量時(shí),xm每增加一個(gè)單位,每增加一個(gè)單位,y的增加值都是的增加值都是bm。 (一)多重回歸分析的任務(wù)(一)多重回歸分析的任務(wù)模型擬和的優(yōu)良性指標(biāo)模型擬和的優(yōu)良性指標(biāo)R:復(fù)相關(guān)系數(shù),反映了復(fù)相關(guān)系數(shù),反映了Y與與M個(gè)自變量的總體相關(guān)系數(shù);個(gè)自變量的總體相關(guān)系數(shù);R2:決定系數(shù)(決定系數(shù)(R Square)R2c:調(diào)整決定系數(shù)(調(diào)整決定系數(shù)(Adjusted R square ),是對(duì)決定系),是對(duì)決定系數(shù)的修正,是數(shù)的修正,是更客觀更客觀的指標(biāo)。的指標(biāo)。 這些指標(biāo)越接近于這些指標(biāo)越接近于1,說(shuō)明回歸模型擬合越好

17、。,說(shuō)明回歸模型擬合越好。 除了上述指標(biāo),還有殘差標(biāo)準(zhǔn)誤除了上述指標(biāo),還有殘差標(biāo)準(zhǔn)誤s,殘差標(biāo)準(zhǔn)差越小,說(shuō),殘差標(biāo)準(zhǔn)差越小,說(shuō)明回歸模型擬合越好。明回歸模型擬合越好。 2.哪些自變量對(duì)因變量有影響?(哪些自變量對(duì)因變量有影響?(影響因素分析影響因素分析)對(duì)回歸模型的統(tǒng)計(jì)檢驗(yàn)對(duì)回歸模型的統(tǒng)計(jì)檢驗(yàn)1regSSnmFmSSE當(dāng)當(dāng)P0.05,則認(rèn)為此回歸模型有顯著性。則認(rèn)為此回歸模型有顯著性。對(duì)自變量的統(tǒng)計(jì)檢驗(yàn)對(duì)自變量的統(tǒng)計(jì)檢驗(yàn)/( )iitbse b當(dāng)當(dāng)P0.05,則認(rèn)為此自變量對(duì)因變量有影響。則認(rèn)為此自變量對(duì)因變量有影響。自變量的篩選自變量的篩選實(shí)際應(yīng)用中,通常從專業(yè)知識(shí)出發(fā),建立一個(gè)簡(jiǎn)約實(shí)際應(yīng)用

18、中,通常從專業(yè)知識(shí)出發(fā),建立一個(gè)簡(jiǎn)約(parsimonious)的回歸模型,即用盡可能少的自變量擬)的回歸模型,即用盡可能少的自變量擬合模型。合模型。 常用方法:常用方法:1.前進(jìn)法(前進(jìn)法(Forward):):逐步增加變量到模型中(由少到逐步增加變量到模型中(由少到多),對(duì)已經(jīng)進(jìn)入的變量不再剔除;多),對(duì)已經(jīng)進(jìn)入的變量不再剔除;SPSS中默認(rèn)的選入自中默認(rèn)的選入自變量的檢驗(yàn)水準(zhǔn)為變量的檢驗(yàn)水準(zhǔn)為0.05。2.后退法(后退法(Backward):):從模型中逐步剔除變量(由多到從模型中逐步剔除變量(由多到少),對(duì)已經(jīng)剔除的變量不再進(jìn)入;少),對(duì)已經(jīng)剔除的變量不再進(jìn)入;SPSS中默認(rèn)的剔除自中

19、默認(rèn)的剔除自變量的檢驗(yàn)水準(zhǔn)為變量的檢驗(yàn)水準(zhǔn)為0.10。 3.逐步法(逐步法(Stepwise):):結(jié)合了前進(jìn)法和后退法,變量邊進(jìn)結(jié)合了前進(jìn)法和后退法,變量邊進(jìn)入邊剔除。入邊剔除。3.哪一個(gè)自變量對(duì)因變量的影響更重要?(哪一個(gè)自變量對(duì)因變量的影響更重要?(自變量的相對(duì)重要自變量的相對(duì)重要性分析性分析)當(dāng)自變量的量綱相同時(shí),衡量自變量相對(duì)重要性的指標(biāo):當(dāng)自變量的量綱相同時(shí),衡量自變量相對(duì)重要性的指標(biāo): 偏回歸系數(shù);若偏回歸系數(shù)的絕對(duì)值越大,則相應(yīng)自變量偏回歸系數(shù);若偏回歸系數(shù)的絕對(duì)值越大,則相應(yīng)自變量對(duì)因變量的影響就越大。對(duì)因變量的影響就越大。當(dāng)自變量的量綱不同時(shí),衡量自變量相對(duì)重要性的指標(biāo):當(dāng)

20、自變量的量綱不同時(shí),衡量自變量相對(duì)重要性的指標(biāo):標(biāo)準(zhǔn)化偏回歸系數(shù)(標(biāo)準(zhǔn)化偏回歸系數(shù)(Standardized regression coefficient)、)、偏相關(guān)系數(shù)(偏相關(guān)系數(shù)(Partial Correlation)和部分相關(guān)系數(shù)()和部分相關(guān)系數(shù)(Part Correlation)。)。上述指標(biāo)的絕對(duì)值越大,則相應(yīng)自變量對(duì)因變上述指標(biāo)的絕對(duì)值越大,則相應(yīng)自變量對(duì)因變量的影響就越大。量的影響就越大。 標(biāo)準(zhǔn)化偏回歸系數(shù)標(biāo)準(zhǔn)化偏回歸系數(shù):對(duì)自變量、因變量作標(biāo)準(zhǔn)化處理后計(jì)算的:對(duì)自變量、因變量作標(biāo)準(zhǔn)化處理后計(jì)算的回歸系數(shù)?;貧w系數(shù)。偏相關(guān)系數(shù)偏相關(guān)系數(shù):因變量與自變量均扣除其他自變量影響之

21、后,二:因變量與自變量均扣除其他自變量影響之后,二者之間的相關(guān)系數(shù)。與簡(jiǎn)單相關(guān)系數(shù)(者之間的相關(guān)系數(shù)。與簡(jiǎn)單相關(guān)系數(shù)(Pearson相關(guān)系數(shù))不同;相關(guān)系數(shù))不同;例如:考察因變量例如:考察因變量Y與自變量與自變量X1 、X2的多元回歸分析,的多元回歸分析,Y與與X1的的偏相關(guān)系數(shù)為偏相關(guān)系數(shù)為扣除扣除X2影響后的影響后的Y與與X1的相關(guān)性。的相關(guān)性。 Y與與X1的簡(jiǎn)單相的簡(jiǎn)單相關(guān)系數(shù)為關(guān)系數(shù)為忽略忽略X2影響后的影響后的Y與與X1的相關(guān)性。的相關(guān)性。部分相關(guān)系數(shù):部分相關(guān)系數(shù):自變量扣除其他自變量影響之后,因變量與自自變量扣除其他自變量影響之后,因變量與自變量之間的相關(guān)系數(shù)。與偏相關(guān)系數(shù)不同

22、,部分相關(guān)系數(shù)中因變量之間的相關(guān)系數(shù)。與偏相關(guān)系數(shù)不同,部分相關(guān)系數(shù)中因變量未扣除其他自變量的影響。變量未扣除其他自變量的影響。 4.如何用自變量預(yù)測(cè)因變量?(如何用自變量預(yù)測(cè)因變量?(預(yù)測(cè)分析預(yù)測(cè)分析)000001 122.mmybb xb xb x當(dāng)自變量取某個(gè)數(shù)值時(shí),當(dāng)自變量取某個(gè)數(shù)值時(shí),y的預(yù)測(cè)值為的預(yù)測(cè)值為Y的均數(shù)的的均數(shù)的9595置信區(qū)間置信區(qū)間個(gè)體個(gè)體Y值的值的95容許區(qū)間容許區(qū)間預(yù)測(cè)分析時(shí),(預(yù)測(cè)分析時(shí),(x10,x20 xm0)應(yīng)該在樣本的自變)應(yīng)該在樣本的自變量取值范圍內(nèi)。量取值范圍內(nèi)。 1.自變量與因變量之間存在線性關(guān)系自變量與因變量之間存在線性關(guān)系通過(guò)繪制通過(guò)繪制y與每

23、個(gè)自變量的偏相關(guān)散點(diǎn)圖,可以判斷與每個(gè)自變量的偏相關(guān)散點(diǎn)圖,可以判斷y與與自變量之間是否存在線性關(guān)系。自變量之間是否存在線性關(guān)系。 2.殘差的正態(tài)性殘差的正態(tài)性通過(guò)繪制標(biāo)準(zhǔn)化殘差的直方圖以及正態(tài)概率圖(通過(guò)繪制標(biāo)準(zhǔn)化殘差的直方圖以及正態(tài)概率圖(P-P圖),可以圖),可以判斷判斷y是否服從正態(tài)分布。此條件可以放寬,只要不是嚴(yán)重偏離是否服從正態(tài)分布。此條件可以放寬,只要不是嚴(yán)重偏離正態(tài)即可。正態(tài)即可。3.殘差的等方差性殘差的等方差性通過(guò)繪制標(biāo)準(zhǔn)化殘差與預(yù)測(cè)值的散點(diǎn)圖,若標(biāo)準(zhǔn)化殘差在零通過(guò)繪制標(biāo)準(zhǔn)化殘差與預(yù)測(cè)值的散點(diǎn)圖,若標(biāo)準(zhǔn)化殘差在零水平線上下波動(dòng),無(wú)明顯的規(guī)律性,則可以判斷水平線上下波動(dòng),無(wú)明顯

24、的規(guī)律性,則可以判斷y滿足等方差滿足等方差的假定。的假定。 (二)多重回歸分析的適用條件(二)多重回歸分析的適用條件通過(guò)標(biāo)準(zhǔn)化殘差(通過(guò)標(biāo)準(zhǔn)化殘差(Standardized Residuals)、學(xué)生氏殘)、學(xué)生氏殘差(差(Studentlized Residuals)來(lái)判斷強(qiáng)影響點(diǎn))來(lái)判斷強(qiáng)影響點(diǎn) 。當(dāng)指標(biāo)。當(dāng)指標(biāo)的絕對(duì)值大于的絕對(duì)值大于3時(shí),可以認(rèn)為樣本存在強(qiáng)影響點(diǎn)。時(shí),可以認(rèn)為樣本存在強(qiáng)影響點(diǎn)。刪除強(qiáng)影響點(diǎn)應(yīng)該慎重,需要結(jié)合專業(yè)知識(shí)。以下兩種情刪除強(qiáng)影響點(diǎn)應(yīng)該慎重,需要結(jié)合專業(yè)知識(shí)。以下兩種情況可以考慮刪除強(qiáng)影響點(diǎn):況可以考慮刪除強(qiáng)影響點(diǎn):1.強(qiáng)影響點(diǎn)是由于數(shù)據(jù)記錄錯(cuò)強(qiáng)影響點(diǎn)是由于數(shù)據(jù)記

25、錄錯(cuò)誤造成的;誤造成的;2.強(qiáng)影響點(diǎn)來(lái)自不同的總體。強(qiáng)影響點(diǎn)來(lái)自不同的總體。4.剔除強(qiáng)影響點(diǎn)(剔除強(qiáng)影響點(diǎn)(Influential cases;或稱為突出點(diǎn),;或稱為突出點(diǎn),outliers)5.自變量之間不應(yīng)存在共線性(自變量之間不應(yīng)存在共線性(Collinear) 當(dāng)一個(gè)(或幾個(gè))自變量可以由其他自變量線性表示時(shí),稱當(dāng)一個(gè)(或幾個(gè))自變量可以由其他自變量線性表示時(shí),稱該自變量與其他自變量間存在共線性關(guān)系。常見(jiàn)于:該自變量與其他自變量間存在共線性關(guān)系。常見(jiàn)于:1.一個(gè)一個(gè)變量是由其他變量派生出來(lái)的,如:變量是由其他變量派生出來(lái)的,如:BMI由身高和體重計(jì)算由身高和體重計(jì)算得出得出 ;2.一個(gè)

26、變量與其他變量存在很強(qiáng)的相關(guān)性。一個(gè)變量與其他變量存在很強(qiáng)的相關(guān)性。當(dāng)自變量之間存在共線性時(shí),會(huì)使回歸系數(shù)的估計(jì)不確定、當(dāng)自變量之間存在共線性時(shí),會(huì)使回歸系數(shù)的估計(jì)不確定、預(yù)測(cè)值的精度降低以及對(duì)預(yù)測(cè)值的精度降低以及對(duì)y有影響的重要自變量不能選入模有影響的重要自變量不能選入模型型 。共線性診斷方法:共線性診斷方法:1.TOL(容許度,(容許度,Tolerance)法:)法:TOL越接近零,共線性越大。越接近零,共線性越大。2.VIF(方差膨脹因子,(方差膨脹因子,Variance Inflation Factor,VIF )法:)法:VIF越大,共線性越大。越大,共線性越大。3.特征根(特征根(

27、Eigenvalue)法:)法:如果自變量相關(guān)矩陣的特征根近似如果自變量相關(guān)矩陣的特征根近似于零,則自變量之間存在共線性。于零,則自變量之間存在共線性。4.CI(條件指數(shù),(條件指數(shù),Condition Index)法:)法:CI越大,共線性越大。越大,共線性越大。當(dāng)自變量之間存在共線性時(shí),可以剔除某個(gè)自變量或者采用嶺回當(dāng)自變量之間存在共線性時(shí),可以剔除某個(gè)自變量或者采用嶺回歸分析(歸分析(Ridge Regression Analysis)。)。1. 數(shù)據(jù)預(yù)處理:根據(jù)經(jīng)濟(jì)學(xué)專業(yè)知識(shí),需要先對(duì)數(shù)據(jù)預(yù)處理:根據(jù)經(jīng)濟(jì)學(xué)專業(yè)知識(shí),需要先對(duì)Z1、Z2、W作對(duì)數(shù)變換,分別記為作對(duì)數(shù)變換,分別記為X1、X

28、2、Y。(三)多重線性回歸:實(shí)例分析(三)多重線性回歸:實(shí)例分析變換后的數(shù)據(jù)變換后的數(shù)據(jù)回歸回歸線性線性2.多重回歸分析多重回歸分析因變量因變量自變量自變量Statistics對(duì)話框?qū)υ捒蚧貧w系數(shù)回歸系數(shù)的估計(jì)的估計(jì)模型擬和模型擬和共線性診斷共線性診斷部分相關(guān)與偏相關(guān)系數(shù)部分相關(guān)與偏相關(guān)系數(shù)統(tǒng)計(jì)描述統(tǒng)計(jì)描述Plots對(duì)話框?qū)υ捒驑?biāo)準(zhǔn)化標(biāo)準(zhǔn)化殘差圖殘差圖直方圖直方圖正態(tài)概率圖,正態(tài)概率圖,P-P圖圖繪制所有的繪制所有的偏相關(guān)圖偏相關(guān)圖 Save對(duì)話框?qū)υ捒蚍謩e給出分別給出Y、X1、X2的均數(shù)與標(biāo)的均數(shù)與標(biāo)準(zhǔn)差準(zhǔn)差相關(guān)系數(shù)陣相關(guān)系數(shù)陣簡(jiǎn)單相關(guān)系數(shù)簡(jiǎn)單相關(guān)系數(shù)(Pearson相關(guān)相關(guān))P值值從簡(jiǎn)單相

29、關(guān)系數(shù)可見(jiàn):從簡(jiǎn)單相關(guān)系數(shù)可見(jiàn):Y與與X1、X2存在較強(qiáng)相關(guān)性,存在較強(qiáng)相關(guān)性,X1、X2存在中等相關(guān)性。存在中等相關(guān)性。3.輸出結(jié)果解釋輸出結(jié)果解釋復(fù)相關(guān)系數(shù)復(fù)相關(guān)系數(shù) 決定系數(shù)決定系數(shù) 調(diào)整決定系數(shù)調(diào)整決定系數(shù)F值值P值值此模型的復(fù)相關(guān)系數(shù)為此模型的復(fù)相關(guān)系數(shù)為0.857,調(diào)整決定系數(shù)為,調(diào)整決定系數(shù)為0.699,反映此模型擬反映此模型擬和較好和較好;模型經(jīng)統(tǒng)計(jì)學(xué)檢驗(yàn),;模型經(jīng)統(tǒng)計(jì)學(xué)檢驗(yàn),F(xiàn)=20.738,P0.05,說(shuō)明此多元回歸,說(shuō)明此多元回歸模型有顯著性。模型有顯著性。非標(biāo)準(zhǔn)化系數(shù)非標(biāo)準(zhǔn)化系數(shù) 標(biāo)準(zhǔn)化系數(shù)標(biāo)準(zhǔn)化系數(shù) t值值 P值值簡(jiǎn)單相關(guān)簡(jiǎn)單相關(guān) 偏相關(guān)偏相關(guān) 部分相關(guān)部分相關(guān)Tol

30、VIF6.8890.695 10.8382yXX 經(jīng)統(tǒng)計(jì)學(xué)檢驗(yàn),經(jīng)統(tǒng)計(jì)學(xué)檢驗(yàn),X1與與X2均有顯著性,因此回歸模型為均有顯著性,因此回歸模型為 ;根據(jù)偏回歸系數(shù)的大小,根據(jù)偏回歸系數(shù)的大小,可以認(rèn)為可以認(rèn)為X2對(duì)對(duì)Y的影響比的影響比X1大。大。特征根特征根條件指數(shù)條件指數(shù), CI方差比例方差比例共線性診斷共線性診斷共線性診斷:共線性診斷:兩個(gè)自變量之間不存在共線性。兩個(gè)自變量之間不存在共線性。因?yàn)闃?biāo)準(zhǔn)化殘差、學(xué)生化殘差的絕對(duì)值小于因?yàn)闃?biāo)準(zhǔn)化殘差、學(xué)生化殘差的絕對(duì)值小于3,所以,所以從統(tǒng)計(jì)學(xué)上從統(tǒng)計(jì)學(xué)上認(rèn)為樣本不存在強(qiáng)影響點(diǎn)。認(rèn)為樣本不存在強(qiáng)影響點(diǎn)。殘差統(tǒng)計(jì)量殘差統(tǒng)計(jì)量學(xué)生化殘差學(xué)生化殘差標(biāo)準(zhǔn)化殘差標(biāo)準(zhǔn)化殘差直方圖及直方圖及P-P圖圖從殘差直方圖及從殘差直方圖及P-P圖可見(jiàn):殘差正態(tài)性不太好,圖可見(jiàn):殘差正態(tài)性不太好,可能與樣本量太小有關(guān)。可能與樣本量太小有關(guān)。通過(guò)繪制通過(guò)繪制y與與X1的偏相關(guān)散點(diǎn)圖,可以

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論