醫(yī)學(xué)統(tǒng)計學(xué)課件:雙變量回歸與相關(guān)_第1頁
醫(yī)學(xué)統(tǒng)計學(xué)課件:雙變量回歸與相關(guān)_第2頁
醫(yī)學(xué)統(tǒng)計學(xué)課件:雙變量回歸與相關(guān)_第3頁
醫(yī)學(xué)統(tǒng)計學(xué)課件:雙變量回歸與相關(guān)_第4頁
醫(yī)學(xué)統(tǒng)計學(xué)課件:雙變量回歸與相關(guān)_第5頁
已閱讀5頁,還剩59頁未讀, 繼續(xù)免費閱讀

付費下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、醫(yī)學(xué)統(tǒng)計學(xué)雙變量回歸與相關(guān)Bivariate Regression and Correlation前言大量的醫(yī)學(xué)科研與實踐中,經(jīng)常會遇到對兩個變量之間關(guān)系的研究。例如:糖尿病病人的血糖與胰島素水平的關(guān)系;健康人群年齡與收縮壓的關(guān)系;兒童身高與體重的關(guān)系;動物實驗中動物進(jìn)食量與增加體重的關(guān)系等。常用回歸與相關(guān)分析,屬雙變量分析范疇(bivariate analysis)。兩變量關(guān)系所謂確定性關(guān)系是指兩變量間的關(guān)系是函數(shù)關(guān)系。已知一個變量的值,另一個變量的值可以通過這種函數(shù)關(guān)系精確計算出來。非確定性關(guān)系是指兩變量在宏觀上存在關(guān)系,但并未精確到可以用函數(shù)關(guān)系來表達(dá)。第一節(jié) 直線回歸Simple Li

2、near Regression一、直線回歸的概念對于成年男性體重和舉重間的關(guān)系;即便具有相同的體重,舉重也不一定相同。 成年男性體重X與舉重Y的散點圖Y 舉重(kg)X 體重(kg)5560657075803040506070 一、直線回歸的概念對于成年女性的體重和肺活量間的關(guān)系即便具有相同的體重,肺活量也不一定相同;Y 肺活量(L)X 體重(kg)40602.04.03.02.53.5504555成年女性體重(X)與肺活量(Y)的散點圖折中的解釋成年男性體重影響舉重,但并非確定地決定它(determine it exactly) ;成年女性的體重雖然影響了肺活量;但并非確定地決定它;因此,雖

3、然它們之間有數(shù)量關(guān)系,但并非確定性的數(shù)量關(guān)系。是一種非確定性關(guān)系;一種宏觀的關(guān)系!問題:如何定量表達(dá)二者的關(guān)系?結(jié)果變量多大程度上由原因變量決定?直線回歸概念示意圖簡單線性回歸方程總體樣本“Y hat”表示估計值,給定x時y的條件均數(shù)的估計值。簡單線性回歸方程 Y 應(yīng)變量,響應(yīng)變量 (dependent variable, response variable) X 自變量,解釋變量 (independent variable, explanatory variable) b 回歸系數(shù) (regression coefficient, slope) a 截距 (constant,intercep

4、t)截距a 幾何意義a 0: 回歸線與縱軸交點在原點上方。a 0: 回歸線與縱軸交點在原點下方。a =0: 回歸線通過原點。統(tǒng)計學(xué)意義a 表示自變量X取值為0時相應(yīng)Y條件均數(shù)的估計值。a的單位與Y值相同當(dāng)X可能取0時,a才有實際意義?;貧w系數(shù)b的幾何意義XY回歸系數(shù)b的統(tǒng)計學(xué)意義b表示自變量X變化一個單位時應(yīng)變量Y的平均改變量。17歲兒童以年齡(歲)估計體重(kg)的回歸方程:糖尿病患者以胰島素水平(mU/L)估計血糖水平(mmol/L)的回歸方程:小插曲:關(guān)于F.Galton“回歸”這個詞是由英國統(tǒng)計學(xué)家F.Galton創(chuàng)立的。Galton(1822-1911)是一位人類學(xué)家,著名生物學(xué)家達(dá)

5、爾文的表兄弟,早年學(xué)醫(yī),曾在劍橋大學(xué)念書。盡管他的數(shù)學(xué)不是很好,但在人類學(xué)和優(yōu)生學(xué)研究中萌發(fā)的統(tǒng)計學(xué)思想,對生物統(tǒng)計的發(fā)展產(chǎn)生了深遠(yuǎn)影響,如“回歸”、 雙變量正態(tài)分布的概念等。他沒有子女,但一生寫了9部書,發(fā)表了近200篇論文。1860年當(dāng)選英國皇家學(xué)會會員,1909年被封為爵士,1910年獲得英國皇家學(xué)會Copley獎。小插曲:為什么叫”回歸“?“回歸”這個詞是由英國統(tǒng)計學(xué)家F.Galton創(chuàng)立的。他在研究父子身高(1078對數(shù)據(jù))關(guān)系時發(fā)現(xiàn),高個子的父親常生高個子的兒子,但兒子身高超過父親的概率要小于低于父親的概率;同樣矮個子的父親常生矮個子的兒子,但兒子身高比父親更矮的概率要小于比父親高

6、的概率。也就是說不可能無限制的一代比一代高,或一代比一代矮。后代的高度有向平均高度回歸的趨勢;離開均值越遠(yuǎn),所受到回歸的壓力也越大?!盎貧w”這個詞就由此而來。小插曲:為什么叫”回歸“? F. Galton K.Pearson二、直線回歸方程的求法數(shù)據(jù)格式: 序號 x(年齡) y(尿肌酐) 1 13 3.54 2 11 3.01 3 9 3.09 7 12 3.18 8 7 2.65重要提示根據(jù)原始數(shù)據(jù),首先繪制散點圖,觀察散點圖中點子的分布情況,只有當(dāng)點子分布呈直線趨勢時,才進(jìn)行直線回歸分析。 例9-1的散點圖見圖9-1。直線回歸方程的求解:最小二乘原理YX 直線回歸方程的求解最小二乘法(Le

7、ast Square Method)三、直線回歸中的統(tǒng)計推斷(一)回歸方程(回歸系數(shù))的假設(shè)檢驗回歸系數(shù)也有抽樣誤差!總體0總體 0樣本b0兩變量有直線關(guān)系兩變量無直線關(guān)系?回歸方程(回歸系數(shù))的假設(shè)檢驗H0:=0,即兩變量無直線關(guān)系H1:0,即兩變量有直線關(guān)系=0.05檢驗方法F檢驗t檢驗用同一份資料相關(guān)系數(shù)的假設(shè)檢驗代替,手工計算時最為簡便。統(tǒng)計結(jié)論1.方差分析:應(yīng)變量總變異的分解X P (X,Y)YY的總變異分解 體重舉重Y的總變異分解Y的總變異分解未引進(jìn)回歸時的總變異: (sum of squares of total)回歸的貢獻(xiàn),回歸平方和: (sum of squares for

8、regression)引進(jìn)回歸以后的變異(殘差): (sum of squares for residuals)Y的總變異分解 總n1 回歸1 殘差n2 回歸方程的方差分析Y的總變異可以用回歸來解釋的部分即與X有關(guān)的部分決定系數(shù)R2不能用X來解釋的部分即與X無關(guān)的部分(隨機(jī)誤差)份額的大小可以用決定系數(shù)來衡量2.回歸系數(shù)的t檢驗Y的剩余標(biāo)準(zhǔn)差扣除X的影響(即回歸所能解釋的部分)后Y本身的變異程度直線回歸中三種假設(shè)檢驗間的關(guān)系在直線回歸中,回歸系數(shù)的t檢驗與方差分析結(jié)果等價。tb=4.579=F1/2=20.971/2(二)總體回歸系數(shù) 的可信區(qū)間總體樣本根據(jù) t 分布原理估計可信區(qū)間:總體樣本

9、b直線回歸分析(例9-1)直線回歸分析(例9-1)直線回歸分析(例9-1)直線回歸分析(例9-1)四、直線回歸分析應(yīng)用復(fù)習(xí)預(yù)測(容許)區(qū)間和可信區(qū)間個體的預(yù)測區(qū)間(參考值范圍): 均數(shù)界值標(biāo)準(zhǔn)差均數(shù)的可信區(qū)間: 均數(shù)界值標(biāo)準(zhǔn)誤 個體的預(yù)測區(qū)間(參考值范圍)容許區(qū)間與可信區(qū)間示意圖五、回歸分析的前提條件(LINE)線性(linear)獨立(independent)給定X時,Y正態(tài)分布(normal)等方差(equal variance)直線回歸應(yīng)用條件LINE示意圖年齡與尿肌酐關(guān)系研究尿肌酐與年齡關(guān)系呈直線還是曲線?如何定量描述二者的關(guān)系?年齡每增加1歲,尿肌酐平均增加多少?兩變量間線性依存關(guān)系

10、是否存在?如何由年齡預(yù)測尿肌酐?年齡可決定尿肌酐變異的百分比是多少?第二節(jié) 直線相關(guān)Linear Correlation一、直線相關(guān)的概念對兩變量關(guān)系的研究,有時并不要求由X估計Y,或者先不考慮這個問題,而關(guān)心的是兩個變量間是否確有直線相關(guān)關(guān)系,如兩個變量間有相關(guān)關(guān)系,那么相關(guān)的方向和相關(guān)的程度如何?可采用相關(guān)分析。相關(guān)分析的任務(wù):兩變量間有無相關(guān)關(guān)系?兩變量間如有相關(guān)關(guān)系,相關(guān)的方向?相關(guān)的程度?相關(guān)分析時,兩變量不區(qū)分自變量和應(yīng)變量。直線相關(guān)的資料要求直線相關(guān)(linear correlation),又稱簡單相關(guān),用于雙變量正態(tài)分布資料。例如,同性別成人的身高與體重的關(guān)系:對某一身高(如女

11、性160cm),體重為正態(tài)分布;對某一體重(如女性50kg),身高為正態(tài)分布。二、相關(guān)系數(shù)的意義與計算用以說明具有直線關(guān)系的兩個變量間相關(guān)關(guān)系的密切程度和相關(guān)方向的指標(biāo),稱為相關(guān)系數(shù)(correlation coefficient),又稱為Pearson積差相關(guān)系數(shù)(coefficient of product-moment correlation)??傮w相關(guān)系數(shù)用希臘字母表示,而樣本相關(guān)系數(shù)用r表示,取值范圍均為-1,1。直線相關(guān)的概念相關(guān)的方向若兩個變量同時增加或減少,變化趨勢是同向的,則兩變量之間的關(guān)系為正相關(guān)(positive correlation);若一個變量增加時,另一個變量減少

12、,變化趨勢是反向的,則稱為負(fù)相關(guān)(negative correlation)。 r=0r=0r-1r1完全正相關(guān)完全負(fù)相關(guān)零相關(guān)零相關(guān)0r1-1r0:正相關(guān)r0:負(fù)相關(guān)r=0:零相關(guān)相關(guān)的密切程度:樣本含量n足夠大時,r絕對值越接近1。相關(guān)越密切。010.40.7低度相關(guān)中度相關(guān)高度相關(guān)三、相關(guān)系數(shù)的統(tǒng)計推斷(一)相關(guān)系數(shù)的假設(shè)檢驗H0:0,兩變量間無直線相關(guān)關(guān)系H1:0,兩變量間有直線相關(guān)關(guān)系方法:t檢驗:查表法:按自由度(n2)查r界值表得P值。Pearson相關(guān)分析(例9-5)Pearson相關(guān)分析(例9-5)(二)總體相關(guān)系數(shù)的可信區(qū)間從相關(guān)系數(shù)不等于0的總體中抽樣,樣本相關(guān)系數(shù)的分布

13、是偏態(tài)的。 相關(guān)系數(shù)的置信區(qū)間估計 Fishers 變換 r z 正態(tài)近似 Fishers 反變換 的95CI z的95CI 四、回歸與相關(guān)的應(yīng)用注意事項根據(jù)分析目的選擇變量及其統(tǒng)計方法進(jìn)行直線回歸與相關(guān)分析前應(yīng)繪制散點圖用殘差圖考察回歸分析的前提條件結(jié)果的解釋及正確應(yīng)用第三節(jié) Spearman秩相關(guān)Spearman秩相關(guān)的資料類型將各變量X,Y分別編秩RX, RY;計算RX與RY的Pearson相關(guān);所得結(jié)果即為Spearman秩相關(guān)rs 。rs的統(tǒng)計學(xué)意義同r。當(dāng)n50時,查“rs界值表”。當(dāng)n50時,用 t 檢驗。Summary兩變量區(qū)分自變量和應(yīng)變量,目的是由自變量估計應(yīng)變量直線回歸兩

14、變量不區(qū)分自變量和應(yīng)變量,目的是分析兩變量的共變關(guān)系相關(guān)雙變量正態(tài)分布資料Pearson直線相關(guān)其它類型資料Spearman秩相關(guān)回歸與相關(guān)分析的步驟散點圖直線回歸方程/相關(guān)系數(shù)的計算直線回歸方程/相關(guān)系數(shù)的假設(shè)檢驗區(qū)間估計(optional)Summary 簡單線性回歸 Pearson相關(guān) Spearman秩相關(guān) 應(yīng)用 兩變量依存關(guān)系 兩變量相關(guān)關(guān)系 預(yù)測區(qū)間數(shù)據(jù) Y正態(tài)隨機(jī)變量 雙變量正態(tài)分布 非雙變量正態(tài)分布 X人為設(shè)定 分布未知 X正態(tài)隨機(jī)變量 等級數(shù)據(jù)描述 回歸方程 Pearson相關(guān)系數(shù) Spearman秩相關(guān)系數(shù) 檢驗 F檢驗 查表法 查表法 t檢驗 t檢驗 t檢驗回歸的擴(kuò)展多重線性回歸:Y定量變量;多個自變量Logistic回歸:Y兩分類變量;多個自變量Cox回歸:Y兩分類變量+生存時間;多個自變量Review Bivariate analysisLin

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論