醫(yī)學統(tǒng)計學 雙變量回歸與相關課件_第1頁
醫(yī)學統(tǒng)計學 雙變量回歸與相關課件_第2頁
醫(yī)學統(tǒng)計學 雙變量回歸與相關課件_第3頁
醫(yī)學統(tǒng)計學 雙變量回歸與相關課件_第4頁
醫(yī)學統(tǒng)計學 雙變量回歸與相關課件_第5頁
已閱讀5頁,還剩97頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

醫(yī)學統(tǒng)計學Ch09第九章雙變量回歸與相關醫(yī)學統(tǒng)計學Ch09本章內容:

第一節(jié)直線回歸

第二節(jié)直線相關第三節(jié)秩相關

第四節(jié)加權直線回歸(不講)第五節(jié)兩條回歸直線的比較(不講)第六節(jié)曲線擬合(簡單介紹)醫(yī)學統(tǒng)計學Ch09雙變量計量資料:每個個體有兩個變量值

總體:無限或有限對變量值樣本:從總體隨機抽取的n對變量值

(X1,Y1),(X2,Y2),…,(Xn,Yn)

目的:研究X和Y的數量關系

方法:回歸與相關簡單、基本——直線回歸、直線相關醫(yī)學統(tǒng)計學Ch09第一節(jié)直線回歸醫(yī)學統(tǒng)計學Ch09一、直線回歸的概念

目的:研究應變量Y對自變量X的數量依存關系。特點:統(tǒng)計關系。X值和Y的均數的關系,不同于一般數學上的X和Y的函數關系。醫(yī)學統(tǒng)計學Ch09

為了直觀地說明直線回歸的概念,以8名兒童的年齡(歲)與其尿肌酐含量(mmol/24h)數據(見例9-1)在坐標紙上描點,得到圖9-1所示散點圖(scatterplot)。

醫(yī)學統(tǒng)計學Ch09

在定量描述兒童年齡與其尿肌酐含量數量上的依存關系時,將年齡稱為自變量(independentvariable),用X表示;尿肌酐含量稱為應變量(dependentvariable),用Y表示。醫(yī)學統(tǒng)計學Ch09醫(yī)學統(tǒng)計學Ch09

由圖9-1可見,尿肌酐含量Y

隨年齡X增加而增大且呈直線趨勢,但并非8個點子恰好全都在一直線上,此與兩變量間嚴格的直線函數關系不同,稱為直線回歸(linearregression),其方程叫直線回歸方程,以區(qū)別嚴格意義的直線方程?;貧w是回歸分析中最基本、最簡單的一種,故又稱簡單回歸。醫(yī)學統(tǒng)計學Ch09直線回歸方程的一般表達式為

為各X處Y的總體均數的估計。醫(yī)學統(tǒng)計學Ch091.a為回歸直線在Y

軸上的截距。a>0,表示直線與縱軸的交點在原點的上方;a<0,則交點在原點的下方;a=0,則回歸直線通過原點。醫(yī)學統(tǒng)計學Ch092.b為回歸系數,即直線的斜率。

b>0,直線從左下方走向右上方,Y隨X增大而增大;

b<0,直線從左上方走向右下方,Y隨X增大而減??;

b=0,表示直線與X軸平行,X與Y無直線關系。

b的統(tǒng)計學意義是:X

每增加(減)一個單位,Y

平均改變b個單位。

醫(yī)學統(tǒng)計學Ch09

醫(yī)學統(tǒng)計學Ch09醫(yī)學統(tǒng)計學Ch09

英國人類學家F.Galton首次在《自然遺傳》一書中,提出并闡明了“相關”和“相關系數”兩個概念,為相關論奠定了基礎。其后,他和英國統(tǒng)計學家KarlPearson對上千個家庭的身高、臂長、拃長(伸開大拇指與中指兩端的最大長度)做了測量,發(fā)現:歷史背景:醫(yī)學統(tǒng)計學Ch09

兒子身高(Y,英寸)與父親身高(X,英寸)存在線性關系:也即高個子父代的子代在成年之后的身高平均來說不是更高,而是稍矮于其父代水平,而矮個子父代的子代的平均身高不是更矮,而是稍高于其父代水平。Galton將這種趨向于種族穩(wěn)定的現象稱之“回歸”。醫(yī)學統(tǒng)計學Ch09

目前,“回歸”已成為表示變量之間某種數量依存關系的統(tǒng)計學術語,并且衍生出“回歸方程”“回歸系數”等統(tǒng)計學概念。如研究糖尿病人血糖與其胰島素水平的關系,研究兒童年齡與體重的關系等。醫(yī)學統(tǒng)計學Ch09殘差(residual)或剩余值,即實測值Y與假定回歸線上的估計值的縱向距離。求解a、b實際上就是“合理地”找到一條能最好地代表數據點分布趨勢的直線。原則:最小二乘法(leastsumofsquares),即可保證各實測點至直線的縱向距離的平方和最小二、直線回歸方程的求法

醫(yī)學統(tǒng)計學Ch09

醫(yī)學統(tǒng)計學Ch09醫(yī)學統(tǒng)計學Ch09

例9-1

某地方病研究所調查了8名正常兒童的尿肌酐含量(mmol/24h)如表9-1。估計尿肌酐含量(Y)對其年齡(X)的回歸方程。醫(yī)學統(tǒng)計學Ch09

表9-18名正常兒童的年齡(歲)與尿肌酐含量(mmol/24h)

醫(yī)學統(tǒng)計學Ch09解題步驟醫(yī)學統(tǒng)計學Ch09醫(yī)學統(tǒng)計學Ch09醫(yī)學統(tǒng)計學Ch09

此直線必然通過點(,)且與縱坐標軸相交于截距。如果散點圖沒有從坐標系原點開始,可在自變量實測范圍內遠端取易于讀數的值代入回歸方程得到一個點的坐標,連接此點與點(,)也可繪出回歸直線。醫(yī)學統(tǒng)計學Ch09醫(yī)學統(tǒng)計學Ch09三、直線回歸中的統(tǒng)計推斷醫(yī)學統(tǒng)計學Ch09(一)回歸方程的假設檢驗

建立樣本直線回歸方程,只是完成了統(tǒng)計分析中兩變量關系的統(tǒng)計描述,研究者還須回答它所來自的總體的直線回歸關系是否確實存在,即是否對總體有?醫(yī)學統(tǒng)計學Ch09醫(yī)學統(tǒng)計學Ch09醫(yī)學統(tǒng)計學Ch091.方差分析

醫(yī)學統(tǒng)計學Ch09醫(yī)學統(tǒng)計學Ch09數理統(tǒng)計可證明:醫(yī)學統(tǒng)計學Ch09上式用符號表示為

式中

醫(yī)學統(tǒng)計學Ch09醫(yī)學統(tǒng)計學Ch09上述三個平方和,各有其相應的自由度,并有如下的關系:

醫(yī)學統(tǒng)計學Ch09

如果兩變量間總體回歸關系確實存在,回歸的貢獻就要大于隨機誤差,大到何種程度時可以認為具有統(tǒng)計意義,可計算統(tǒng)計量F:醫(yī)學統(tǒng)計學Ch09式中醫(yī)學統(tǒng)計學Ch092.t檢驗醫(yī)學統(tǒng)計學Ch09

例9-2

檢驗例9-1數據得到的直線回歸方程是否成立?

醫(yī)學統(tǒng)計學Ch09(1)方差分析醫(yī)學統(tǒng)計學Ch09

表9-2方差分析表

列出方差分析表如表9-2。醫(yī)學統(tǒng)計學Ch09(2)t檢驗醫(yī)學統(tǒng)計學Ch09注意:

醫(yī)學統(tǒng)計學Ch09(二)總體回歸系數的可信區(qū)間

利用上述對回歸系數的t檢驗,可以得到β的1-α雙側可信區(qū)間為醫(yī)學統(tǒng)計學Ch09

例9-3

根據例9-1中所得b=0.1392,估計其總體回歸系數的雙側95%可信區(qū)間。醫(yī)學統(tǒng)計學Ch09(0.1392-2.447×0.0304,0.1392+2.447×0.0304)=(0.0648,0.2136)醫(yī)學統(tǒng)計學Ch09(三)利用回歸方程進行估計和預測

醫(yī)學統(tǒng)計學Ch09(9-15)

(9-14)

反映其抽樣誤差大小的標準誤為醫(yī)學統(tǒng)計學Ch09(9-16)

(9-17)

醫(yī)學統(tǒng)計學Ch09醫(yī)學統(tǒng)計學Ch09

例9-4

用例9-1所得直線回歸方程,計算當X0=12時,的95%可信區(qū)間和相應個體值的95%預測區(qū)間。醫(yī)學統(tǒng)計學Ch09計算步驟例9-1、例9-2已計算出

醫(yī)學統(tǒng)計學Ch09醫(yī)學統(tǒng)計學Ch09第二節(jié)直線相關醫(yī)學統(tǒng)計學Ch09

直線相關(linearcorrelation)又稱簡單相關(simplecorrelation),用于雙變量正態(tài)分布(bivariatenormaldistribution)資料。其性質可由圖9-6散點圖直觀的說明。

目的:研究兩個變量X,Y數量上的依存(或相關)關系。

特點:統(tǒng)計關系一、直線相關的概念醫(yī)學統(tǒng)計學Ch09二、相關系數的意義與計算

1.意義:相關系數(correlationcoefficient)又稱Pearson積差相關系數,用來說明具有直線關系的兩變量間相關的密切程度與相關方向。相關系數沒有單位,其值為-1r1。r值為正表示正相關,r值為負表示負相關,r的絕對值等于1為完全相關,r=0為零相關。醫(yī)學統(tǒng)計學Ch09醫(yī)學統(tǒng)計學Ch092.計算:樣本相關系數的計算公式為

(9-18)

醫(yī)學統(tǒng)計學Ch09由例9-1算得,按公式(9-18)

例9-5

對例9-1數據(見表9-1),計算8名兒童的尿肌酐含量與其年齡的相關系數。醫(yī)學統(tǒng)計學Ch09三、相關系數的統(tǒng)計推斷(一)相關系數的假設檢驗(9-19)醫(yī)學統(tǒng)計學Ch09

例9-6

對例9-5所得r值,檢驗尿肌酐含量與年齡是否有直線相關關系?醫(yī)學統(tǒng)計學Ch09檢驗步驟本例n=8,r=0.8818,按公式(9-19)醫(yī)學統(tǒng)計學Ch09(二)總體相關系數的可信區(qū)間

醫(yī)學統(tǒng)計學Ch09具體步驟如下醫(yī)學統(tǒng)計學Ch09

例9-7對例9-5所得r值,估計總體相關系數的95%可信區(qū)間。

再按公式(9-22)將z作反變換,得到年齡與尿肌酐含量的總體相關系數95%可信區(qū)間為(0.4678,0.9971)。

醫(yī)學統(tǒng)計學Ch09四、決定系數(coefficientofdetermination)

定義為回歸平方和與總平方和之比,計算公式為:(9-23)

取值在0到1之間且無單位,其數值大小反映了回歸貢獻的相對程度,也就是在Y的總變異中回歸關系所能解釋的百分比。

醫(yī)學統(tǒng)計學Ch09醫(yī)學統(tǒng)計學Ch09五、直線回歸與相關應用的注意事項

醫(yī)學統(tǒng)計學Ch09

1.根據分析目的選擇變量及統(tǒng)計方法

直線相關用于說明兩變量之間直線關系的方向和密切程度,X與Y沒有主次之分;直線回歸則進一步地用于定量刻畫應變量Y對自變量X在數值上的依存關系,其中應變量的定奪主要依專業(yè)要求而定,可以考慮把易于精確測量的變量作為X,另一個隨機變量作Y,例如用身高估計體表面積。兩個變量的選擇一定要結合專業(yè)背景,不能把毫無關聯的兩種現象勉強作回歸或相關分析。醫(yī)學統(tǒng)計學Ch09醫(yī)學統(tǒng)計學Ch092.進行相關、回歸分析前應繪制散點圖—第一步

(1)

散點圖可考察兩變量是否有直線趨勢;(2)

可發(fā)現離群點(outlier)。

散點圖對離群點的識別與處理需要從專業(yè)知識和現有數據兩方面來考慮,結果可能是現有回歸模型的假設錯誤需要改變模型形式,也可能是抽樣誤差造成的一次偶然結果甚至過失誤差。需要認真核對原始數據并檢查其產生過程認定是過失誤差,或者通過重復測定確定是抽樣誤差造成的偶然結果,才可以謹慎地剔除或采用其它估計方法。醫(yī)學統(tǒng)計學Ch093.資料的要求

直線相關分析要求X與Y服從雙變量正態(tài)分布;直線回歸要求至少對于每個X相應的Y要服從正態(tài)分布,X可以是服從正態(tài)分布的隨機變量也可以是能精確測量和嚴格控制的非隨機變量;*對于雙變量正態(tài)分布資料,根據研究目的可選擇由X估計Y或者由Y估計X,一般情況下兩個回歸方程不相同)。醫(yī)學統(tǒng)計學Ch09

反應兩變量關系密切程度或數量上影響大小的統(tǒng)計量應該是回歸系數或相關系數的絕對值,而不是假設檢驗的P值。

P值越小只能說越有理由認為變量間的直線關系存在,而不能說關系越密切或越“顯著”。另外,直線回歸用于預測時,其適用范圍一般不應超出樣本中自變量的取值范圍。4.結果解釋及正確應用

醫(yī)學統(tǒng)計學Ch09第三節(jié)秩相關

(非參數統(tǒng)計方法)

醫(yī)學統(tǒng)計學Ch09適用條件:

雙變量計量資料:①資料不服從雙變量態(tài)分布;②總體分布型未知,一端或兩端是不確定數值(如<10歲,≥65歲)的資料;原始數據(一個或兩個變量值)用等級表示的資料。醫(yī)學統(tǒng)計學Ch09一、Spearman秩相關

1.意義:等級相關系數rs用來說明兩個變量間直線相關關系的密切程度與相關方向。醫(yī)學統(tǒng)計學Ch093.計算公式(9-25)

(9-26)

醫(yī)學統(tǒng)計學Ch09醫(yī)學統(tǒng)計學Ch09表9-3某省1995年到1999年居民死因構成與WYPLL構成醫(yī)學統(tǒng)計學Ch09檢驗步驟醫(yī)學統(tǒng)計學Ch09二、相同秩較多時rs的校正公式中Tx(或TY)=Σ(t3-t)/12,t為X(或Y)中相同秩的個數。顯然當Tx=TY=0時,公式(9-27)與公式(9-25)相等。

(9-27)

醫(yī)學統(tǒng)計學Ch09、(9-18)醫(yī)學統(tǒng)計學Ch09第六節(jié)

曲線擬合

(curvefitting)醫(yī)學統(tǒng)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論