醫(yī)學(xué)統(tǒng)計學(xué):第十二講 相關(guān)與回歸_第1頁
醫(yī)學(xué)統(tǒng)計學(xué):第十二講 相關(guān)與回歸_第2頁
醫(yī)學(xué)統(tǒng)計學(xué):第十二講 相關(guān)與回歸_第3頁
醫(yī)學(xué)統(tǒng)計學(xué):第十二講 相關(guān)與回歸_第4頁
醫(yī)學(xué)統(tǒng)計學(xué):第十二講 相關(guān)與回歸_第5頁
已閱讀5頁,還剩57頁未讀, 繼續(xù)免費閱讀

付費下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1雙變量回歸與相關(guān)環(huán)境與公共衛(wèi)生學(xué)院2教學(xué)目的和要求掌握

直線相關(guān)與回歸的概念相關(guān)系數(shù)與回歸系數(shù)的計算、假設(shè)檢驗直線相關(guān)與回歸的區(qū)別和聯(lián)系熟悉Spearman等級相關(guān)的適用范圍了解等級相關(guān)系數(shù)的假設(shè)檢驗曲線直線化秩回歸3教學(xué)重點詳細(xì)講解直線回歸的概念,直線回歸方程的應(yīng)用、意義、計算與假設(shè)檢驗直線相關(guān)的概念,相關(guān)系數(shù)的意義、計算與假設(shè)檢驗,Spearman等級相關(guān)重點講解回歸系數(shù)的計算,回歸系數(shù)的假設(shè)檢驗,相關(guān)系數(shù)的假設(shè)檢驗,直線相關(guān)與回歸的區(qū)別與聯(lián)系一般介紹曲線直線化,秩回歸4知識回顧雙變量計量資料:每個個體有兩個變量值總體:無限或有限對變量值樣本:從總體隨機抽取的n對變量值(X1,Y1),(X2,Y2),…,(Xn,Yn)目的:研究X和Y的數(shù)量關(guān)系方法:回歸與相關(guān)最簡單、最基本——直線回歸、直線相關(guān)5問題引入

在醫(yī)學(xué)研究中常會發(fā)現(xiàn)有些事物間存在一定的聯(lián)系并在數(shù)量上具有一定的依存關(guān)系,例如同年齡兒童的身高與體重、藥物的劑量與療效等;這類聯(lián)系統(tǒng)計學(xué)上將其稱之為相關(guān)關(guān)系,而數(shù)量依存關(guān)系則稱之為回歸;分析變量之間相關(guān)關(guān)系的方向和密切程度的方法,稱之為相關(guān)分析,而數(shù)量依存關(guān)系的分析則稱之為回歸分析。6直線回歸的概念定義:分析某一變量隨另一變量變化而變化依存關(guān)系的方法目的:為了直觀地說明兩相關(guān)變量的線性依存關(guān)系。7表112只大白鼠的進食量(g)與體重增加量(g)測量結(jié)果

序號(1)進食量(g)(2)體重增加量(g)(3)X2(4)Y2(5)XY(6)1305.723.693452.49556.967214.522188.614.735569.96216.092772.423277.219.276839.84368.645322.244364.827.7133079.04767.2910104.965285.318.981396.09357.215392.176244.716.159878.09259.213939.677255.917.265484.81295.844401.488149.812.922440.04166.411932.429268.918.372307.21334.894920.8710247.617.761305.76313.294382.5211168.813.728493.44187.692312.5612200.615.640240.36243.363129.36合計2957.9(ΣX)215.6(ΣY)770487.13(∑X2)4066.9(∑Y2)55825.2(ΣXY)89由圖1可見,體重增加量有隨進食量增加而增大的趨勢,且散點呈直線趨勢,但并非12個點都在直線上,此與兩變量間嚴(yán)格的直線函數(shù)關(guān)系不同,稱為直線回歸(linearregression),其方程叫直線回歸方程,以區(qū)別嚴(yán)格意義的直線方程。直線回歸是回歸分析中最基本、最簡單的一種,故又稱簡單回歸。10直線回歸方程的建立繪制散點圖,觀察兩變量間是否存在線性趨勢利用最小二乘法進行兩變量間的線性擬合可保證各實測點至直線的縱向距離的平方和最小計算回歸系數(shù)(b)和截距(a)求解a、b實際上就是“合理地”找到一條能最好地代表數(shù)據(jù)點分布趨勢的直線。求出方程:為各X處Y的總體均數(shù)的估計11直線回歸方程的求法12

例根據(jù)表1數(shù)據(jù),對大白鼠的體重增加量進行回歸分析。131415此直線必然通過點(X,Y)且與縱坐標(biāo)軸相交于截距a。如果散點圖沒有從坐標(biāo)系原點開始,可在自變量實測范圍內(nèi)遠(yuǎn)端取易于讀數(shù)的X值代入回歸方程得到一個點的坐標(biāo),連接此點與點(X,Y)也可繪出回歸直線。16回歸系數(shù)的假設(shè)檢驗

建立樣本直線回歸方程,只是完成了樣本中兩變量關(guān)系的統(tǒng)計描述,研究者還須回答它所來自的總體的直線回歸關(guān)系是否確實存在,即是否對總體有?即所求得的回歸方程是否有意義。17回歸系數(shù)的假設(shè)檢驗方差分析理解回歸中方差分析的基本思想,需要對應(yīng)變量的離均差平方和作分解如下圖所示.1819數(shù)理統(tǒng)計可證明:20上式用符號表示為

式中

2122上述三個平方和,各有其相應(yīng)的自由度,并有如下的關(guān)系:

23

如果兩變量間總體回歸關(guān)系確實存在,回歸的貢獻就要大于隨機誤差,大到何種程度時可以認(rèn)為具有統(tǒng)計意義,可計算統(tǒng)計量F:24式中252.t檢驗26例2(續(xù)例1)根據(jù)表1數(shù)據(jù)進行回歸系數(shù)的方差分析。解:先列出下列計算結(jié)果2728(3)確定P值。查F界值表,P<0.001。(4)下結(jié)論。按水準(zhǔn),拒絕H0,接受H1,故可以認(rèn)為體重的增加量與進食量之間有直線關(guān)系。29t檢驗方法前已算得

:30總體回歸系數(shù)的區(qū)間估計31例(續(xù)例1)試估計總體回歸系數(shù)的95%的可信區(qū)間。=32

的區(qū)間估計

是指總體中當(dāng)X為一定值時Y估計值的均數(shù)。當(dāng)把X0代入回歸方程所求得的估計值,為樣本條件均數(shù)(conditionmean),對總體的估計可計算可信區(qū)間,其標(biāo)準(zhǔn)誤可按公式計算。33

對一已知的自變量值按回歸方程求出預(yù)測值,再按下式求出此條件下(1-)%的可信區(qū)間。34例(續(xù)例1)根據(jù)前述所求直線回歸方程,試計算當(dāng)時,95%的可信區(qū)間。35本例當(dāng)時,95%的可信區(qū)間:3637個體Y值的容許區(qū)間(用于預(yù)測)

容許區(qū)間就是總體中X為某定值時,個體Y值的波動范圍,其標(biāo)準(zhǔn)差按下式計算。

38線性回歸的主要用途研究因素間的依存關(guān)系

自變量和應(yīng)變量之間是否存在線性關(guān)系,即研究一個或多個自變量對應(yīng)變量的作用,或者應(yīng)變量依賴自變量變化而變化的規(guī)律。

估計與預(yù)測

可用易測定的一組給定的自變量的觀測值來推算較難測定的Y值。統(tǒng)計控制是利用回歸方程進行逆估計,即應(yīng)變量Y給出一個確定的值或在一定范圍內(nèi)波動時,通過控制自變量的取值來實現(xiàn)。39線性回歸應(yīng)用的注意事項在進行直線回歸分析之前,應(yīng)繪制散點圖。作回歸分析時,要注意兩變量間是否存在實際意義。兩變量間存在直線關(guān)系時,不一定表明彼此之間就存在因果關(guān)系。建立回歸方程后,須對回歸系數(shù)進行假設(shè)檢驗。使用回歸方程進行估計與預(yù)測時,一般只適用于原來的觀測范圍,即自變量的取值范圍,不能隨意將范圍擴大。在線性回歸分析時,要注意遠(yuǎn)離群體的極端值對回歸效果的影響。40相關(guān)關(guān)系概述研究兩個變量間的關(guān)系時,有時并不要求由X來估計Y,或者先不考慮這個問題,而關(guān)心的是兩個變量間是否確實存在一定的關(guān)系,即相關(guān)關(guān)系分析相關(guān)關(guān)系(相關(guān)分析)時,主要考慮的是兩個變量間關(guān)系的密切程度以及相關(guān)的方向統(tǒng)計學(xué)中使用相關(guān)系數(shù)來描述兩個變量間相關(guān)的密切程度和方向41相關(guān)關(guān)系的種類直線相關(guān)直線相關(guān)是相關(guān)關(guān)系中最簡單的一種,主要用以描述服從雙變量正態(tài)分布資料的相關(guān)分析秩相關(guān)或等級相關(guān)典型相關(guān)4243直線相關(guān)的概念直線相關(guān)X和y兩變量間存在直線關(guān)系。兩變量X和y間呈現(xiàn)同向變化,即x增大,y也增大,則稱x和y間呈正相關(guān)關(guān)系;兩變量X和y間呈現(xiàn)反向變化,即x增大,y則減小,則稱x和y間呈負(fù)相關(guān)關(guān)系;44相關(guān)系數(shù)概念:相關(guān)系數(shù)(correlationcoefficient)又稱Pearson積差相關(guān)系數(shù),用來說明具有直線關(guān)系的兩變量間相關(guān)的密切程度與相關(guān)方向。特征:r表示樣本相關(guān)系數(shù),表示其總體相關(guān)系數(shù)。相關(guān)系數(shù)沒有單位,其值為-1≤r≤1。r值為正表示正相關(guān),r值為負(fù)表示負(fù)相關(guān),r絕對值反應(yīng)兩變量間相關(guān)關(guān)系的密切程度,絕對值越大說明相關(guān)關(guān)系越密切,r的絕對值等于1為完全相關(guān),r=0為零相關(guān)。

45相關(guān)系數(shù)的計算公式:步驟:繪制散點圖,觀察兩變量之間是否有線性趨勢。計算相關(guān)系數(shù)。46總體相關(guān)系數(shù)的可信區(qū)間相關(guān)系數(shù)的抽樣分布在不等于0時的偏態(tài)分布,故的可信區(qū)間不能簡單的按回歸系數(shù)一樣用t分布的原理加以解決常用的方法:先進行變量變換,使之符合正態(tài)分布,然后再估計其可信區(qū)間(類似幾何均數(shù)的求法)47相關(guān)系數(shù)的假設(shè)檢驗t檢驗法步驟:建立假設(shè),確定檢驗水準(zhǔn)。H0:=0(變量間不存在線性相關(guān)關(guān)系);H1:≠0(變量間有線性相關(guān)關(guān)系);=0.05計算檢驗統(tǒng)計量48相關(guān)系數(shù)的假設(shè)檢驗按自由度,查t界值表,確定P值,下推斷結(jié)論。如P<則按=0.05檢驗水準(zhǔn)拒絕H0,接受H1,可認(rèn)為x和y之間存在相關(guān)關(guān)系。直接查表法根據(jù)自由度ν=n-2,查r界值表,比較|r|與臨界值,|r|越大,概率P越小,|r|越小,概率P越大。若P>0.05則接受H0,即可以認(rèn)為x和y間無相關(guān)性,若P<0.05則拒絕H0,接受H1,即認(rèn)為兩變量間相關(guān)性有統(tǒng)計學(xué)意義49決定系數(shù)定義回歸平方和與總平方和之比,等于相關(guān)系數(shù)的平方統(tǒng)計學(xué)意義回歸方程中能夠用X解釋的部分,反映了回歸所能貢獻的相對程度,即在Y的總變異中回歸關(guān)系所能解釋的百分比決定系數(shù)越大,回歸方程越有意義50應(yīng)用線性相關(guān)系數(shù)r時應(yīng)注意的問題r只表示兩個服從正態(tài)分布的隨機變量之間線性關(guān)系的密切程度和相關(guān)方向,r=0只能說X與Y之間無線性關(guān)系,并不能說X與Y之間無任何關(guān)系。相關(guān)關(guān)系并不一定是因果關(guān)系,可能僅是表面上的伴隨關(guān)系,或兩個變量同時受另一因素的影響,如小孩的身高和小樹的樹高同時受時間的影響,在校兒童的鞋的大小和閱讀技能同時受年齡的影響。相關(guān)分析的任務(wù)就是對相關(guān)關(guān)系給以定量的計算和描述。直線相關(guān)用于說明兩變量之間直線關(guān)系的方向和密切程度,X與Y沒有主次之分。51應(yīng)用線性相關(guān)系數(shù)r時應(yīng)注意的問題不能只根據(jù)相關(guān)系數(shù)r的絕對值的大小來推斷兩事物現(xiàn)象之間有無相關(guān)以及相關(guān)的密切程度,而必須對r進行相關(guān)系數(shù)的假設(shè)檢驗。不要把相關(guān)系數(shù)的顯著性誤解為兩事物或現(xiàn)象相關(guān)的強度,例如對于相關(guān)系數(shù)的假設(shè)檢驗來說,P<0.01比P<0.05更有理由認(rèn)為相關(guān)關(guān)系成立,但并不能得出前者比后者相關(guān)關(guān)系更密切的結(jié)論。直線相關(guān)分析要求X與Y服從雙變量正態(tài)分布;相關(guān)關(guān)系的強度是用r的絕對值來反映的。52直線回歸與相關(guān)應(yīng)用的注意事項根據(jù)分析目的選擇變量及統(tǒng)計方法直線回歸則進一步地用于定量刻畫應(yīng)變量Y對自變量X在數(shù)值上的依存關(guān)系,其中應(yīng)變量的定奪主要依專業(yè)要求而定,可以考慮把易于精確測量的變量作為X,另一個隨機變量作Y,例如用身高估計體表面積。兩個變量的選擇一定要結(jié)合專業(yè)背景,不能把毫無關(guān)聯(lián)的兩種現(xiàn)象勉強作回歸或相關(guān)分析。進行相關(guān)、回歸分析前應(yīng)繪制散點圖53直線回歸與相關(guān)應(yīng)用的注意事項資料的要求直線相關(guān)分析要求X與Y服從雙變量正態(tài)分布;直線回歸要求至少對于每個X相應(yīng)的Y要服從正態(tài)分布,X可以是服從正態(tài)分布的隨機變量也可以是能精確測量和嚴(yán)格控制的非隨機變量;對于雙變量正態(tài)分布資料,根據(jù)研究目的可選擇由X估計Y或者由Y估計X,一般情況下兩個回歸方程不相同??捎脷埐顖D考察數(shù)據(jù)是否符合模型假設(shè)條件54直線回歸與相關(guān)應(yīng)用的注意事項結(jié)果解釋及正確應(yīng)用反應(yīng)兩變量關(guān)系密切程度或數(shù)量上影響大小的統(tǒng)計量應(yīng)該是回歸系數(shù)或相關(guān)系數(shù)的絕對值,而不是假設(shè)檢驗的P值。P值越小只能說越有理由認(rèn)為變量間的直線關(guān)系存在,而不能說關(guān)系越密切或越“顯著”。另外,直線回歸用于預(yù)測時,其適用范圍一般不應(yīng)超出樣本中自變量的取值范圍。55秩相關(guān)適用條件:

①資料不服從雙變量正態(tài)分布而不宜作積差相關(guān)分析;②總體分布型未知,一端或兩端是不確定數(shù)值(如<10歲,≥65歲)的資料;③原始數(shù)據(jù)用等級表示的資料。56一、Spearman秩相關(guān)1.意義:等級相關(guān)系數(shù)rs用來說明兩個變量間直線相關(guān)關(guān)系的密切程度與相關(guān)方向。2.計算公式57例9-8某省調(diào)查了1995~1999年當(dāng)?shù)鼐用?8類死因的構(gòu)成以及每種死因?qū)е碌臐撛诠ぷ鲹p失年數(shù)WYPLL的構(gòu)成,結(jié)果見表9-3。以死因構(gòu)成為X,WYPLL構(gòu)成為Y,作等級相關(guān)分析。58表9-3某省1995~1999年居民死因構(gòu)成與WYPLL構(gòu)成死因類別(1)死因構(gòu)成(%)WYPLL構(gòu)成(%)dd2X(2)P(3)Y(4)Q(5)(6)=(3)-(5)(7)=(6)10.0310.0510020.1420.3420030.2030.936-3940.4340.6940050.4450.3832460.4560.7951170.4771.198-11

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論