第十一講簡單線性回歸_第1頁
第十一講簡單線性回歸_第2頁
第十一講簡單線性回歸_第3頁
第十一講簡單線性回歸_第4頁
第十一講簡單線性回歸_第5頁
已閱讀5頁,還剩47頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、第十一章 簡單線性回歸Linear regressionn回歸是設法找出變量間在數(shù)量上的依存變化關系, 用函數(shù)表達式表達出來,這個表達式稱之為回歸方程。 兩變量間的關系n確定性關系:兩變量間的函數(shù)關系 圓的周長與半徑的關系: C2R 速度、時間與路程的關系:LST X與Y的函數(shù)關系: Ya+bX n非確定性關系:兩變量在宏觀上存在關系,但并未精確到可以用函數(shù)關系來表達。 青少年身高與年齡的關系; 身高與體重的關系:標準體重(kg)=身高(cm)-105 藥物濃度與反應率的關系;一、線性回歸的概念一、線性回歸的概念n當兩個變量存在當兩個變量存在準確、嚴格的準確、嚴格的直線關系時,可以用直線關系時

2、,可以用Y=a+bX,表示兩者的函數(shù)關系。表示兩者的函數(shù)關系。n其中其中X 為為自變量(自變量(independent variable););Y是因變量是因變量( dependent variable )。)。n但在實際生活當中,由于其它因素的干擾,許多雙變量之但在實際生活當中,由于其它因素的干擾,許多雙變量之間的關系并不是嚴格的函數(shù)關系,不能用函數(shù)方程來準確間的關系并不是嚴格的函數(shù)關系,不能用函數(shù)方程來準確反映,為了區(qū)別于兩變量間的函數(shù)方程,我們稱這種關系反映,為了區(qū)別于兩變量間的函數(shù)方程,我們稱這種關系為回歸關系,用直線方程來表示這種關系稱為回歸直線或為回歸關系,用直線方程來表示這種關系

3、稱為回歸直線或線性回歸。線性回歸。 Yabx小插曲:為什么叫”回歸“? F. Galton K.Pearson二、回歸參數(shù)的估計二、回歸參數(shù)的估計n式中的式中的 是由自變量是由自變量X推算應變量推算應變量Y的估計值,的估計值,a是回歸直是回歸直線在線在Y 軸上的軸上的截距截距;b為樣本的為樣本的回歸系數(shù)回歸系數(shù),即回歸直線的斜,即回歸直線的斜率,表示當率,表示當X變動一個單位時,變動一個單位時,Y平均變動平均變動b個單位。個單位。n計算原理:計算原理:最小二乘法最小二乘法,即保證各實測點到回歸直線的縱,即保證各實測點到回歸直線的縱向距離的平方和最小,并使計算出的回歸方程最能代表實向距離的平方和

4、最小,并使計算出的回歸方程最能代表實測數(shù)據(jù)所反映出的直線趨勢。測數(shù)據(jù)所反映出的直線趨勢。YabxY22YYYabXXbYaXXXYllXXYYXXb 2)()(例例11-1 某醫(yī)師為了研究正常成年男性的運動某醫(yī)師為了研究正常成年男性的運動后最大心率與年齡的關系,測得后最大心率與年齡的關系,測得20名正常成年男名正常成年男性的有關數(shù)據(jù),散點圖如下。性的有關數(shù)據(jù),散點圖如下。年齡504846444240383634心率200190180170160150140130年齡與運動后最大心率的回歸方程 41.8 166.8381.2 4477.2 1226.8XXYYXYX Ylll= -1226.8

5、3.218381.2XYXXlbl-= -301.31243.218YX=-166.8-(-3.218)41.8301.3124a =回歸系數(shù)和回歸方程的意義及性質回歸系數(shù)和回歸方程的意義及性質nb 的意義na 的意義n 的意義n 的意義n 的意義bXaY YY niiiYY12 Yb 的意義n斜率(slope) n 301.3124 -3.218 Xn 年齡每增加 1 歲,其運動后最大心率平均減少 3.218(次/分鐘)nb 的單位為 (Y的單位/X的單位)Y b0,y increase with the increase of X b0b F0.05(1,18) ,P0.05,拒絕拒絕H0

6、 H0:=0 H1:0 =0.05t檢驗法22,0()/bbvnSy xblxxbXXSSvtss剩余剩余 Sb是樣本回歸系數(shù)的標準誤是樣本回歸系數(shù)的標準誤nH 0: 0,nH 1: 0,n =0.05。 ()2.529.0409529.0409, 5.42142025.42140.2777381.23.21811.588, 18, P0.0010.2777Y XbbYYsstv-=-=-= -=年齡與運動后最大心率間存在回歸關系。決定系數(shù)決定系數(shù)(coefficient of determination)n 取值在0到1之間,反映了回歸貢獻的相對程度。n決定系數(shù)除了作為回歸擬合效果的概括統(tǒng)計

7、量,還可利用它對回歸方程做假設檢驗。2SSRSS回總2R22(1) (2)MSRkFRnMS回剩四、回歸問題的區(qū)間估計四、回歸問題的區(qū)間估計n回歸系數(shù)的可信區(qū)間估計n估計值 的可信區(qū)間估計n個體Y值的容許區(qū)間估計 Y 總體回歸系數(shù) 的可信區(qū)間估計n根據(jù) t 分布原理估計:n-3.2182.1010.2777-3.8014-2.63462 0 nsbtbb ,bnstb2, 的可信區(qū)間估計總體回歸線的95%置信帶 Y 樣本 總體Y的總平均給定X時Y的平均 (Y的條件均數(shù)) YYY 22.2,2,)()(1XXXXnstYstYXYnYn n根據(jù) t 分布原理: 的容許區(qū)間估計個體Y值的容許區(qū)間

8、22.2,2,)()(11XXXXnstYstYXYnYn n給定 X 時 Y 的估計值是 Y 的均數(shù) 的一個估計。n給定X 時 Y 值的容許區(qū)間是 Y 值的可能范圍。n 的100(1- )%容許限:Y Y Y 的可信區(qū)間與Y的容許區(qū)間n可信區(qū)間是針對條件均數(shù)的,而容許區(qū)間是針對Y的取值范圍的。nX=46時, 的可信區(qū)間為:149.7501156.8187(次/分), 表示:年齡為46歲的男子,估計其運動后最大心率為153.2844,95可信區(qū)間為(149.7501,156.8187 )(次/分), n X=46時,Y的容許區(qū)間為:141.7543164.8145 (次/分), 表示:年齡為4

9、6歲的男子, 估計有95的人其運動后最大心率在141.7543164.8145 (次/分)之間。Y Y 可信區(qū)間與容許區(qū)間示意(confidence band & tolerance band)1112131415164.55.05.56.06.57.0五、殘差分析五、殘差分析線性回歸的應用條件(LINE):n(1)線性(linear)n(2)獨立(independent)n(3)給定X時,Y正態(tài)分布(normal)n(4)等方差(equal variance) 可通過散點圖、殘差圖等方法來判斷數(shù)據(jù)是否滿足可通過散點圖、殘差圖等方法來判斷數(shù)據(jù)是否滿足這些條件。這些條件。給定X時,Y是正

10、態(tài)分布、等方差示意圖給定X時,Y是正態(tài)分布、不等方差示意圖殘差及殘差分析n殘差是指觀察值Yi與預測值 之間的差值,其表達式為:n它反映了方程擬合數(shù)據(jù)優(yōu)劣的信息。n殘差分析(residual analysis)旨在通過殘差深入了解數(shù)據(jù)與方程之間的關系,評價實際資料是否符合回歸方程的假設,識別離群值等。iiieYYiY殘差圖n標準殘差:(殘差均值)/標準差n以自變量(或因變量)為橫坐標,標準殘差為縱坐標,構成的散點圖稱之為殘差圖。n運動后最大心率Y和回歸殘差圖殘差圖示意圖殘差圖示意圖含義n以上給出幾種以自變量取值為橫坐標、以標準化殘差為縱坐標的殘差圖的常見類型。n在此殘差圖中:n 情況(a)、情況

11、(b)和情況(f)表示殘差不滿足等方差的條件;n 情況(c)顯示存在非線性關系;n 情況(d)顯示有點處于2倍標準差以外,可能是離群值;n 只有情況(e)顯示殘差呈隨機分布,滿足回歸條件。 六、線性回歸分析的注意事項六、線性回歸分析的注意事項1.進行相回歸分析要有實際意義。進行相回歸分析要有實際意義。2.充分利用散點圖。充分利用散點圖。3.在回歸分析中要求因變量在回歸分析中要求因變量Y是隨機變量,服從正態(tài)是隨機變量,服從正態(tài)分布,自變量分布,自變量X可以是隨機變量也可以是給定的可以是隨機變量也可以是給定的變量。變量。4.自變量的選擇:自變量的選擇: 因果中的因、容易測量的、變異小因果中的因、容

12、易測量的、變異小的。的。 4.注意線性回歸模型的應用條件:注意線性回歸模型的應用條件:LINE5.建立回歸方程后,須對回歸系數(shù)進行假設檢驗。建立回歸方程后,須對回歸系數(shù)進行假設檢驗。6.使用回歸方程估計時,在建立方程時的自變量使用回歸方程估計時,在建立方程時的自變量的取值范圍內(nèi)。的取值范圍內(nèi)。七、七、 線性相關和回歸的線性相關和回歸的 區(qū)別和聯(lián)系區(qū)別和聯(lián)系聯(lián)系聯(lián)系: 1.b和r符號一致 2.b和r的檢驗是等價的 3.用回歸解釋相關2SSrSS回總brttF區(qū)別區(qū)別1.資料要求不同:回歸要求資料要求不同:回歸要求y服從正態(tài)分布,服從正態(tài)分布,x是可以是可以精確測量和嚴格控制的變量,一般稱為精確測

13、量和嚴格控制的變量,一般稱為型回歸;型回歸;相關要求兩個變量服從雙變量正態(tài)分布。這種資料相關要求兩個變量服從雙變量正態(tài)分布。這種資料若進行回歸分析稱為若進行回歸分析稱為回歸,可計算兩個方程?;貧w,可計算兩個方程。nI型回歸:X是精確控制的;nII型回歸:X是隨機的。n由X推算Y:n由Y推算X:2.2.研究目的不同:回歸用來說明兩變量數(shù)量上的依存研究目的不同:回歸用來說明兩變量數(shù)量上的依存變化關系,相關說明變量間的相關關系。變化關系,相關說明變量間的相關關系。YbaXXbaYYXYXXYXY. 小結小結n簡單線性回歸是研究兩個變量間線性關系的數(shù)量表簡單線性回歸是研究兩個變量間線性關系的數(shù)量表達式

14、。根據(jù)最小二乘法原則,計算回歸方程。達式。根據(jù)最小二乘法原則,計算回歸方程。n進行簡單線性回歸分析需要滿足進行簡單線性回歸分析需要滿足線性、獨立線性、獨立 、正態(tài)、正態(tài) 與等方差與等方差4個條件。個條件。n在簡單線性回歸分析中,對回歸方程的檢驗等價于在簡單線性回歸分析中,對回歸方程的檢驗等價于對回歸系數(shù)的假設檢驗,可通過方差分析或對回歸系數(shù)的假設檢驗,可通過方差分析或t檢驗檢驗完成。完成。案例n原文題目高效毛細管電泳法測定血漿中布比卡因的濃度,采用毛細管電泳法,于0.5ml空白血漿中分別加入0.05,0.1,0.2,0.3,0.4,0.5g的布比卡因進行測定,原作者以樣品峰的峰面積與內(nèi)標峰的峰面積之比(Y)對樣品量(X)進行相關分析,線性關系良好( r0.99)習題 1.在簡單線性回歸分析中,得到回歸系數(shù)為-0.30,經(jīng)檢驗有統(tǒng)計學意義,說明( )A.Y增加一個單位,X平均減少30%B. X增加一個單位,Y平均減少30% C. X增加一個單位,Y平均減少0.30個單位 D. Y增加一個單位,X平均減

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論