雙變量回歸與相關(guān)_第1頁
雙變量回歸與相關(guān)_第2頁
雙變量回歸與相關(guān)_第3頁
雙變量回歸與相關(guān)_第4頁
雙變量回歸與相關(guān)_第5頁
已閱讀5頁,還剩95頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、1,第10章,兩個變量之間關(guān)系的分析和回歸以及相關(guān)的線性回歸和相關(guān),2。這個問題引出了對兩個變量之間關(guān)系的研究,例如,糖尿病患者的血糖和胰島素水平之間的關(guān)系是什么?分析數(shù)據(jù)包括每個患者的兩個變量值(血糖和胰島素水平),稱為雙變量數(shù)據(jù),記錄為:(x1,y1)、(x2,y2)、(xn,yn)。目的:研究x和y的定量關(guān)系:簡單線性回歸和簡單線性相關(guān)。第一節(jié)簡單線性回歸第四節(jié)簡單線性回歸第四節(jié)簡單線性回歸第四節(jié)簡單線性回歸第四節(jié)簡單線性回歸第四節(jié)簡單線性回歸第四節(jié)簡單線性回歸第四節(jié)簡單線性回歸第四節(jié)簡單線性回歸第四節(jié)簡單線性回歸第四節(jié)簡單線性回歸第四節(jié)簡單線性回歸第四節(jié)簡單線性回歸第四節(jié)簡單線性回歸第

2、四節(jié)簡單線性回歸第四節(jié)簡單線性回歸第四節(jié)簡單線性回歸第四節(jié)簡單線性回歸第四節(jié)簡單線性回歸起初,高爾頓把后代的身高趨于種族穩(wěn)定的自然現(xiàn)象稱為“回歸平均”。目前,“回歸”已成為一個統(tǒng)計術(shù)語,用來表示變量之間的某種數(shù)量依賴關(guān)系,并衍生出“回歸方程”和“回歸系數(shù)”等統(tǒng)計概念。例如,研究糖尿病患者的血糖和胰島素水平之間的關(guān)系,以及研究兒童的年齡和體重之間的關(guān)系。1.線性回歸的概念:如果將一個變量X作為自變量,那么研究另一個變量y(因變量)對自變量X的數(shù)量依賴性就是線性回歸。特征:線性回歸是一種統(tǒng)計關(guān)系,不同于一般的X和y的數(shù)學(xué)函數(shù)關(guān)系,例7,例9-1在地方病研究所對8名正常兒童的尿肌酐含量(mmol/2

3、4h)進(jìn)行了調(diào)查,如表9-1所示。估計尿肌酐含量(y)與其年齡(x)的回歸方程。表9-1、8、8正常兒童的年齡和尿肌酐含量(mmol/24h),102、9、10。在描述兒童年齡與尿肌酐含量之間的定量相關(guān)性時,年齡被稱為自變量,用X表示;尿肌酐含量稱為因變量,用y,11表示,從圖9-1可以看出,尿肌酐含量y隨年齡x的增加而增加,并呈直線趨勢,但并非所有的八個離散點都在一條直線上,這不同于兩個變量之間嚴(yán)格的線性函數(shù)關(guān)系,稱為線性回歸,其方程稱為線性回歸方程,從而區(qū)別于嚴(yán)格的線性方程。二元線性回歸是回歸分析中最基本、最簡單的一種,因此也稱為簡單回歸。線性回歸方程的一般表達(dá)式是,它是每個x處y的總體平

4、均值的估計,13,1a是y軸上回歸線的截距。0表示直線和縱軸的交點在原點的上方;A 0,交點低于原點;A=0,回歸線穿過原點。a=0,a 0,a 0,x,y,14,B0,直線從左下角到右上角,y隨著x的增加而增加;B0,直線從左上角到右下角,y隨著x的增加而減?。籅=0表示直線平行于X軸,X和Y之間沒有直線關(guān)系。b是回歸系數(shù),即直線的斜率。*b的統(tǒng)計顯著性是:x每增加(或減少)一個單位,y、B0、B0、b=0、15、102、16、17改變的平均單位數(shù)。2.線性回歸方程的解,殘差或剩余值,即假設(shè)回歸線上測量值y和估計值之間的縱向距離。事實上,求解A和B就是“合理地”找到一條最能代表數(shù)據(jù)點分布趨勢

5、的直線。最小平方和原則是確保每個測點與直線之間縱向距離的最小平方和。(x,y),(18),(19),(20),實施例9-1在當(dāng)?shù)丶膊⊙芯克{(diào)查了8名正常兒童的尿肌酐含量(mmol/24h),如表9-1所示。估計尿肌酐含量(y)與其年齡(x)的回歸方程。21,表9-1,8名正常兒童的年齡(歲)和尿肌酐含量(mmol/24h),22,問題解決步驟,23,24,25,該直線必須通過點(,),并在截距a處與縱軸相交。如果散點圖未通過坐標(biāo)系原點,則可將易于讀取的x值代入回歸方程、102、26、27、3。線性回歸中的統(tǒng)計推斷,28。(1)回歸方程的假設(shè)檢驗,建立樣本線性回歸方程,只完成了統(tǒng)計分析中兩個變量

6、之間關(guān)系的統(tǒng)計描述,研究者還必須回答它所來源的整體的線性回歸關(guān)系是否真的存在,即它是否為整體而存在?102,29,30,31,1方差分析,102,32,(x,Y),33,數(shù)理統(tǒng)計可以證明:34,上述公式是用符號表示的,其中,35,36,上述三個平方之和,每個都有其相應(yīng)的自由度,并有以下,38,其中:39,2。測試40,實施例9-2通過檢查實施例9-1的數(shù)據(jù)得到的線性回歸方程有效嗎?(1)方差分析,41,42,表9-2方差分析,列出的方差分析表見表9-2。43,(2)t檢驗,44,注意:45,(2)總體回歸系數(shù)的置信區(qū)間。利用上述回歸系數(shù)的t檢驗,我們可以得到1個46的雙邊置信區(qū)間。實施例9-3

7、根據(jù)在實施例9-1中獲得的b=0.1392估計總回歸系數(shù)的雙邊95%置信區(qū)間。47,(0.1392-2.4470.0304,0.1392 2.4470.0304)=(0.0648,0.2136),48,(3)回歸方程的估計和預(yù)測,49,(9-15),(9)兩條虛曲線的個別Y值的預(yù)測區(qū)間較寬。兩者中間窄,兩端寬;它們在X=處最窄。52,實施例9-4當(dāng)X0=12時,使用在實施例9-1中獲得的線性回歸方程來計算相應(yīng)個體值的95%置信區(qū)間和95%預(yù)測區(qū)間。53,計算步驟,實例9-1和9-2已經(jīng)計算出,54,線性回歸匯總,56,確定系數(shù),定義為回歸平方和與總平方和的比值,計算公式為:(9-23),該值在

8、0和1之間且沒有單位,其數(shù)值反映,57,線性回歸的應(yīng)用條件,4。SPSS軟件實現(xiàn),線性過程:用于單變量或多變量線性回歸分析,包括自變量的篩選。SPSS的操作和界面描述:P344 1)圖表、散點圖、簡單散點圖,2)分析、回歸、線性、例及SPSS過程,例10.1:醫(yī)生測量了21例肝癌患者的血清膽固醇(mmol/L),肝癌患者的血清膽固醇與甘油三酯之間是否存在線性回歸關(guān)系?實例及SPSS過程、界面描述、界面描述、界面描述、界面描述、界面描述、界面描述、界面描述、界面描述、界面描述、SPSS分析結(jié)果、擬合過程中變量進(jìn)出模型的記錄、SPSS分析結(jié)果、擬合模型簡表、SPSS分析結(jié)果、回歸模型檢驗的方差分析

9、結(jié)果,74,第2節(jié)簡單線性相關(guān),75,線性相關(guān),也稱為簡單相關(guān),用于二元正態(tài)分布數(shù)據(jù)。它的特性可以通過圖9-6中的散點圖直觀地說明。目的:研究兩個變量x和y的數(shù)量依賴(或相關(guān)性)。特征:統(tǒng)計關(guān)系,一,線性相關(guān)的概念,76,二,相關(guān)系數(shù)的含義和計算,1。顯著性:相關(guān)系數(shù),也稱為皮爾遜積矩相關(guān)系數(shù),用于解釋兩個變量之間線性關(guān)系的密切程度和相關(guān)方向。相關(guān)系數(shù)沒有單位,其值為-1 r 1。R的正值表示正相關(guān),R的負(fù)值表示負(fù)相關(guān),R的絕對值等于1表示完全相關(guān),r=0表示零相關(guān)。102,77,78,2。計算:樣本相關(guān)系數(shù)的公式為(9-18),79,由例9-1計算得出。根據(jù)公式(9-18)、實施例9-5至實

10、施例9-1的數(shù)據(jù)(見表9-1),計算8名兒童的尿肌酐含量及其年齡。80,3。相關(guān)系數(shù)的統(tǒng)計推斷,(1)相關(guān)系數(shù)的假設(shè)檢驗,(9-19),81,9-6至9-5,檢查尿肌酐含量與年齡之間是否存在線性相關(guān)。82,測試步驟:在這個例子中,n=8,r=0.8818,根據(jù)公式(9-19),83,(2)總體相關(guān)系數(shù)的置信區(qū)間,102,84,具體步驟如下,85,例如9-7,估計總體相關(guān)系數(shù)的95%置信區(qū)間。然后,根據(jù)公式(9-22),z被逆變換,年齡和尿肌酐含量之間的總體相關(guān)系數(shù)的95%置信區(qū)間為(0.4678,0.9971)。86,IV .線性回歸和相關(guān)應(yīng)用的注意事項,87,1根據(jù)分析目的選擇變量和統(tǒng)計方法

11、。線性相關(guān)用于解釋兩個變量之間線性關(guān)系的方向和緊密程度。X和Y之間沒有主要或次要的區(qū)別;線性回歸進(jìn)一步用于定量描述因變量Y對自變量X的數(shù)值依賴性,其中因變量的確定主要取決于專業(yè)要求,容易精確測量的變量可以認(rèn)為是X,另一個隨機(jī)變量為Y,例如體表面積可以通過身高來估計。兩個變量的選擇必須結(jié)合專業(yè)背景,兩個不相關(guān)的現(xiàn)象不能勉強(qiáng)回歸或相關(guān)。88,89,2在相關(guān)和回歸分析之前,應(yīng)繪制散點圖。步驟1: (1)散點圖可以檢驗兩個變量是否有線性趨勢;(2)可以發(fā)現(xiàn)異常值。散點圖異常值的識別和處理應(yīng)從專業(yè)知識和現(xiàn)有數(shù)據(jù)兩個方面考慮。結(jié)果可能是現(xiàn)有回歸模型的假設(shè)誤差,需要改變模型形式,也可能是抽樣誤差導(dǎo)致的偶然結(jié)

12、果甚至疏忽誤差。必須仔細(xì)檢查原始數(shù)據(jù),檢查其生產(chǎn)過程是否被認(rèn)為是過失誤差,或者是重復(fù)測量的抽樣誤差造成的偶然結(jié)果,以便仔細(xì)排除或采用其他估計方法。90,3數(shù)據(jù),線性相關(guān)分析要求x和y服從二元正態(tài)分布;線性回歸要求每個x對應(yīng)的至少y服從正態(tài)分布,x可以是服從正態(tài)分布的隨機(jī)變量,也可以是可以精確測量和嚴(yán)格控制的非隨機(jī)變量;*對于二元正態(tài)分布數(shù)據(jù),可以根據(jù)研究目的選擇用X估計Y或用Y估計X。一般來說,這兩個回歸方程是不同的。91,反映兩個變量之間關(guān)系的密切程度或影響量的統(tǒng)計量應(yīng)該是回歸系數(shù)或相關(guān)系數(shù)的絕對值,而不是假設(shè)檢驗的P值。P值越小,可以說變量之間的線性關(guān)系越合理,但不能說這種關(guān)系更密切或更“顯著”。此外,當(dāng)線性回歸用于預(yù)測時,其應(yīng)用范圍不應(yīng)超過樣本中自變量的取值范圍。4、結(jié)果說明和正確應(yīng)用。SPSS軟件實現(xiàn),二元過程:用于兩個或多個變量之間的參數(shù)或非參數(shù)相關(guān)分析。SPSS的操作和界面描述:P332 1)圖形,散點圖,簡單圖,2)分析,相關(guān)和雙變量相關(guān)系數(shù):皮爾遜,和SPSS過程,例10.2:一個醫(yī)生確定了2 1個肝癌。肝癌患者血清膽固醇和甘油三酯之間有線性關(guān)系嗎?實

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論