版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、102,1,第九章,雙變量回歸與相關(guān) Linear Regression and Correlation,102,2,雙變量計(jì)量資料:每個(gè)個(gè)體有兩個(gè)變量值 總體:無限或有限對(duì)變量值 樣本:從總體隨機(jī)抽取的n對(duì)變量值 (X1,Y1), (X2,Y2), , (Xn,Yn) 目的:研究X和Y的數(shù)量關(guān)系 方法:回歸與相關(guān) 簡(jiǎn)單、基本直線回歸、直線相關(guān),102,3,Content 1. Linear regression 2. Linear correlation 3. Rank correlation 4. Curve fitting,102,4,十九世紀(jì)英國(guó)人類學(xué)家 F.Galton首次在自然遺傳
2、一書中,提出并闡明了“相關(guān)”和“相關(guān)系數(shù)”兩個(gè)概念,為相關(guān)論奠定了基礎(chǔ)。其后,他和英國(guó)統(tǒng)計(jì)學(xué)家 Karl Pearson對(duì)上千個(gè)家庭的身高、臂長(zhǎng)、拃長(zhǎng)(伸開大拇指與中指兩端的最大長(zhǎng)度)做了測(cè)量,發(fā)現(xiàn):,歷史背景:,102,5,兒子身高(Y,英寸)與父親身高(X,英寸)存在線性關(guān)系: 即高個(gè)子父代的子代在成年之后的身高平均來說不是更高,而是稍矮于其父代水平,而矮個(gè)子父代的子代的平均身高不是更矮,而是稍高于其父代水平。Galton將這種趨向于種族穩(wěn)定的現(xiàn)象稱之“回歸”。,102,6,目前,“回歸”已成為表示變量之間某種數(shù)量依存關(guān)系的統(tǒng)計(jì)學(xué)術(shù)語,并且衍生出“回歸方程”“回歸系數(shù)”等統(tǒng)計(jì)學(xué)概念。如研究
3、糖尿病人血糖與其胰島素水平的關(guān)系,研究?jī)和挲g與體重的關(guān)系等。,102,7,第一節(jié) 直線回歸,102,8,一、直線回歸的概念,目的:研究應(yīng)變量Y對(duì)自變量X的數(shù)量依 存關(guān)系。 特點(diǎn):統(tǒng)計(jì)關(guān)系。 X值和Y的均數(shù)的關(guān)系, 不同于一般數(shù)學(xué)上的X 和Y的函數(shù) 關(guān)系。,102,9,例9-1 某地方病研究所調(diào)查了8名正常兒童的尿肌酐含量(mmol/24h)如表9-1。估計(jì)尿肌酐含量(Y)對(duì)其年齡(X)的回歸方程。,102,10,表9-1 8名正常兒童的年齡 (歲)與尿肌酐含量 (mmol/24h),102,11,102,12,在定量描述兒童年齡與其尿肌酐含量數(shù)量上的依存關(guān)系時(shí),將年齡稱為自變量(indepe
4、ndent variable),用 X 表示;尿肌酐含量稱為應(yīng)變量(dependent variable),用 Y 表示。,102,13,由圖9-1可見,尿肌酐含量 Y 隨年齡 X 增加而增大且呈直線趨勢(shì),但并非8個(gè)點(diǎn)子恰好全都在一直線上,此與兩變量間嚴(yán)格的直線函數(shù)關(guān)系不同,稱為直線回歸(linear regression),其方程叫直線回歸方程,以區(qū)別嚴(yán)格意義的直線方程。 雙變量直線回歸是回歸分析中最基本、最簡(jiǎn)單的一種,故又稱簡(jiǎn)單回歸。,102,14,直線回歸方程的一般表達(dá)式為,為各X處Y的總體均數(shù)的估計(jì)。,102,15,1a 為回歸直線在 Y 軸上的截距。,a 0,表示直線與縱軸的交點(diǎn)在原
5、點(diǎn)的上方; a 0,則交點(diǎn)在原點(diǎn)的下方; a = 0,則回歸直線通過原點(diǎn)。,a = 0,a 0,a 0,X,Y,102,16,b0,直線從左下方走向右上方,Y 隨 X 增大而增大; b0,直線從左上方走向右下方,Y 隨 X 增大而減小; b=0,表示直線與 X 軸平行,X 與Y 無直線關(guān)系。,X,Y,2. b為回歸系數(shù),即直線的斜率。,b 的統(tǒng)計(jì)學(xué)意義是:X 每增加(減)一個(gè)單位,Y 平均改變b個(gè)單位。,b0,b0,b=0,102,17,102,18,102,19,二、直線回歸方程的求法,殘差(residual)或剩余值,即實(shí)測(cè)值Y與假定回歸線上的估計(jì)值 的縱向距離 。 求解a、b實(shí)際上就是“
6、合理地”找到一條能最好地代表數(shù)據(jù)點(diǎn)分布趨勢(shì)的直線。,原則:最小二乘法(least sum of squares),即可保證各實(shí)測(cè)點(diǎn)至直線的縱向距離的平方和最小,(X,Y),102,20,102,21,102,22,例9-1 某地方病研究所調(diào)查了8名正常兒童的尿肌酐含量(mmol/24h)如表9-1。估計(jì)尿肌酐含量(Y)對(duì)其年齡(X)的回歸方程。,102,23,表9-1 8名正常兒童的年齡 (歲)與尿肌酐含量 (mmol/24h),102,24,解題步驟,102,25,102,26,102,27,此直線必然通過點(diǎn)( , )且與縱坐標(biāo)軸相交于截距 a 。如果散點(diǎn)圖沒有從坐標(biāo)系原點(diǎn)開始,可在自變量實(shí)
7、測(cè)范圍內(nèi)遠(yuǎn)端取易于讀數(shù)的 X 值代入回歸方程得到一個(gè)點(diǎn)的坐標(biāo),連接此點(diǎn)與點(diǎn)( , )也可繪出回歸直線。,102,28,102,29,三、直線回歸中的統(tǒng)計(jì)推斷,102,30,(一)回歸方程的假設(shè)檢驗(yàn),建立樣本直線回歸方程,只是完成了統(tǒng)計(jì)分析中兩變量關(guān)系的統(tǒng)計(jì)描述,研究者還須回答它所來自的總體的直線回歸關(guān)系是否確實(shí)存在,即是否對(duì)總體有 ?,102,31,102,32,102,33,1方差分析,102,34,(X,Y),102,35,數(shù)理統(tǒng)計(jì)可證明:,102,36,上式用符號(hào)表示為,式中,102,37,102,38,上述三個(gè)平方和,各有其相應(yīng)的自由度 ,并有如下的關(guān)系:,102,39,如果兩變量間總
8、體回歸關(guān)系確實(shí)存在,回歸的貢獻(xiàn)就要大于隨機(jī)誤差,大到何種程度時(shí)可以認(rèn)為具有統(tǒng)計(jì)意義,可計(jì)算統(tǒng)計(jì)量 F,102,40,式中,102,41,2. t 檢驗(yàn),102,42,例9-2 檢驗(yàn)例9-1數(shù)據(jù)得到的直線回歸方程是否成立?,102,43,(1)方差分析,102,44,表9-2 方差分析表,列出方差分析表如表9-2。,102,45,(2)t 檢驗(yàn),102,46,注意:,102,47,(二)總體回歸系數(shù) 的可信區(qū)間,利用上述對(duì)回歸系數(shù)的t檢驗(yàn),可以得到的1雙側(cè)可信區(qū)間為,102,48,例9-3 根據(jù)例9-1中所得b=0.1392,估計(jì)其總體回歸系數(shù)的雙側(cè)95%可信區(qū)間。,102,49,(0.1392
9、-2.4470.0304,0.1392+2.4470.0304) =(0.0648,0.2136),102,50,(三)利用回歸方程進(jìn)行估計(jì)和預(yù)測(cè),102,51,(9-15),(9-14),反映其抽樣誤差大小的標(biāo)準(zhǔn)誤為,102,52,(9-16),(9-17),102,53,兩條實(shí)曲線總體均數(shù)的可信區(qū)間; 兩條虛曲線個(gè)體Y值的預(yù)測(cè)區(qū)間,范圍更寬。 二者都是中間窄,兩頭寬;都在X= 處最窄。,102,54,例9-4 用例9-1所得直線回歸方程,計(jì)算當(dāng)X0=12時(shí), 的95%可信區(qū)間和相應(yīng)個(gè)體值的95%預(yù)測(cè)區(qū)間。,102,55,計(jì)算步驟,例9-1、例9-2已計(jì)算出,102,56,102,57,第二
10、節(jié) 直線相關(guān),102,58,直線相關(guān)(linear correlation)又稱簡(jiǎn)單相關(guān)(simple correlation),用于雙變量正態(tài)分布(bivariate normal distribution)資料。其性質(zhì)可由圖9-6散點(diǎn)圖直觀的說明。 目的:研究 兩個(gè)變量X,Y數(shù)量上的依存(或相關(guān)) 關(guān)系。 特點(diǎn):統(tǒng)計(jì)關(guān)系,一、直線相關(guān)的概念,102,59,二、相關(guān)系數(shù)的意義與計(jì)算,1. 意義:相關(guān)系數(shù)(correlation coefficient)又稱Pearson積差相關(guān)系數(shù),用來說明具有直線關(guān)系的兩變量間相關(guān)的密切程度與相關(guān)方向。,相關(guān)系數(shù)沒有單位,其值為-1 r 1。r值為正表示正
11、相關(guān),r值為負(fù)表示負(fù)相關(guān),r的絕對(duì)值等于1為完全相關(guān),r=0為零相關(guān)。,102,60,102,61,2. 計(jì)算:樣本相關(guān)系數(shù)的計(jì)算公式為,(9-18),102,62,由例9-1算得,,按公式(9-18),例9-5 對(duì)例9-1數(shù)據(jù)(見表9-1),計(jì)算8名兒童的尿肌酐含量與其年齡的相關(guān)系數(shù)。,102,63,三、相關(guān)系數(shù)的統(tǒng)計(jì)推斷,(一)相關(guān)系數(shù)的假設(shè)檢驗(yàn),(9-19),102,64,例9-6 對(duì)例9-5所得 r 值,檢驗(yàn)?zāi)蚣◆颗c年齡是否有直線相關(guān)關(guān)系?,102,65,檢驗(yàn)步驟,本例n=8,r=0.8818,按公式(9-19),102,66,(二)總體相關(guān)系數(shù)的可信區(qū)間,102,67,具體步驟如
12、下,102,68,例9-7 對(duì)例9-5所得r值,估計(jì)總體相關(guān)系數(shù)的95%可信區(qū)間。,再按公式(9-22)將z作反變換,得到年齡與尿肌酐含量的總體相關(guān)系數(shù)95%可信區(qū)間為(0.4678,0.9971)。,102,69,四、決定系數(shù)(coefficient of determination),定義為回歸平方和與總平方和之比,計(jì)算公式為:,(9-23),取值在0到1之間且無單位,其數(shù)值大小反映了回歸貢獻(xiàn)的相對(duì)程度,也就是在Y的總變異中回歸關(guān)系所能解釋的百分比。,102,70,102,71,五、直線回歸與相關(guān)應(yīng)用的注意事項(xiàng),102,72,1根據(jù)分析目的選擇變量及統(tǒng)計(jì)方法,直線相關(guān)用于說明兩變量之間直線
13、關(guān)系的方向和密切程度,X與Y沒有主次之分; 直線回歸則進(jìn)一步地用于定量刻畫應(yīng)變量Y對(duì)自變量X在數(shù)值上的依存關(guān)系,其中應(yīng)變量的定奪主要依專業(yè)要求而定,可以考慮把易于精確測(cè)量的變量作為X,另一個(gè)隨機(jī)變量作Y,例如用身高估計(jì)體表面積。 兩個(gè)變量的選擇一定要結(jié)合專業(yè)背景,不能把毫無關(guān)聯(lián)的兩種現(xiàn)象勉強(qiáng)作回歸或相關(guān)分析。,102,73,102,74,2進(jìn)行相關(guān)、回歸分析前應(yīng)繪制散點(diǎn)圖第一步,(1) 散點(diǎn)圖可考察兩變量是否有直線趨勢(shì); (2) 可發(fā)現(xiàn)離群點(diǎn)(outlier)。,散點(diǎn)圖對(duì)離群點(diǎn)的識(shí)別與處理需要從專業(yè)知識(shí)和現(xiàn)有數(shù)據(jù)兩方面來考慮,結(jié)果可能是現(xiàn)有回歸模型的假設(shè)錯(cuò)誤需要改變模型形式,也可能是抽樣誤差造
14、成的一次偶然結(jié)果甚至過失誤差。需要認(rèn)真核對(duì)原始數(shù)據(jù)并檢查其產(chǎn)生過程認(rèn)定是過失誤差,或者通過重復(fù)測(cè)定確定是抽樣誤差造成的偶然結(jié)果,才可以謹(jǐn)慎地剔除或采用其它估計(jì)方法。,102,75,3資料的要求,直線相關(guān)分析要求 X與Y 服從雙變量正態(tài)分布; 直線回歸要求至少對(duì)于每個(gè) X 相應(yīng)的 Y 要服從正態(tài)分布,X可以是服從正態(tài)分布的隨機(jī)變量也可以是能精確測(cè)量和嚴(yán)格控制的非隨機(jī)變量; * 對(duì)于雙變量正態(tài)分布資料,根據(jù)研究目的可選擇由 X 估計(jì) Y 或者由 Y 估計(jì) X ,一般情況下兩個(gè)回歸方程不相同)。,102,76,反應(yīng)兩變量關(guān)系密切程度或數(shù)量上影響大小的統(tǒng)計(jì)量應(yīng)該是回歸系數(shù)或相關(guān)系數(shù)的絕對(duì)值,而不是假設(shè)
15、檢驗(yàn)的P值。 P值越小只能說越有理由認(rèn)為變量間的直線關(guān)系存在,而不能說關(guān)系越密切或越“顯著”。另外,直線回歸用于預(yù)測(cè)時(shí),其適用范圍一般不應(yīng)超出樣本中自變量的取值范圍。,4結(jié)果解釋及正確應(yīng)用,102,77,第三節(jié) 秩相關(guān)(非參數(shù)統(tǒng)計(jì)方法),102,78,適用條件:,雙變量計(jì)量資料: 資料不服從雙變量態(tài)分布; 總體分布型未知,一端或兩端是不確定數(shù)值(如10歲,65歲)的資料; 原始數(shù)據(jù)(一個(gè)或兩個(gè)變量值)用等級(jí)表 示的資料。,102,79,一、Spearman秩相關(guān),1. 意義:等級(jí)相關(guān)系數(shù) rs 用來說明兩個(gè)變 量間直線相關(guān)關(guān)系的密切程度與相關(guān)方向。,102,80,3. 計(jì)算公式,(9-25),
16、(9-26),102,81,102,82,表9-3 某省1995年到1999年居民死因構(gòu)成與WYPLL構(gòu)成,102,83,檢驗(yàn)步驟,102,84,二、相同秩較多時(shí) rs 的校正,公式中Tx(或TY)(t3t)/12,t為X(或Y)中相同秩的個(gè)數(shù)。顯然當(dāng)TxTY0時(shí),公式(9-27)與公式(9-25)相等。,(9-27),102,85,、,(9-18),PiXQiY,102,86,第六節(jié) 曲線擬合 (curve fitting),102,87,醫(yī)學(xué)現(xiàn)象中并非所有的兩變量間關(guān)系都表現(xiàn)為前面所述的直線形式,其較為典型的是服藥后血藥濃度時(shí)間曲線或毒理學(xué)動(dòng)物實(shí)驗(yàn)中動(dòng)物死亡率與給藥劑量的關(guān)系就非直線形式。 當(dāng)發(fā)現(xiàn)散點(diǎn)圖中應(yīng)變量 Y 和自變量 X 間表現(xiàn)出非線性趨勢(shì)時(shí),可以通過曲線擬合方法來刻畫兩變量間數(shù)量上的依存關(guān)系。,102,88,一、曲線擬合的一般步驟,102,89,此處決定系數(shù)R2定義為,(9-51),102,90,例9-13 以不同劑量的標(biāo)準(zhǔn)促腎上腺皮質(zhì)激素釋放因子CR
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年廣西演藝職業(yè)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試題庫(kù)及答案1套
- 2026年四川希望汽車職業(yè)學(xué)院?jiǎn)握新殬I(yè)技能考試題庫(kù)及答案1套
- 2026年孕婦心理考試題庫(kù)及答案一套
- 2026年梧州職業(yè)學(xué)院?jiǎn)握芯C合素質(zhì)考試題庫(kù)附答案
- 2026年心理答案考試題庫(kù)匯編
- 2026年寧波衛(wèi)生職業(yè)技術(shù)學(xué)院?jiǎn)握芯C合素質(zhì)考試模擬測(cè)試卷及答案1套
- 2026安徽省面向中國(guó)農(nóng)業(yè)大學(xué)選調(diào)生招錄筆試模擬試題及答案解析
- 2026年廣東書法單招試題附答案
- 2026年南通職業(yè)大學(xué)單招職業(yè)適應(yīng)性考試模擬測(cè)試卷及答案1套
- 2026山東濟(jì)南市鋼城區(qū)融媒傳播集團(tuán)有限公司面試筆試參考題庫(kù)及答案解析
- 2026北京市通州區(qū)事業(yè)單位公開招聘工作人員189人筆試重點(diǎn)基礎(chǔ)提升(共500題)附帶答案詳解
- 2025~2026學(xué)年山東省菏澤市牡丹區(qū)第二十一初級(jí)中學(xué)八年級(jí)上學(xué)期期中歷史試卷
- 2025至2030中國(guó)細(xì)胞存儲(chǔ)行業(yè)調(diào)研及市場(chǎng)前景預(yù)測(cè)評(píng)估報(bào)告
- 安全庫(kù)存基準(zhǔn)表
- (37)-24.1.4黃芪中藥中醫(yī)學(xué)課件
- 高中生物競(jìng)賽課件:蛋白質(zhì)的性質(zhì)與分離、分析技術(shù)
- 刑法學(xué)(上冊(cè))馬工程課件 第1章 刑法概說
- 《紅樓夢(mèng)中的禮儀習(xí)俗研究報(bào)告》
- GB/T 1041-2008塑料壓縮性能的測(cè)定
- 教師心理健康輔導(dǎo)講座二
- 全國(guó)計(jì)算機(jī)等級(jí)考試三級(jí)網(wǎng)絡(luò)技術(shù)歷年真題版
評(píng)論
0/150
提交評(píng)論