版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
Eg:某醫(yī)師收集并測定95例糖尿病患者的體重指數(shù)BMI(kg/cm2)、HOMA-R指數(shù)、胰島素與瘦素比值A(chǔ)/L等指標(biāo),試估計這些指標(biāo)之間的相關(guān)性?分析年齡與冠狀動脈粥樣硬化等級之間的相關(guān)關(guān)系。
年齡(歲)冠狀動脈硬化等級合計
++++++203040》5070224227249316231379201514
98635958合計122894126278例某地方病研究所調(diào)查了8名正常兒童的尿肌酐含量(mmol/24h),估計年齡與尿肌酐含量間有無關(guān)系,是否可由年齡推算尿肌酐含量。雙變量回歸與相關(guān)linearregressionandcorrelation回歸分析與相關(guān)分析雙變量間關(guān)系:年齡~身高、肺活量~體重、藥物劑量與動物死亡率等。
依存關(guān)系:應(yīng)變量(dependentvariable)Y隨自變量(independentvariable)X變化而變化?!?/p>
回歸分析
互依關(guān)系:應(yīng)變量Y與自變量X間的彼此關(guān)系
———
相關(guān)分析雙變量計量資料:每個個體有兩個變量值
總體:無限或有限對變量值樣本:從總體隨機(jī)抽取的n對變量值
(X1,Y1),(X2,Y2),…,(Xn,Yn)
目的:研究X和Y的數(shù)量關(guān)系
方法:回歸與相關(guān)簡單、基本——直線回歸、直線相關(guān)“一因一果”,即一個自變量與一個依變量一元回歸分析; 研究“多因一果”,即多個自變量與一個依變量的回歸分析稱為多元回歸分析。 一元回歸分析又分為直線回歸分析與曲線回歸分析兩種; 多元回歸分析又分為多元線性回歸分析與多元非線性回歸分析兩種。第一節(jié)直線回歸(linearregression線性回歸)1.直線回歸的概念:直線回歸是分析兩變量間線性依存變化的數(shù)量關(guān)系。“回歸”的由來英國統(tǒng)計學(xué)家F·Galton
和他的學(xué)生、現(xiàn)代統(tǒng)計學(xué)的奠基者之一K·Pearson在研究父母身高與其子女身高的遺傳問題時,觀察了1078對夫婦,以每對夫婦中父親的身高作為自變量X,而取他們的一個成年兒子的身高作為應(yīng)變量Y,將結(jié)果在平面直角坐標(biāo)系上繪成散點圖,發(fā)現(xiàn)趨勢近乎一條直線。兒子身高(Y,英寸)與父親身高(X,英寸)存在線性關(guān)系:。也即高個子父代的子代在成年之后的身高平均來說不是更高,而是稍矮于其父代水平,而矮個子父代的子代的平均身高不是更矮,而是稍高于其父代水平。Galton將這種趨向于種族穩(wěn)定的現(xiàn)象稱之“回歸”。目前,“回歸”已成為表示變量之間某種數(shù)量依存關(guān)系的統(tǒng)計學(xué)術(shù)語,并且衍生出“回歸方程”“回歸系數(shù)”等統(tǒng)計學(xué)概念。如研究糖尿病人血糖與其胰島素水平的關(guān)系,研究兒童年齡與體重的關(guān)系等。3.函數(shù)關(guān)系與回歸關(guān)系函數(shù)關(guān)系:確定。例如園周長與半徑:y=2πr回歸關(guān)系:不確定。例如血壓和年齡的關(guān)系,直線回歸的任務(wù)就是找出一條最能描述變量間非確定性數(shù)量關(guān)系的一條直線,此直線為回歸直線,相應(yīng)的直線方程稱為直線回歸方程(linearregressionequation)。
4.直線回歸方程的一般表達(dá)式為
為各X處Y的總體均數(shù)的估計。a為回歸直線在y軸上的截距0yxa>0a=0a<0a0yxb>0b=0b<0
b為回歸系數(shù),即回歸直線的斜率;其統(tǒng)計學(xué)意義是x增加(減)一個單位,y平均變動b個單位
b=0
a:截距(intercept),直線與Y軸交點的縱坐標(biāo)(X=0)。b:斜率(slope),回歸系數(shù)(regressioncoefficient)。意義:X每改變一個單位,Y平均改變b個單位。
b>0,Y隨X的增大而增大(減少而減少)——斜上;
b<0,Y隨X的增大而減小(減少而增加)——斜下;
b=0,Y與X無直線關(guān)系——
水平。
|b|越大,表示Y隨X變化越快,直線越陡峭。
,a與b分是與相應(yīng)的樣本估計值5.直線回歸方程參數(shù)的計算y=a+bx
^
最小二乘法原則(leastsquaremethod):使各實際散點(Y)到直線()的縱向距離的平方和最小。即使(殘差或剩余值)最小。Yi(Y的估計值)
=a+bXi
Yi估計值i殘差i=Yi–估計值i殘差(residual)或剩余值,即實測值Y與假定回歸線上的估計值的縱向距離。求解a、b實際上就是“合理地”找到一條能最好地代表數(shù)據(jù)點分布趨勢的直線。因為直線一定經(jīng)過“均數(shù)”點例9-1
某地方病研究所調(diào)查了8名正常兒童的尿肌酐含量(mmol/24h)如表9-1。估計尿肌酐含量(Y)對其年齡(X)的回歸方程。
表9-18名正常兒童的年齡(歲)與尿肌酐含量(mmol/24h)
(1)
由原始數(shù)據(jù)作散點圖,觀察兩變量間的趨勢8名正常兒童的年齡(歲)與尿肌酐含量(mmol/24h)可在自變量實測范圍內(nèi)遠(yuǎn)端取易于讀數(shù)的X值代入回歸方程得到一個點的坐標(biāo),連接此點與點(,)也可繪出回歸直線。6、直線回歸中的統(tǒng)計推斷(一)回歸方程的假設(shè)檢驗建立樣本直線回歸方程,只是完成了統(tǒng)計分析中兩變量關(guān)系的統(tǒng)計描述,研究者還須回答它所來自的總體的直線回歸關(guān)系是否確實存在,即是否對總體有存在?1.方差分析
X或如果兩變量間總體回歸關(guān)系確實存在,回歸的貢獻(xiàn)就要大于隨機(jī)誤差,大到何種程度時可以認(rèn)為具有統(tǒng)計意義,可計算統(tǒng)計量F目的:推斷總體回歸系數(shù)是否為0,確定所求得的回歸方程是否成立。2.t檢驗即各實際點與回歸線縱軸方向的離散程度,即標(biāo)準(zhǔn)估計誤差例9-2
檢驗例9-1數(shù)據(jù)得到的直線回歸方程是否成立?
(1)方差分析
表9-2方差分析表
列出方差分析表如表9-2。決定系數(shù)(coefficientofdetermination):回歸平方和與總平方和之比,取值在0到1之間且無單位,其大小反映了回歸貢獻(xiàn)的相對程度,也就是在Y的總變異中回歸關(guān)系所能解釋的百分比。(2)t檢驗(二)總體回歸系數(shù)的可信區(qū)間
利用上述對回歸系數(shù)的t檢驗,可以得到β的1-雙側(cè)可信區(qū)間為
例9-3
根據(jù)例9-1中所得b=0.1392,估計其總體回歸系數(shù)的雙側(cè)95%可信區(qū)間。(0.1392-2.447×0.0304,0.1392+2.447×0.0304)=(0.0648,0.2136)(三)利用回歸方程進(jìn)行估計和預(yù)測
(9-15)
(9-14)
反映其抽樣誤差大小的標(biāo)準(zhǔn)誤為(9-16)
(9-17)
例9-4用例9-1所得直線回歸方程,計算當(dāng)X0=12時,的95%可信區(qū)間和相應(yīng)個體值的95%預(yù)測區(qū)間。計算步驟例9-1、例9-2已計算出
95%μ的可信區(qū)間與個體Yi的預(yù)測范圍有關(guān)數(shù)據(jù)編號XYY_hat均數(shù)標(biāo)準(zhǔn)誤個值標(biāo)準(zhǔn)誤均數(shù)下限均數(shù)上限個值下限個值上限1133.543.4710.12710.23443.16023.78242.89774.04492113.013.1930.08320.21382.98923.39662.66973.7161393.092.9150.07130.20952.74013.08892.40203.4270462.482.4970.12710.23442.18582.80801.92333.0705582.562.7750.08320.21382.57162.97902.25213.29856103.363.0540.07130.20952.87933.22812.54123.56627123.183.3320.10310.22233.07993.58432.78823.8760872.652.6360.10310.22232.38392.88832.09223.1800直線回歸方程的應(yīng)用描述兩變量的依存數(shù)量關(guān)系;利用回歸方程進(jìn)行預(yù)測:由易測的變量值估算難算的變量值(由x估計y);X:汽車流量(輛/小時),y:NOx(mg/M3)y=-1.674+0.0001838x
^利用回歸方程進(jìn)行控制:即利用回歸方程進(jìn)行逆估計(由y估計x)。第二節(jié)直線相關(guān)
(linearcorrelation)
簡單相關(guān)(simplecorrelation),用于雙變量正態(tài)分布資料。進(jìn)行直線相關(guān)分析的基本任務(wù)在于根據(jù)x、y的實際觀測值計算表示兩個相關(guān)變量x與y線性相關(guān)程度和性質(zhì)的統(tǒng)計指標(biāo)—相關(guān)系數(shù)r,并進(jìn)行顯著性檢驗。
1.直線相關(guān)的概念
直線相關(guān)是研究兩變量x、y之間協(xié)同變化的線性關(guān)系
的分析方法。體重(kg),x肺活量(),YL十名女中學(xué)生體重與肺活量散點圖2.對資料的要求
x、y都是正態(tài)分布資料的隨機(jī)變量。3.相關(guān)系數(shù)
(correlationcoefficient,r)
表示方法:
-1r
1*意義:描述兩個變量直線相關(guān)的方向與密切程度的指標(biāo)。正相關(guān)負(fù)相關(guān)0<r<1-1<r<0相關(guān)系數(shù)示意:r=1r=-1完全正相關(guān)完全負(fù)相關(guān)相關(guān)系數(shù)示意r=0r=0r=0零相關(guān)零相關(guān)零相關(guān)計算方法:__(x-x)(y-y)l
xyr=————————————=——————___________________________(x-x)2(y-y)2
l
xx·l
yy__(x)(y)l
xy=(x-x)(y-y)=xy-—————n__(x)2lxx=(x-x)2=x2-————n_(y)2lyy=(y-y)2=y2-————n_10名女中學(xué)生的體重(x)與肺活量(y)的直線相關(guān)計算編號XYX2Y2XY
(1)(2)(3)(4)(5)(6)
1351.6012252.560056.002371.6013692.560059.203372.4013695.760088.804402.1016004.410084.005402.6016006.7600104.006422.5017646.2500105.007422.6517647.0225111.308432.7518497.5625118.259442.7519367.5625121.00452.2020254.840099.00∑40523.151650155.2875946.55___________________________(x-x)2(y-y)2
l
xx·l
yy計算:__(x-x)(y-y)l
xyr=————————————=——————__(x)(y)l
xy=(x-x)(y-y)=xy-—————n__=8.975(x)2lxx=(x-x)2=x2-————n_=98.5
(y)2lyy=(y-y)2=y2-————n_=1.69525r=8.975√98.51.69525=0.69454.相關(guān)系數(shù)的假設(shè)檢驗?zāi)康模簷z驗r
是否來自總體相關(guān)系數(shù)=0
的 總體,推斷兩變量的相關(guān)關(guān)系是否成立。r-0rt=———=——————,Sr
1-r2———n-2________=n-2Sr為相關(guān)系數(shù)的標(biāo)準(zhǔn)誤公式:
檢驗假設(shè):H0:=0,H1:0,=0.05r-0rt=———=——————,Sr
1-r2———n-2________=n-2t=0.6945(1-0.69452)/(10-2)√=2.730=n–2=10–2=8P<0.05結(jié)論:可認(rèn)為該地女中學(xué)生的體重與肺活量有正相關(guān)關(guān)系由例9-1算得,按公式(9-18)
例9-5
對例9-1數(shù)據(jù)(見表9-1),計算8名兒童的尿肌酐含量與其年齡的相關(guān)系數(shù)。例9-6對例9-5所得r值,檢驗?zāi)蚣◆颗c年齡是否有直線相關(guān)關(guān)系?檢驗步驟本例n=8,r=0.8818,按公式(9-19)決定系數(shù)(coefficientofdetermination)
定義為回歸平方和與總平方和之比,計算公式為:(9-23)
取值在0到1之間且無單位,其數(shù)值大小反映了回歸貢獻(xiàn)的相對程度,也就是在Y的總變異中回歸關(guān)系所能解釋的百分比。
五、直線回歸與相關(guān)應(yīng)用的注意事項
1.根據(jù)分析目的選擇變量及統(tǒng)計方法直線相關(guān)用于說明兩變量之間直線關(guān)系的方向和密切程度,X與Y沒有主次之分(反映兩變量的相互關(guān)系)。直線回歸則進(jìn)一步地用于定量刻畫應(yīng)變量Y對自變量X在數(shù)值上的依存關(guān)系(反映兩變量的依存關(guān)系),其中應(yīng)變量的定奪主要依專業(yè)要求而定,可以考慮把易于精確測量的變量作為X,另一個隨機(jī)變量作Y,例如用身高估計體表面積。兩個變量的選擇一定要結(jié)合專業(yè)背景,不能把毫無關(guān)聯(lián)的兩種現(xiàn)象勉強作回歸或相關(guān)分析。2.進(jìn)行相關(guān)、回歸分析前應(yīng)繪制散點圖
(1)
散點圖可考察兩變量是否有直線趨勢;(2)
可發(fā)現(xiàn)離群點(outlier)。
散點圖對離群點的識別與處理需要從專業(yè)知識和現(xiàn)有數(shù)據(jù)兩方面來考慮,結(jié)果可能是現(xiàn)有回歸模型的假設(shè)錯誤需要改變模型形式,也可能是抽樣誤差造成的一次偶然結(jié)果甚至過失誤差。需要認(rèn)真核對原始數(shù)據(jù)并檢查其產(chǎn)生過程認(rèn)定是過失誤差,或者通
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 現(xiàn)場安全工作面試題集
- 2026年中級銀行從業(yè)資格之中級公司信貸考試題庫300道及答案參考
- 2025湖南永州陸港樞紐投資發(fā)展集團(tuán)有限公司招聘工作人員4人考試筆試參考題庫附答案解析
- 2026年(通訊維修工)理論知識考試題庫含答案(綜合卷)
- 團(tuán)隊中的數(shù)據(jù)字典管理考核與評價標(biāo)準(zhǔn)
- 2026年法律法規(guī)考試題庫附答案【典型題】
- 2026年投資項目管理師之宏觀經(jīng)濟(jì)政策考試題庫300道(真題匯編)
- 2026年一級注冊建筑師之建筑材料與構(gòu)造考試題庫500道附參考答案【培優(yōu)a卷】
- 2025福建漳州市龍文城建物業(yè)服務(wù)有限公司招聘若干人筆試考試參考題庫及答案解析
- 2026年心理咨詢師之心理咨詢師基礎(chǔ)知識考試題庫(歷年真題)
- 2025年云南省人民檢察院聘用制書記員招聘(22人)參考筆試題庫及答案解析
- 2026年湖南司法警官職業(yè)學(xué)院單招職業(yè)技能測試題庫及完整答案詳解1套
- 兔年抽紅包課件
- 醫(yī)師證租借協(xié)議書
- 2025年11月國家注冊質(zhì)量審核員(QMS)審核知識考試題(附答案)
- 2025年全國職業(yè)道德理論考試題庫(含答案)
- 沼氣回收合同范本
- 從庫存積壓到爆款頻出:POP趨勢網(wǎng)如何重塑女裝設(shè)計師的工作邏輯1216
- 2025吐魯番市高昌區(qū)招聘第二批警務(wù)輔助人員(165人)考試歷年真題匯編帶答案解析
- DRG支付改革下臨床科室績效優(yōu)化策略
- 2026中央紀(jì)委國家監(jiān)委機(jī)關(guān)直屬單位招聘24人筆試備考題庫含答案解析(奪冠)
評論
0/150
提交評論