版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第十章相關(guān)與回歸
第一節(jié)直線相關(guān)及相關(guān)系數(shù)的顯著性檢驗(yàn)
一、變量之間的兩種關(guān)系
(-)函數(shù)關(guān)系
它反映著現(xiàn)象之間存在著嚴(yán)格的依存關(guān)系。在這種關(guān)系中,對(duì)于
某一變量的每一個(gè)數(shù)值,都有另一變量的確定的值與之對(duì)應(yīng)C例如:
圓面積對(duì)于圓半徑的依存關(guān)系可用一個(gè)確定的公式A二KR2反映
出來。
函數(shù)關(guān)系是確定性的關(guān)系。這種變量的表現(xiàn),都是非隨機(jī)變量。
(二)相關(guān)關(guān)系
相關(guān)關(guān)系是對(duì)隨機(jī)變量而言的。這種關(guān)系的主要特征是:某一現(xiàn)
象的標(biāo)志與另外的標(biāo)志之間存在著一定的依存關(guān)系,但它們不是確定
的和嚴(yán)格依存的。在這種關(guān)系中,對(duì)于某項(xiàng)標(biāo)志的每一個(gè)數(shù)值,可以
有另外標(biāo)志的若干個(gè)數(shù)值與之相適應(yīng),這延緩數(shù)值之間表現(xiàn)出一定的
波動(dòng)性,但又總是圍繞著它們的平均值遵循一定的規(guī)律而變動(dòng)。例如:
1.一般地,身高相同者,體重不一定相同;而身高不同者,體
重卻有可能相同。對(duì)應(yīng)于同一身高的人們,其體重或大或小,不全相
同,而是在所有這些體重的平均值周闈波動(dòng)C
2.速跑(單位:秒)與跳遠(yuǎn)(單位:米)的關(guān)系一例:
30米跑3.73.63.53.93.53.6
跳遠(yuǎn)5.305.555.655.105.255.50
由表中看到,30米跑成績相同的人,跳遠(yuǎn)成績并不相同。但人們知
道,速度與跳遠(yuǎn)的關(guān)系確實(shí)是很密切的,可是此時(shí)不能用一種確定的
數(shù)學(xué)公式來反映這兩個(gè)變量間的相互關(guān)系。類似情形在體育中是大量
存在的,如速度與撐桿跳高,體重與投擲頊目的成績,等等。
當(dāng)研究的兩個(gè)事物或現(xiàn)象之間,既存在著密切的數(shù)量關(guān)系,又不
象函數(shù)關(guān)系那樣,能以一個(gè)變量的值精確地求出另一個(gè)變量的數(shù)值,
這類變量之間的關(guān)系稱為相關(guān)關(guān)系,簡稱相關(guān)。
函數(shù)關(guān)系與相關(guān)關(guān)系在一定條件下可以互相轉(zhuǎn)化。如:因?yàn)檎`差
的存在,函數(shù)關(guān)系在實(shí)際中常以相關(guān)關(guān)系表現(xiàn)出來。而當(dāng)人們對(duì)某些
事物的規(guī)律了解得更深刻、更準(zhǔn)確時(shí),相關(guān)關(guān)系也可以轉(zhuǎn)化為函數(shù)關(guān)
系。
二、相關(guān)系數(shù)的意義
相關(guān)系數(shù)是表示兩個(gè)變量之間直線關(guān)系的密切程度和相關(guān)方向
的一種統(tǒng)計(jì)指標(biāo),用符號(hào)r表示(總體間的相關(guān)系數(shù)用「表示)。
相關(guān)系數(shù)沒有單位。其取值范圍為一1WrW1即|r|Wl。當(dāng)
變量之間的直線關(guān)系越密切,則|r|越接近于1;當(dāng)變量之間的直
線關(guān)系越不密切,|r|越接近于0。
(-)若兩個(gè)變量同時(shí)趨向同一方向變化,即當(dāng)X增加(或減
少),Y相應(yīng)增加(或減少),則稱之為正相關(guān)。此時(shí),OVrVl。
若此時(shí)又有各點(diǎn)都在一條直線上,則稱為完全正相關(guān),r=l。
圖1()—1正相關(guān)
(二)若兩個(gè)變量的變化方向相反,即當(dāng)X增加(或減少)時(shí),
Y卻減少(或增加),則稱為負(fù)相關(guān),此時(shí)一lVr<0。
若此時(shí)各點(diǎn)都在一條直線上,則稱為完全負(fù)相關(guān),r=-lo
(三)當(dāng)X與Y無關(guān)時(shí),Y(或X)的值不受X(或Y)值變
化的影響。此時(shí)r=0,稱為無相關(guān)或零相關(guān)。
Y個(gè)
01---------->xol---------->x
圖10-3零相關(guān)(r=0)的部分情形
零相關(guān)可能是丙變量間確實(shí)沒有關(guān)系;也可能表明兩變量間不存
在線性關(guān)系但有其他某種關(guān)系。另一種特例,雖然各點(diǎn)密集于一條直
線,但呈水平或垂直散布,則仍為零相關(guān)。
”正r二l
(完全相關(guān)Y
〔負(fù)r二-1
線性相關(guān)<
(正OVr<1
相關(guān)關(guān)系{I非完全相關(guān)<
〔負(fù)一IVrVO
〃曲線相關(guān)r=0
,非線性相關(guān)<
、完全無關(guān)r=0
三、相關(guān)系數(shù)的計(jì)算
這里興介紹用積差法求相關(guān)系數(shù)。這是由原始數(shù)據(jù)計(jì)算相關(guān)系數(shù)
的方法,讀者也可仿此法用簡化值計(jì)算。
定義
Llxy
-yLxx*L[.yy
V(x-x)(y-y)
JZ(x—7)2?Z(y—y)2
Zxy.(ZX)產(chǎn)
IZy2-^^]
nn
^xy-nxy
(10—1)
J(Xx2-nx2)(Xy2-ny2)
式中:
2
Lxx=X(x-x)=2>2-②^為X的離均差平方和;
一—n
Lyy=E(y-?)2=2丫2-8匚為y的離均差平方和;
一一n
Lxy=Z(x-x)(y-y)=Zxy_丁、)0丫)為x、y的離均差
一一n
積和。
公式(10—1)的幾個(gè)式子等價(jià),實(shí)際應(yīng)用進(jìn)可根據(jù)具體情況選
用任一個(gè)即可。但最好先將Lxx,Lyy,Lxy計(jì)算出來備用。
例10—1測得某年級(jí)10名學(xué)生的引體向上和30秒俯臥撐
成績?nèi)纾ū?0—1)中,計(jì)算二者的相關(guān)系數(shù)。
表10—1本例相關(guān)系數(shù)計(jì)算表
編號(hào)引體向上(X)30秒俯臥撐(Y)X2Y2X?Y
157254935
26113612166
38106410080
477494949
5101410()196140
669368154
71114121196154
857254935
956253630
1075492535
Z7090530902678
解:(1)列相關(guān)系數(shù)計(jì)算表,如(表10—1)。
(2)計(jì)算相關(guān)系數(shù):
Lxx=立=530--=40
“n10
Lyy=Xy2-(^y)=902-902
=92
…犀n”"m--
^Lxy48
心0.791
"Lxx?LlyyV40x92
例10—2測知7名學(xué)生左手和右手的肌肉力量(千克)如
(表10—2)中,求左、右手力量指標(biāo)的相關(guān)系數(shù)。
表10—27名學(xué)生左、右手力量指標(biāo)相關(guān)系數(shù)計(jì)算表
編號(hào)左手力量X右手力量YX2Y2XY
113.814.2190.44201.64195.96
214.214.9201.64222.()1211.58
312.114.0146.41196169.4
413.015.4169237.16200.2
514.616.0213.16256233.6
617.418.1302.76327.61314.94
715.917.2252.81295.84273.48
z101109.81476.221736.261599.16
解:(1)列相關(guān)系數(shù)計(jì)算表,并求得
=101,Xy=109.8,Xx2=1476.22,
Xy2=1736.26,Zxy=1599.16
(2)計(jì)算相關(guān)系數(shù):
2(X)
Lxx=VX-^=1476.22一里y18.9343
“n7
Lyy==1736.26一理^
y13.9686
n7
(Sx)(Ey)
Lxy=Zxy-
=1599.16-101x109,8心14.9029
7
^Lxy14.9029
口.916
JLxx【LyyV18.9343x13.9686
線性相關(guān)系數(shù)計(jì)算程序
一、程序功能
本程序能夠根據(jù)輸入的m人隨機(jī)變量(XI,X2,……,Xm)的觀
測值(Xkl,xk2,.....,Xkm),k=1,2,........,no求出這m個(gè)隨機(jī)
變量兩兩間的線性相關(guān)系數(shù)。
二、程序中使用的主要符號(hào)說明
N:觀測數(shù)據(jù)的組數(shù);
C:變量的個(gè)數(shù);
R:線性相關(guān)系數(shù);
W:“一”的個(gè)數(shù)(制表用虛線的長度)。
三、程序所依據(jù)的理論計(jì)算公式
n__
E(Xki-xJ(Xkj-Xj)
四、程序名稱:Q0JXG
5REMQ0JXG
10INPUT“n,c,w——“;N,C,W
20OPTIOBASE1
30DIMA(N,C),R(C,C),B(C),C(C),D(C,C)
40FOR1=1TON:FORJ=1TOC
50READA(I,J):NEXTJ:NEXTI
60FORK=1TOC
70B(K)=0:C(K)=0
80NEXTK
90FOR1=1TOC:FORJ=1TON
100B(I)=B(I)+A(J,I)
110C(I)=C(I)+A(J,I)A2
120NEXTJ:NEXTI
130FOR1=1TOC:FOR=K+1TOC
140D(I,J)=0:R(I,J)=0
150NEXTJ:NEXTI
160FORK=1TOC:FORI=K+1TOC:FORJ=1
TON
170D(K,I)=D(K,I)+A(J,K)*A(J,I)
180NEXTJ:NEXTI:NEXTK
190FORK=1TOC:FORI=K+1TOC:FORJ=1
TON
200R(K,I)=(D(K,I)-B(I)*B(K)/N)/SQR((C(K)-B(K)A2/N)
*(C⑴-B(I)A2/N))
210NEXTJ:NEXTI:NEXTK
220GOSUB300:PRINT
230PRINTSPC(5)“R”SPC(5);
240FOR1=2TOC:PRINTI:SPC(IO);
250NEXTI:PRINT:GOSUB300
260FORK=1TOC:PRINTSPC(5)K;
270FORI=K+1TOC:PRINTTAB(12*(I-1);R(K,I);
280NEXTI:PRINT;NEXTK
290GOSUB300:GOTO320
300FOR1=0TOW:PRINT“一”
310NEXTI:PRINT:RETURN
320END
五、例題
試求出上例中的身高、足長、小腿長兩兩間的線性相關(guān)系數(shù)。
解:在程序中使用口尺^語句,按61<1,*1<2/1<3),1<=1,2,……
10的方式輸入數(shù)據(jù)資料:
330DATA21,33,140,20,32,133,20,30,130,19,29,
131,21,32,137
340DATA20,31,133,19,32,135,21,33,138,20,31,
139,21,34,141
RUN
n,c,w-----10,3,40
R23
1.716354.678737
2.810961
3
四、相關(guān)系數(shù)的顯著性檢驗(yàn)
(-)檢驗(yàn)的基本原理
根據(jù)隨機(jī)抽樣得到的樣本資料去計(jì)算相關(guān)系數(shù),與計(jì)算其他統(tǒng)計(jì)
量一樣,存在著抽樣誤差的影響。
在理論上講,若從不存在相關(guān)關(guān)系的總體(P二0)中隨機(jī)抽樣
并且沒有抽樣誤差,則應(yīng)有r=0。但實(shí)際中由于存在著抽樣誤差,
所以常抽到rW0的樣本。同理,rW0也并不能說明有2#0。
因此,不能簡單地由"|的大小去對(duì)隨機(jī)變量x、y之間線性
關(guān)系的密切程度作出判斷。實(shí)際上造成r與p之差的原因有二:
1.rW0的樣本確實(shí)是從「二0的總體中抽得,此時(shí)r與"=0
之差僅僅是由抽樣誤差所致,沒有本質(zhì)的差別;
2.rr0的樣本來自某個(gè)夕#0的總體,此時(shí)顯然r與夕二0
的差別是本質(zhì)性的c為了分清差別是由哪種原因造成的,必須要對(duì)r
進(jìn)行顯著檢驗(yàn)。
檢驗(yàn)的無效假設(shè)為Ho:p=0(即總體中不存在相關(guān)關(guān)系)
(1)若檢驗(yàn)結(jié)果知P(Ho)>a,認(rèn)為r與夕=0的差別無顯著
意義,即相關(guān)系數(shù)r無顯著性。此時(shí),即使|r|值較大,也不能認(rèn)
為隨機(jī)變量x、y是相關(guān)的。
(2)若檢驗(yàn)結(jié)果知P(Ho)Wa,拒絕Ho,認(rèn)為r與P=0的
差別有顯著意義,即相關(guān)系數(shù)r顯著。此時(shí),即使|r|值較小,也
能認(rèn)為隨機(jī)變量x、y相關(guān)的。
只有通過顯著性檢驗(yàn)得知r顯著,才可根據(jù)|r|值的大小去說
明變量x、y相互關(guān)系的密切程度??傊皘r|值較大”和“x、
y相關(guān)”絕不是一回事,要加以注意!
(―)檢驗(yàn)方法
1.檢驗(yàn)
檢驗(yàn)統(tǒng)計(jì)量的公式tr=注二回,其中相關(guān)系數(shù)的標(biāo)準(zhǔn)誤S,二
sr
1—尸
——,在Ho:「=()時(shí),有
n-2
(10-2)
自由度n'=n—2o
例10—3在例10.1中計(jì)算得到相關(guān)系數(shù)r=0.791,試檢驗(yàn)
r是否顯著。
解:(1)無效假設(shè)H。:夕=()
(2)計(jì)算tr值:
.|r|V^20.791x710-2_
Vl-r2V1-0.7912
(3)選取a=0.05,進(jìn)行雙側(cè)檢驗(yàn),自由度n'=n—2=10
-2二8,查t值表(書后附表2)得to.o5(8)=0.306
(4)結(jié)論:Vtr>to.05(8)
???p<0.05,拒絕Ho,認(rèn)為總體相關(guān)系數(shù)P
W0,即r顯著。
這說明r=0.791不象是由抽樣誤差造成的,而是來自pW0
的總體之中。
2.查表法
為使檢驗(yàn)簡便,統(tǒng)計(jì)學(xué)家根據(jù)t分布表求出r的5%和1%的
臨界水平概率P值,表左邊第一列為自由度n'二n—2。計(jì)算出相關(guān)
系數(shù)r并查出臨界值「必治后,可作如下比較判斷:
若》心(吟,則「顯著;
若"I<ra(nf)f則r不顯著。
例10—4在例10.1中算得r=0.791,用雙側(cè)檢驗(yàn)并取a=
0.05,n*=n—2=10—2=8,查表得知to.05⑻=0.632c
Vr=0.791>to,05(8)=0.632
?,?相關(guān)系數(shù)r顯著。
明顯用查表法要快捷得多,建議多采用此法。
查表時(shí)要注意:是用單側(cè)檢驗(yàn),還是雙側(cè)臉驗(yàn)決定于統(tǒng)計(jì)設(shè)計(jì)之時(shí):
而不是在算出r之后。
學(xué)生氏T分布檢驗(yàn)計(jì)算程序
一、程序功能
對(duì)于統(tǒng)計(jì)檢驗(yàn),在不知道其標(biāo)準(zhǔn)差的情況下,可以用T分布檢驗(yàn)
來檢驗(yàn)正態(tài)分布總體的均值。
應(yīng)用本程序時(shí)如按程序所問輸入(三種功能的)功能選擇、樣本
個(gè)數(shù)、元素個(gè)數(shù)和每個(gè)元素值,則程序能自動(dòng)計(jì)算出T值、自由度數(shù)
及其T分布的右尾值(檢驗(yàn)水平)。使用者將右尾值與檢驗(yàn)的顯著性
水平比較,則可得出檢驗(yàn)的結(jié)果。
二、程序中使用的主要符號(hào)說明
T:WHICHHTPOTHESIS程序功能選擇(共三種);
R(I):NRMBEROFELEMENTS元素?cái)?shù);
M:MALUEOFMEAN均值;
ABS(A):T-MALUE所求的T值;
B:DEGREESOFFREEDOM所求的自由度數(shù);
X:RIGHTTAILVALUE右尾值。
三、程序所依據(jù)的主要理論計(jì)算公式
學(xué)生氏T分布檢驗(yàn)法。
四、程序名稱:STUDENTzS-T.TES
5REMSTUDENTfST—TESTPROGRAM
10PRINT“STUDENT'ST—TESTPROGRAM"
20PRINT
30DIMP(20,2),V(12)
40DIMR(2),M(2),D(2)
50PRINT“Testi:Mean=x”
60PRINTuTest2:Mean=mean,Standard,deviation=Standard
deviation,,
70PRINTuTest3:Mean=mean,Standard,deviation<>
Standarddeviation”
80INPUT“whichhypothesis=:T
90PRINTuwhichhypothesis="T
100PRINT
110FOR1=1TOSGN(T-l)+1
120V(I)=0
130D(I)=0
140PRINT“Sample”;「:”
150INPUT"Numberofelements=",U
155R(I)=U
160PRINT“Numberofelements=;R(I)
170FORJ=1TOR(I)
180PRINT“elements”;J;
182INPUTG
185P(J,I)=G
190PRINT“Elements";J,P(J,I)
200V(I)=V(1)+P(J,I)
210D(I)=D(I)+P(J,I)A2
220NEXTJ
230M(I)=V(I)/R(I)
240V(I)=(D(I)-V(I)A2/R(I)/(R(I)-1)
255NEXTI
260PRINT
270IFT=2THEN340
280IFT=3THEN380
300INPUTuValueofmean=M
305PRINT“Valueofmean=9,;M
310A=(M(1)-M)*SQR(R(1)/V(D)
320B=R(1)-1
330GOTO420
340A=(M(1)-M(2))/SQR(1/R(1)+1/R(2))
350B=R(1)+R(2)-2
360A=A/SQR(((R(1)-1)*V(1)+(R(2)-1)*V(2))
/B)
370GOTO420
380A=(M(1)-M(2))/SQR(V(1)/R(1)+V(2)/R(2))
390B=(V(1)/R(1)+V(2)/R(2))A2
400B=B/((V(1)/R(1)A2(R(1)+V(2)/R(2))A2/
(R(2)+D)-2)
410B=INT(B+.5)
420PRINT
430PRITNUT—Value=9,;ABS(A)
440PRITN“Degreesoffreedom=";B
450T=ABS(A)
460D=B
470X=1
480Y=1
490T=TA2
500IFT<1THEN550
510S=Y
520R=D
530Z=T
540GOTO580
550S=D
560R=Y
570Z=1/T
580J=2/(9*S)
590K=2/(9*R)
600L=ABS((1-K)*ZA1/3)-1+J)/SQR(K*Z八(2/3)
+J)
610IFR<4THEN650
620X=.5/(1+L*(.196854+L*(.115194+L*(.000344+L
*.019527))))A4
630X=INT(X*10000+.5)/10000
640GOTO620
650L=L*(l+.08+LA4/RA3)
660GOTO620
670IFT>=1THEN690
680X=1-X
690PRINT“Righttailvalue=";X
700END
五、例題
(一)設(shè)某運(yùn)動(dòng)員的200米跑的成績服從正態(tài)分布。其中抽測6
次的成績(單位:秒)如下:24.7,23.5,22.2,23.0,24.4,22.6。
能否認(rèn)為該運(yùn)動(dòng)員200米跑的成績?yōu)?3.2秒?(取顯著性水平a二
0.05)
解:無效假設(shè)Ho:〃=23.2秒
RUN
STUDENTzST—TESTPROGRAM
Test1:Mean=x
Test2:Mean=Mean,Standarddeviation=Standarddeviation
Test3:Mean=Mean,Standarddeviation<>Standarddeviation
Whichhypothesis=1
Sample1:
Numberofelements=6
Elements124.7
Elements223.5
Elements322.2
Elements423
Elements524.4
Elements622.6
Valueofmean=23.2
T—Value=.492869
Degreesoffreedom=5
Righttailvalue=.6584
???右尾值=0.6584大于a值
???〃二23.2秒的假設(shè)未被否定。即可用23.2秒作為該運(yùn)動(dòng)員
200米跑成績的代表。
(二)采用兩種試驗(yàn)方法進(jìn)行同一種試驗(yàn),分別獲得試驗(yàn)數(shù)據(jù)如
T:___________________________________________________________
A1613121510nA=5
B879657NB=5
試用T檢驗(yàn)法檢驗(yàn)這兩種方法獲得的試驗(yàn)數(shù)據(jù)是否有顯著性差異?
(總體的峭=端未知,a=0.05)
解:無效假設(shè)Ho:"A-NB
RUN
STUDENT'ST—TESTPROGRAM
Test1:Mean=x
Test2:Mean=Mean,Standarddeviation=Standarddeviation
Test3:Mean=Mean,Standarddeviation<>Standarddeviation
Whichhypothesis=2
Sample1:
Numberofelements=5
Elements116
Elements213
Elements312
Elements415
Elements510
Sample2:
Numberofelements=6
Elements18
Elements27
Elements39
Elements46
Elements55
Elements67
T-Value=5.3634
Degreesoffreedom=9
Righttailvalue=.003
???右尾值=0.003小于a值
="“的假設(shè)未被否定。即這兩種實(shí)驗(yàn)方法獲得的試
驗(yàn)數(shù)據(jù)有顯著性差異。
(三)下列資料為兩家電影公司的體育紀(jì)錄影片放映時(shí)間:
公司名稱時(shí)間(分)
公司I102869810992
公司H81165971349287114
試檢驗(yàn)公司I與公司n的體育紀(jì)錄影片的平均放映時(shí)間是否有顯著
性差異?(兩總體的方差不等,a=0.05)
解:無效假設(shè)Ho://I=〃ii
RUN
STUDENT'ST--TESTPROGRAM
Test1:Mean=x
Test2:Mean=Mean,Standarddeviation=Standarddeviation
Test3:Mean=Mean,Standarddeviation<>Standarddeviation
Whichhypothesis=3
Sample1:
Numberofelements==5
Elements1102
Elements286
Elements398
Elements4109
Elements592
Sample2:
Numberofelements==7
Elements181
Elements2165
Elements397
Elements4134
Elements592
Elements687
Elements7114
:右尾值=0.3232小于a值
/.//i=4n的假設(shè)未被否定。即這兩家電影公司的體育紀(jì)
錄影片的平均放映時(shí)間沒有顯著性差異。
第二節(jié)一元線性回歸分析
一、一元線性回歸的意義
經(jīng)過相關(guān)分析后,確認(rèn)為兩個(gè)變量之間具有較密切的直線相關(guān)關(guān)
系時(shí),期望著能找到兩個(gè)變量之間存在的數(shù)量關(guān)系,即找到一個(gè)最適
宜的數(shù)學(xué)表達(dá)式,用函數(shù)關(guān)系來描述兩變量的關(guān)系。這就要借助于回
歸分析的方法。
(-)回歸分析方法是一種處理變量的相關(guān)關(guān)系的方法
它主要是把兩個(gè)或兩個(gè)以上變量之間的變動(dòng)關(guān)系,加以模型化,
求現(xiàn)回歸方程來,以便進(jìn)行估計(jì)推算。
兩個(gè)變量之間的回歸分析稱為一元回歸分析,三個(gè)以上變量之間
的回歸分析稱為多元回歸分析。
“回歸”一詞所表示的實(shí)質(zhì)意義是:任何變異的東西總有趨向平
穩(wěn)、一般的勢頭。對(duì)于一組樣本觀察數(shù)據(jù)(X”y。,(X2,y2),..........
(Xn,yn)來說,總有一個(gè)穩(wěn)定點(diǎn)在起作用,這個(gè)穩(wěn)定點(diǎn)就是n個(gè)樣
本觀察值的幾何重心(口飛),而通過(丸Q)點(diǎn)的穩(wěn)定軸線便稱
為回歸線。
(二)回歸分析主要解決以下幾方面的問題
1.分析一組數(shù)據(jù),確定個(gè)變量之間是否存在相關(guān)關(guān)系;如果
存在的話,找出它們之間最合適的數(shù)學(xué)關(guān)系式,即回歸方程。
2.對(duì)變量關(guān)系式中的參數(shù)進(jìn)行估計(jì)和統(tǒng)計(jì)檢驗(yàn),分析影響因素
與預(yù)測目標(biāo)之間的關(guān)系強(qiáng)弱和影響程度,確定諸變量中哪些是主要影
響因素,哪些是次要因素以及它們之間的關(guān)系。
3.根據(jù)求得的回歸方程和自變量的值,預(yù)測因變量未來的取值,
并分析預(yù)測結(jié)果的誤差范圍和精度。
(三)要注意的問題
一般地,有相關(guān)關(guān)系的變量都不是從屬的因果關(guān)系,即分不清誰
是自變量,誰是因變量。而作回歸分析時(shí),一定要先根據(jù)研究目的確
定哪個(gè)是自變量。這里,要求因變量是隨機(jī)的,而自變量不是隨機(jī)的,
是給定的數(shù)值。求出回歸方程后,也是將給定的自變更值代入方程中,
去求得估計(jì)的因變量值,這個(gè)估計(jì)值不只是一個(gè)確定的數(shù)值,而是許
多可能數(shù)值的平均數(shù)。因此,可以計(jì)算估計(jì)值的標(biāo)準(zhǔn)差。
綜上所述,可知“相關(guān)”與“回歸”的區(qū)別主要在于:
1.相關(guān)關(guān)系是互相的,是結(jié)等的,不是一種從屬的因果關(guān)系。
我們只是去研究相關(guān)的密切程度。
2.回歸分析是研究從屬的因果關(guān)系,有已知變量,依此推測未
知變量。(一個(gè)是非隨機(jī)變量,一個(gè)是隨機(jī)變量。)
(四)研究兩變量關(guān)系時(shí)的一般程序
1.先根據(jù)n對(duì)數(shù)據(jù)在直角坐標(biāo)系xoy中作散點(diǎn)圖,由直觀上看
無成直線分布的趨勢。
2.若兩個(gè)變量只有直線相關(guān)關(guān)系時(shí),需進(jìn)一步由一個(gè)變量(自
變量x)的值來推測另一個(gè)變量(因變量y)的值,這就需要作直
線回歸分析。
3.直線回歸的任務(wù)是建立描述兩變量之間關(guān)系的回歸方程。這
個(gè)方程用
y=a+bx(10—3)
表示,其中,是y的估計(jì)值。
方程y=a+bx所表示的直線,是n個(gè)散點(diǎn)的一條擬合直線,
稱為回歸直線。它是針對(duì)散點(diǎn)圖找出的一條能代表兩變量x與y之
間關(guān)系的最佳直線c“配線”原則是:使各點(diǎn)與這條直線的縱向距離
最近。由數(shù)學(xué)意義上說,即使離差y-y的平方和Z(y-9)2達(dá)
到最小。若令Q=£(y-9)2,即稱之為剩余平方和。
這樣,根據(jù)數(shù)學(xué)上的“最小二乘原理”,求回歸方程y=a-bx
的問題就歸結(jié)為求使Q=£(y-y)2取得最小值時(shí)的a和b的問
題了。
在回歸方程?二a+bx中,把b稱為回歸系數(shù)。因?yàn)閎反映
兩個(gè)變量X與y之間的數(shù)量關(guān)系。b可正可負(fù),與r的符號(hào)一致。
a稱為截距。
二、一元線性回歸方程的求法
例10—5仍以例10—1的資料為例,說明求由引向上指標(biāo)
x推測30秒俯臥撐y的回歸方程的具體步驟。
(一)列計(jì)算表同表10—1o
(二)求回歸系數(shù)b
.xv(Zx)(Zy)—
b=j二二―=Zxy-吩(10_4)
LXX)2_(ZX)2>2一”
本例:由上節(jié)已知Lxx=4(),Lxy=48代入公式(10—4)得
(三)求截距a
a=y—bx(10—5)
本例:x==—=7
n10
-Zy90
y=二=—=yo
n10
/.a=y—bx=9—1.2=0.6
(四)列出回歸方程
y=0.6+1.2x
注意:回歸方程9=a+bx是根據(jù)x、y之間的相關(guān)關(guān)系建立的,
不是確定性的函數(shù)關(guān)系,因此不可根據(jù)這個(gè)方程進(jìn)行逆推由y求出
XO
要想由y推測x值必須另建立回歸方程。其中:
x=a,+b,y(10—6)
b'=xy(10—7)
az=x-b*y(10—8)
由上可推知r與b,bf之間的關(guān)系:
b.b,=L(Lxy),
T.T
LXXLyyJxx匚yy
Ar=±Yb?b,(10—9)
公式(10—9)中,正、負(fù)的取舍決定于“r與b的符號(hào)是否一
致二
在上例中,b=1.2,而
b=Ld=—=0.522
Lxx92
Ar=4bly=V1.2x0.522處0.791
這與上節(jié)中求出的r一致。
三、一元線性回歸方程的評(píng)價(jià)
(-)回歸問題的方差分析
直線回歸方程在一定程度上提示了兩個(gè)相關(guān)變量x,y之間的
內(nèi)在規(guī)律,但一個(gè)回歸方程所揭示的規(guī)律性強(qiáng)不強(qiáng)?回歸效果如何?
怎樣利用回歸方程由自變量x的取值預(yù)測因變量y的取值?預(yù)測的
精度如何?等等,這些都需要進(jìn)一步地分圻。
1.離差平方和的分解
由于受x值變化的影響和受其他因素的影響,因變量y是有變
異的,即y的值是有波動(dòng)的。Y值的這種波動(dòng)稱為變差,用觀測值
y與其平均數(shù)、的離均差y-Q來表示。全部n次觀測值的總變差
由這些離均差的平方和Lyy=Z(y-7)2來表示,它稱為y的總離
差平方和。(圖10—4)
圖10—4總離差分解示意圖
由(圖10—4)可知,每個(gè)觀測點(diǎn)的離差y一7可分解成
y-y=(y-y)+(y-y)
把上式兩邊同時(shí)平方之后,對(duì)所有n點(diǎn)求和,有:
Z(y-y)2=Et(y-y)+(y-y)]2
=E(y-y)2+Z(y-y)2+2^(y-y)(y-y)]
可證上式右邊最后一項(xiàng)X(y-yMy-y)J二°,故
Z(y-y)2=Z(y-y)2+L(y_y)?(io—io)
公式(10—io)右邊第二項(xiàng)是估計(jì)值y離差的平方和,根據(jù)
回歸方程y=a+bx,可以把y—y[=b(X—X)]看做是由于x
的變化所引起的,因此反映了在y的總變差中由于x與y
的直線回歸關(guān)系而引起的y的變化部分,稱之為回歸平方和,記作
u=?y)~。
一9
公式(io—io;右邊第一項(xiàng)z(V-y),是每個(gè)觀測點(diǎn)距回去
歸直線的殘關(guān)匠平方和,它反映的是除了x對(duì)y的線性影響之外的
一切因素(包括X對(duì)y的非直線關(guān)系的影響及觀測誤差等)對(duì)y的
影響部分,稱為剩余平方和,記作Q=2L(y-y)2o
故有
Lyy=U+Q(10—11)
在實(shí)際計(jì)算中,U及Q并不是由定義形式去計(jì)算的,由于已知
回歸系數(shù)b,則:
U=£(y-yf=Z(a+bx—a—b7)2
=b2X(x-x)*^=b2Lxx
二b?-Lxx=bLxy(10—12)
LxX
Q=Lyy—U二Lyy—bLxy(1()—13)
又:由U及Q的意義可知,U在總平方和Lyy中所占的比例『L
Lyy
2
越大,回歸效果越好。而旦==(Lxy)二產(chǎn)
LyyLyyLxx'Lyy
2
AU=rLyy(10—14)
2
Q=Lyy-U=(l-r)Lyy(10—15)
通過以上關(guān)系式,可看到|r|越大,回歸效果越好??蛇M(jìn)一步
理解相關(guān)系數(shù)的意義。
2.自由度
在回歸問題中:Lyy的自由度N=n-l
U的自由度n「=k=1
Q的自由度ni1-n—k—1=n—2
rT=n「+n2'(10一16)
式中:k是自變量的個(gè)數(shù)。一元線性回歸中k=l。
3.剩余標(biāo)準(zhǔn)差(估計(jì)標(biāo)準(zhǔn)誤差)
剩余平方和Q除以它的自由度n—2所得之商的算術(shù)平方根為:
SJ=J—(10—17)
Vn-2
SJ稱為剩余標(biāo)準(zhǔn)差,它可以用來衡量所有隨機(jī)因素對(duì)y的一次
觀測值的平均變化差的大小。S/的單位與Y的單位相同。
SJ越小,則所有觀察點(diǎn)越靠近回歸線;Sy'越大,則所有觀察
點(diǎn)離回去歸線越遠(yuǎn)??梢娺@一指標(biāo)從另一側(cè)面反映了線性關(guān)系的密切
程度。
以上這種把平方和與自由度進(jìn)行分解的方法,稱為回歸問題的方
差分析法。
表10—3一元線性回歸的方差分析表
變差來源平方和自由度均方F值
回歸U=bLxy1U
(n-2)U
Q
剩余Q=Lyy—bLyn-2QQ
Xn-2
總計(jì)Lyy=U+Qn—1
例10—6資料同例10—1,已求出回歸方程g=0.6+L2x,
作回歸問題的方差分析。(a=0.05)
解:可作Ho:回歸效果不顯著。
已知Lxx=40,Lyy=92,Lxy=48,n=10,b=1.2
Q=bLxy=1.2x48=57.6
Q=Lyy-U=92-57.6=34.4
nz=n-1=10-1=9
nT=1
r)2'=n—2=10—2=8
表10—4本例的方差分析表
變差來源平方和自由度均方F值
回歸57.6757.6
13.395
剩余34.484.3
總計(jì)929
取a=0.05,n?f=1,ri2‘=8查知F0.05(i.8)=5.32
,**F>Fo,05(1,8)
???P(Ho)<O.O5,拒絕Ho,說明回歸效果顯著。
(二)根據(jù)回歸方程預(yù)測值
運(yùn)用分二a+bx求得的y并不是實(shí)際值,而是回歸估計(jì)值,
通常稱為點(diǎn)估計(jì)。僅僅求出y的實(shí)際意義并不大,因?yàn)殡S著現(xiàn)實(shí)情
況的變化和各種因素的影響,預(yù)測目標(biāo)的實(shí)際值總會(huì)同預(yù)測值有或大
或小的偏移。所以,不僅要求出y的預(yù)測值,并且還應(yīng)知道實(shí)際的
值可能偏離預(yù)測值的范圍,也就是要知道預(yù)測的精度如何?這樣的范
圍常用區(qū)間的形式給出,稱為預(yù)測區(qū)間。
一般地,對(duì)于某個(gè)確定的x=x0,實(shí)際對(duì)應(yīng)的Y值是在y=a+
bx附近波動(dòng)的,且服從正態(tài)分布。它的平均數(shù)就是當(dāng)x=x。時(shí)回歸
方程的相應(yīng)值yo=a+bxo,其方差可用剩余方差SJ來估計(jì)。
干是,根據(jù)正態(tài)分布的性質(zhì),對(duì)干固定的x=x。,y的取值是以
V。為中心而對(duì)稱分布的,而且與剩余標(biāo)準(zhǔn)差SJ之間有下關(guān)系:
y值落在go土Sy'區(qū)間內(nèi)的概率約為68%
y值落在g°±L96Sy'區(qū)間內(nèi)的概率約為95%
y值落在yo±2.58Sy"區(qū)間內(nèi)的概率約為99%
由上可見,SJ越小,則由回歸方程預(yù)y值就越精確。因此,SJ是
預(yù)測精確度的標(biāo)志。
例10.7資料同例1().1:
若已知x0=9,則預(yù)測y值:
yo=O.6+1.2x9=11.4
預(yù)測的95%置信區(qū)間是
,1
y0±1.96Sy=11.411.96x2.07=即(7.3,15.5)。
由此可預(yù)測與X。=9對(duì)應(yīng)的全部y值落在區(qū)間(73.3,15.5)之內(nèi)
的概率約是95%o
注意:用回歸方程作預(yù)測的適用范圍一般僅局限于原來自變量變
動(dòng)的范圍,而不能隨意外推!
(四)、相關(guān)與回去歸在實(shí)際應(yīng)月時(shí)應(yīng)注意的問題
(一)當(dāng)目的在于確定兩個(gè)變量之間關(guān)系的性質(zhì)(例如確定它們
之間是否有線性關(guān)系),以便對(duì)給定的X值預(yù)測最可能的y值時(shí),
回歸分析是一種較好的技術(shù)。但如果只對(duì)估計(jì)兩個(gè)變量之間關(guān)系的強(qiáng)
度感興趣。那么用相關(guān)分析就夠了。
(二)相關(guān)系數(shù)的顯著性水平與相關(guān)的密切程度雖然有聯(lián)系,但
絕不是一回事。顯著性達(dá)到0.05,只說明有95%的可能存在相關(guān),
有5%的可能估計(jì)不準(zhǔn),不存在相關(guān)。不能誤認(rèn)為顯著性水平越高,
相關(guān)系數(shù)就越大,或線性關(guān)系就越密切。
(三)對(duì)于不存在相互聯(lián)系的事物,不要勉強(qiáng)做出沒有意義的相
關(guān)和回歸。例如人的年齡秘樹的樹齡,也可能可以作出“正相關(guān)”的
情況,但沒有實(shí)際意義。
(四)只有在相關(guān)系數(shù)r顯著且|r|較大時(shí),計(jì)算回歸方程才
具有一定的實(shí)用意義。
回歸分析的計(jì)算中以數(shù)據(jù)為依據(jù)。田賽成績越好數(shù)值越大,但徑
賽成績越好數(shù)值(時(shí)間數(shù))越小,故兩者往往呈負(fù)相關(guān)。因此在計(jì)算
回歸方程時(shí),相關(guān)系數(shù)按負(fù)值代入。
(五)相關(guān)分析要求X和Y皆為連續(xù)隨機(jī)變量:但回歸分析的
應(yīng)用范圍較廣,它不要求兩個(gè)變量都是隨機(jī)變量。人們常常是“控制”
了一個(gè)變量,這個(gè)被控制的變量即是自變量。
(六)回歸推測方程式只適用于樣本數(shù)據(jù)的最大值和最小值兩極
的范圍內(nèi)?!巴馔啤钡淖龇ǎ锌赡軒砦kU(xiǎn)的后果。因?yàn)樵谀硞€(gè)區(qū)
間之內(nèi),兩個(gè)變量之間的關(guān)系可以是線性關(guān)系,但在這一區(qū)間之則它
只能對(duì)總體提供有限的代表性。而把這一樣本的結(jié)果擴(kuò)展到它所代表
的區(qū)間之外,就有可能導(dǎo)致錯(cuò)誤的結(jié)論。如(圖10—5)所示,便
是一種可能的外推陷井。
第三節(jié)二元線性回歸分析介紹
先簡單回顧一元回歸分析的大致內(nèi)容:
(1)數(shù)學(xué)模型:y=a+4x+e
萬一總體中的相關(guān)系數(shù);
£一誤差,一般服從正態(tài)分布。
給出一組觀測數(shù)據(jù)(X|,y1),(X2,y2),......,(Xn,yn),
有yi二a+Qxi+ci,y2=0+^x2+£2,......,yn=cr+/?xn
+£n,其中:£1,£2,......,£n~N(0,CT2)
(2)建立回歸方程:y=a+bx
用最小二乘法(使Q取最小值)求出a,b即a,£的估計(jì)值。
n__
I£(Xj-x)(ys-y)
b=,=-----_——
LxxX(xi-x)2
i=l
a=y—bx
(3)回歸方程檢驗(yàn)
Ho:。二0(假設(shè)總體中相關(guān)系數(shù)為0)
因?yàn)槿簟?0,則y為常數(shù);若0,則x與y有線性關(guān)系。
所以檢驗(yàn)回歸方程顯著性一般檢驗(yàn)夕是否等于0?
檢驗(yàn)統(tǒng)計(jì)量(方差分析):
U
F=—^—?F(1,n—2)
n-2
重要的平方和分解公式:
Lyy=U+Q
①若F>F](臨界值),則否定Ho,說明夕W(),x與y之間
圖10—6
②若F>F”則可接受Ho,或可說是“相容”的。
(4)相關(guān)系數(shù)
r=Lxy
JLxx.LXy
(5)預(yù)測問題
s/=J旦并利用正態(tài)分布的理論。
以上所述的兩個(gè)變量,其中因變量y只與一個(gè)自變量x有關(guān)。
但在客觀現(xiàn)象當(dāng)中,各事物之間的聯(lián)系和制約是廣泛的、相互的,一
個(gè)事物的變化是受許多因素影響的。為了分析研究這諸多因素(Xi)
相互間的關(guān)系,以及對(duì)某一事物(y)的關(guān)系,數(shù)理統(tǒng)計(jì)給出了“多
元分析”的方法。
多元分析方法是科學(xué)研究中常用的統(tǒng)計(jì)方法。它比單因素分析更
能揭示事物的本質(zhì)和內(nèi)在的聯(lián)系。但由于多元分析方法較復(fù)雜,而且
計(jì)算量大,所以多用計(jì)算機(jī)計(jì)算。至于實(shí)際應(yīng)用,關(guān)鍵是掌握處理方
法和操作計(jì)算機(jī)的技術(shù)。因?yàn)榇蟛糠侄嘣治龇椒ǘ家延杏?jì)算機(jī)計(jì)算
程序。這將為實(shí)際計(jì)算帶來方便并節(jié)省大量時(shí)間。
由于課時(shí)限制等原因,這里只介紹“二元線性回歸分析”的基本
內(nèi)容。
研究兩個(gè)變量與一個(gè)因變量的線性相關(guān)關(guān)系的統(tǒng)計(jì)方法稱為二
元性回歸分析方法。二元線性回歸的原理與一元線性回歸相同,只是
在計(jì)算等方面有復(fù)雜許多。今后若能把二元線性回歸的理論和方法進(jìn)
一步推廣,就可解決多元線性回歸的問題了。
一、求二元線性回歸方程
二元線性回歸方程的一般形式是
y=bo+bixi+b2X2(10一18)
求b。,bI,b2之值的原則是應(yīng)用最小二乘法,求使剩余平方和
Q=Z(y-9)2達(dá)到最小值時(shí)的bo,bi,b2之值。即解方程組
'票=0
<
建=0(i=?,2)
得其解為b0,b1,b2的估計(jì)值。
我們課上的具體求法是解正規(guī)方程:
廠
=
L11b1+L[2b2Liv
v111122_ly(10—19)
b]+L22b2=L2y
求得bo,bl,b2的值。
公式(10—19)中:
Lij=Lji=£(Xi—xi)(xj-xj)
=Zxixj--(Zxi)(SXj)(10—20)
(i,j=l,2)
Liy二工⑸-xi)(y-y)
=Xxiy--(Zxi)(Xy)(10—21)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 網(wǎng)主機(jī)合同范本
- 簽訂回收協(xié)議書
- 碰車解決協(xié)議書
- 米酒加工協(xié)議書
- 簽訂陪伴協(xié)議書
- 續(xù)簽協(xié)議書樣本
- 商品購貨合同范本
- 簽軟件合同范本
- 美國民眾協(xié)議書
- 網(wǎng)絡(luò)安全運(yùn)維工程師面試題庫含答案
- 噴涂角度對(duì)鋁-銅接觸件冷噴涂銅防護(hù)涂層結(jié)構(gòu)形成及耐蝕性能的影響
- 2023版河北高職單招真題匯編與標(biāo)準(zhǔn)模擬-語文
- 刷白 樹干施工方案
- 空氣能熱泵中央熱水系統(tǒng)調(diào)試
- GB/T 45542-2025工業(yè)鍋爐綜合能效評(píng)價(jià)技術(shù)規(guī)范
- 下肢淋巴水腫的管理實(shí)踐
- QC提高高速公路鐓粗直螺紋鋼筋接頭驗(yàn)收合格率QC成果
- JJF2085-2023低頻角加速度臺(tái)校準(zhǔn)規(guī)范
- 北京麥田房產(chǎn)合同范本
- 《校園欺凌現(xiàn)象與學(xué)校社會(huì)工作干預(yù)的探索》14000字論文
- 交款合同范本
評(píng)論
0/150
提交評(píng)論