第十章 相關(guān)與回歸 體育統(tǒng)計(jì)學(xué)_第1頁
第十章 相關(guān)與回歸 體育統(tǒng)計(jì)學(xué)_第2頁
第十章 相關(guān)與回歸 體育統(tǒng)計(jì)學(xué)_第3頁
第十章 相關(guān)與回歸 體育統(tǒng)計(jì)學(xué)_第4頁
第十章 相關(guān)與回歸 體育統(tǒng)計(jì)學(xué)_第5頁
已閱讀5頁,還剩49頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第十章相關(guān)與回歸

第一節(jié)直線相關(guān)及相關(guān)系數(shù)的顯著性檢驗(yàn)

一、變量之間的兩種關(guān)系

(-)函數(shù)關(guān)系

它反映著現(xiàn)象之間存在著嚴(yán)格的依存關(guān)系。在這種關(guān)系中,對(duì)于

某一變量的每一個(gè)數(shù)值,都有另一變量的確定的值與之對(duì)應(yīng)C例如:

圓面積對(duì)于圓半徑的依存關(guān)系可用一個(gè)確定的公式A二KR2反映

出來。

函數(shù)關(guān)系是確定性的關(guān)系。這種變量的表現(xiàn),都是非隨機(jī)變量。

(二)相關(guān)關(guān)系

相關(guān)關(guān)系是對(duì)隨機(jī)變量而言的。這種關(guān)系的主要特征是:某一現(xiàn)

象的標(biāo)志與另外的標(biāo)志之間存在著一定的依存關(guān)系,但它們不是確定

的和嚴(yán)格依存的。在這種關(guān)系中,對(duì)于某項(xiàng)標(biāo)志的每一個(gè)數(shù)值,可以

有另外標(biāo)志的若干個(gè)數(shù)值與之相適應(yīng),這延緩數(shù)值之間表現(xiàn)出一定的

波動(dòng)性,但又總是圍繞著它們的平均值遵循一定的規(guī)律而變動(dòng)。例如:

1.一般地,身高相同者,體重不一定相同;而身高不同者,體

重卻有可能相同。對(duì)應(yīng)于同一身高的人們,其體重或大或小,不全相

同,而是在所有這些體重的平均值周闈波動(dòng)C

2.速跑(單位:秒)與跳遠(yuǎn)(單位:米)的關(guān)系一例:

30米跑3.73.63.53.93.53.6

跳遠(yuǎn)5.305.555.655.105.255.50

由表中看到,30米跑成績相同的人,跳遠(yuǎn)成績并不相同。但人們知

道,速度與跳遠(yuǎn)的關(guān)系確實(shí)是很密切的,可是此時(shí)不能用一種確定的

數(shù)學(xué)公式來反映這兩個(gè)變量間的相互關(guān)系。類似情形在體育中是大量

存在的,如速度與撐桿跳高,體重與投擲頊目的成績,等等。

當(dāng)研究的兩個(gè)事物或現(xiàn)象之間,既存在著密切的數(shù)量關(guān)系,又不

象函數(shù)關(guān)系那樣,能以一個(gè)變量的值精確地求出另一個(gè)變量的數(shù)值,

這類變量之間的關(guān)系稱為相關(guān)關(guān)系,簡稱相關(guān)。

函數(shù)關(guān)系與相關(guān)關(guān)系在一定條件下可以互相轉(zhuǎn)化。如:因?yàn)檎`差

的存在,函數(shù)關(guān)系在實(shí)際中常以相關(guān)關(guān)系表現(xiàn)出來。而當(dāng)人們對(duì)某些

事物的規(guī)律了解得更深刻、更準(zhǔn)確時(shí),相關(guān)關(guān)系也可以轉(zhuǎn)化為函數(shù)關(guān)

系。

二、相關(guān)系數(shù)的意義

相關(guān)系數(shù)是表示兩個(gè)變量之間直線關(guān)系的密切程度和相關(guān)方向

的一種統(tǒng)計(jì)指標(biāo),用符號(hào)r表示(總體間的相關(guān)系數(shù)用「表示)。

相關(guān)系數(shù)沒有單位。其取值范圍為一1WrW1即|r|Wl。當(dāng)

變量之間的直線關(guān)系越密切,則|r|越接近于1;當(dāng)變量之間的直

線關(guān)系越不密切,|r|越接近于0。

(-)若兩個(gè)變量同時(shí)趨向同一方向變化,即當(dāng)X增加(或減

少),Y相應(yīng)增加(或減少),則稱之為正相關(guān)。此時(shí),OVrVl。

若此時(shí)又有各點(diǎn)都在一條直線上,則稱為完全正相關(guān),r=l。

圖1()—1正相關(guān)

(二)若兩個(gè)變量的變化方向相反,即當(dāng)X增加(或減少)時(shí),

Y卻減少(或增加),則稱為負(fù)相關(guān),此時(shí)一lVr<0。

若此時(shí)各點(diǎn)都在一條直線上,則稱為完全負(fù)相關(guān),r=-lo

(三)當(dāng)X與Y無關(guān)時(shí),Y(或X)的值不受X(或Y)值變

化的影響。此時(shí)r=0,稱為無相關(guān)或零相關(guān)。

Y個(gè)

01---------->xol---------->x

圖10-3零相關(guān)(r=0)的部分情形

零相關(guān)可能是丙變量間確實(shí)沒有關(guān)系;也可能表明兩變量間不存

在線性關(guān)系但有其他某種關(guān)系。另一種特例,雖然各點(diǎn)密集于一條直

線,但呈水平或垂直散布,則仍為零相關(guān)。

”正r二l

(完全相關(guān)Y

〔負(fù)r二-1

線性相關(guān)<

(正OVr<1

相關(guān)關(guān)系{I非完全相關(guān)<

〔負(fù)一IVrVO

〃曲線相關(guān)r=0

,非線性相關(guān)<

、完全無關(guān)r=0

三、相關(guān)系數(shù)的計(jì)算

這里興介紹用積差法求相關(guān)系數(shù)。這是由原始數(shù)據(jù)計(jì)算相關(guān)系數(shù)

的方法,讀者也可仿此法用簡化值計(jì)算。

定義

Llxy

-yLxx*L[.yy

V(x-x)(y-y)

JZ(x—7)2?Z(y—y)2

Zxy.(ZX)產(chǎn)

IZy2-^^]

nn

^xy-nxy

(10—1)

J(Xx2-nx2)(Xy2-ny2)

式中:

2

Lxx=X(x-x)=2>2-②^為X的離均差平方和;

一—n

Lyy=E(y-?)2=2丫2-8匚為y的離均差平方和;

一一n

Lxy=Z(x-x)(y-y)=Zxy_丁、)0丫)為x、y的離均差

一一n

積和。

公式(10—1)的幾個(gè)式子等價(jià),實(shí)際應(yīng)用進(jìn)可根據(jù)具體情況選

用任一個(gè)即可。但最好先將Lxx,Lyy,Lxy計(jì)算出來備用。

例10—1測得某年級(jí)10名學(xué)生的引體向上和30秒俯臥撐

成績?nèi)纾ū?0—1)中,計(jì)算二者的相關(guān)系數(shù)。

表10—1本例相關(guān)系數(shù)計(jì)算表

編號(hào)引體向上(X)30秒俯臥撐(Y)X2Y2X?Y

157254935

26113612166

38106410080

477494949

5101410()196140

669368154

71114121196154

857254935

956253630

1075492535

Z7090530902678

解:(1)列相關(guān)系數(shù)計(jì)算表,如(表10—1)。

(2)計(jì)算相關(guān)系數(shù):

Lxx=立=530--=40

“n10

Lyy=Xy2-(^y)=902-902

=92

…犀n”"m--

^Lxy48

心0.791

"Lxx?LlyyV40x92

例10—2測知7名學(xué)生左手和右手的肌肉力量(千克)如

(表10—2)中,求左、右手力量指標(biāo)的相關(guān)系數(shù)。

表10—27名學(xué)生左、右手力量指標(biāo)相關(guān)系數(shù)計(jì)算表

編號(hào)左手力量X右手力量YX2Y2XY

113.814.2190.44201.64195.96

214.214.9201.64222.()1211.58

312.114.0146.41196169.4

413.015.4169237.16200.2

514.616.0213.16256233.6

617.418.1302.76327.61314.94

715.917.2252.81295.84273.48

z101109.81476.221736.261599.16

解:(1)列相關(guān)系數(shù)計(jì)算表,并求得

=101,Xy=109.8,Xx2=1476.22,

Xy2=1736.26,Zxy=1599.16

(2)計(jì)算相關(guān)系數(shù):

2(X)

Lxx=VX-^=1476.22一里y18.9343

“n7

Lyy==1736.26一理^

y13.9686

n7

(Sx)(Ey)

Lxy=Zxy-

=1599.16-101x109,8心14.9029

7

^Lxy14.9029

口.916

JLxx【LyyV18.9343x13.9686

線性相關(guān)系數(shù)計(jì)算程序

一、程序功能

本程序能夠根據(jù)輸入的m人隨機(jī)變量(XI,X2,……,Xm)的觀

測值(Xkl,xk2,.....,Xkm),k=1,2,........,no求出這m個(gè)隨機(jī)

變量兩兩間的線性相關(guān)系數(shù)。

二、程序中使用的主要符號(hào)說明

N:觀測數(shù)據(jù)的組數(shù);

C:變量的個(gè)數(shù);

R:線性相關(guān)系數(shù);

W:“一”的個(gè)數(shù)(制表用虛線的長度)。

三、程序所依據(jù)的理論計(jì)算公式

n__

E(Xki-xJ(Xkj-Xj)

四、程序名稱:Q0JXG

5REMQ0JXG

10INPUT“n,c,w——“;N,C,W

20OPTIOBASE1

30DIMA(N,C),R(C,C),B(C),C(C),D(C,C)

40FOR1=1TON:FORJ=1TOC

50READA(I,J):NEXTJ:NEXTI

60FORK=1TOC

70B(K)=0:C(K)=0

80NEXTK

90FOR1=1TOC:FORJ=1TON

100B(I)=B(I)+A(J,I)

110C(I)=C(I)+A(J,I)A2

120NEXTJ:NEXTI

130FOR1=1TOC:FOR=K+1TOC

140D(I,J)=0:R(I,J)=0

150NEXTJ:NEXTI

160FORK=1TOC:FORI=K+1TOC:FORJ=1

TON

170D(K,I)=D(K,I)+A(J,K)*A(J,I)

180NEXTJ:NEXTI:NEXTK

190FORK=1TOC:FORI=K+1TOC:FORJ=1

TON

200R(K,I)=(D(K,I)-B(I)*B(K)/N)/SQR((C(K)-B(K)A2/N)

*(C⑴-B(I)A2/N))

210NEXTJ:NEXTI:NEXTK

220GOSUB300:PRINT

230PRINTSPC(5)“R”SPC(5);

240FOR1=2TOC:PRINTI:SPC(IO);

250NEXTI:PRINT:GOSUB300

260FORK=1TOC:PRINTSPC(5)K;

270FORI=K+1TOC:PRINTTAB(12*(I-1);R(K,I);

280NEXTI:PRINT;NEXTK

290GOSUB300:GOTO320

300FOR1=0TOW:PRINT“一”

310NEXTI:PRINT:RETURN

320END

五、例題

試求出上例中的身高、足長、小腿長兩兩間的線性相關(guān)系數(shù)。

解:在程序中使用口尺^語句,按61<1,*1<2/1<3),1<=1,2,……

10的方式輸入數(shù)據(jù)資料:

330DATA21,33,140,20,32,133,20,30,130,19,29,

131,21,32,137

340DATA20,31,133,19,32,135,21,33,138,20,31,

139,21,34,141

RUN

n,c,w-----10,3,40

R23

1.716354.678737

2.810961

3

四、相關(guān)系數(shù)的顯著性檢驗(yàn)

(-)檢驗(yàn)的基本原理

根據(jù)隨機(jī)抽樣得到的樣本資料去計(jì)算相關(guān)系數(shù),與計(jì)算其他統(tǒng)計(jì)

量一樣,存在著抽樣誤差的影響。

在理論上講,若從不存在相關(guān)關(guān)系的總體(P二0)中隨機(jī)抽樣

并且沒有抽樣誤差,則應(yīng)有r=0。但實(shí)際中由于存在著抽樣誤差,

所以常抽到rW0的樣本。同理,rW0也并不能說明有2#0。

因此,不能簡單地由"|的大小去對(duì)隨機(jī)變量x、y之間線性

關(guān)系的密切程度作出判斷。實(shí)際上造成r與p之差的原因有二:

1.rW0的樣本確實(shí)是從「二0的總體中抽得,此時(shí)r與"=0

之差僅僅是由抽樣誤差所致,沒有本質(zhì)的差別;

2.rr0的樣本來自某個(gè)夕#0的總體,此時(shí)顯然r與夕二0

的差別是本質(zhì)性的c為了分清差別是由哪種原因造成的,必須要對(duì)r

進(jìn)行顯著檢驗(yàn)。

檢驗(yàn)的無效假設(shè)為Ho:p=0(即總體中不存在相關(guān)關(guān)系)

(1)若檢驗(yàn)結(jié)果知P(Ho)>a,認(rèn)為r與夕=0的差別無顯著

意義,即相關(guān)系數(shù)r無顯著性。此時(shí),即使|r|值較大,也不能認(rèn)

為隨機(jī)變量x、y是相關(guān)的。

(2)若檢驗(yàn)結(jié)果知P(Ho)Wa,拒絕Ho,認(rèn)為r與P=0的

差別有顯著意義,即相關(guān)系數(shù)r顯著。此時(shí),即使|r|值較小,也

能認(rèn)為隨機(jī)變量x、y相關(guān)的。

只有通過顯著性檢驗(yàn)得知r顯著,才可根據(jù)|r|值的大小去說

明變量x、y相互關(guān)系的密切程度??傊皘r|值較大”和“x、

y相關(guān)”絕不是一回事,要加以注意!

(―)檢驗(yàn)方法

1.檢驗(yàn)

檢驗(yàn)統(tǒng)計(jì)量的公式tr=注二回,其中相關(guān)系數(shù)的標(biāo)準(zhǔn)誤S,二

sr

1—尸

——,在Ho:「=()時(shí),有

n-2

(10-2)

自由度n'=n—2o

例10—3在例10.1中計(jì)算得到相關(guān)系數(shù)r=0.791,試檢驗(yàn)

r是否顯著。

解:(1)無效假設(shè)H。:夕=()

(2)計(jì)算tr值:

.|r|V^20.791x710-2_

Vl-r2V1-0.7912

(3)選取a=0.05,進(jìn)行雙側(cè)檢驗(yàn),自由度n'=n—2=10

-2二8,查t值表(書后附表2)得to.o5(8)=0.306

(4)結(jié)論:Vtr>to.05(8)

???p<0.05,拒絕Ho,認(rèn)為總體相關(guān)系數(shù)P

W0,即r顯著。

這說明r=0.791不象是由抽樣誤差造成的,而是來自pW0

的總體之中。

2.查表法

為使檢驗(yàn)簡便,統(tǒng)計(jì)學(xué)家根據(jù)t分布表求出r的5%和1%的

臨界水平概率P值,表左邊第一列為自由度n'二n—2。計(jì)算出相關(guān)

系數(shù)r并查出臨界值「必治后,可作如下比較判斷:

若》心(吟,則「顯著;

若"I<ra(nf)f則r不顯著。

例10—4在例10.1中算得r=0.791,用雙側(cè)檢驗(yàn)并取a=

0.05,n*=n—2=10—2=8,查表得知to.05⑻=0.632c

Vr=0.791>to,05(8)=0.632

?,?相關(guān)系數(shù)r顯著。

明顯用查表法要快捷得多,建議多采用此法。

查表時(shí)要注意:是用單側(cè)檢驗(yàn),還是雙側(cè)臉驗(yàn)決定于統(tǒng)計(jì)設(shè)計(jì)之時(shí):

而不是在算出r之后。

學(xué)生氏T分布檢驗(yàn)計(jì)算程序

一、程序功能

對(duì)于統(tǒng)計(jì)檢驗(yàn),在不知道其標(biāo)準(zhǔn)差的情況下,可以用T分布檢驗(yàn)

來檢驗(yàn)正態(tài)分布總體的均值。

應(yīng)用本程序時(shí)如按程序所問輸入(三種功能的)功能選擇、樣本

個(gè)數(shù)、元素個(gè)數(shù)和每個(gè)元素值,則程序能自動(dòng)計(jì)算出T值、自由度數(shù)

及其T分布的右尾值(檢驗(yàn)水平)。使用者將右尾值與檢驗(yàn)的顯著性

水平比較,則可得出檢驗(yàn)的結(jié)果。

二、程序中使用的主要符號(hào)說明

T:WHICHHTPOTHESIS程序功能選擇(共三種);

R(I):NRMBEROFELEMENTS元素?cái)?shù);

M:MALUEOFMEAN均值;

ABS(A):T-MALUE所求的T值;

B:DEGREESOFFREEDOM所求的自由度數(shù);

X:RIGHTTAILVALUE右尾值。

三、程序所依據(jù)的主要理論計(jì)算公式

學(xué)生氏T分布檢驗(yàn)法。

四、程序名稱:STUDENTzS-T.TES

5REMSTUDENTfST—TESTPROGRAM

10PRINT“STUDENT'ST—TESTPROGRAM"

20PRINT

30DIMP(20,2),V(12)

40DIMR(2),M(2),D(2)

50PRINT“Testi:Mean=x”

60PRINTuTest2:Mean=mean,Standard,deviation=Standard

deviation,,

70PRINTuTest3:Mean=mean,Standard,deviation<>

Standarddeviation”

80INPUT“whichhypothesis=:T

90PRINTuwhichhypothesis="T

100PRINT

110FOR1=1TOSGN(T-l)+1

120V(I)=0

130D(I)=0

140PRINT“Sample”;「:”

150INPUT"Numberofelements=",U

155R(I)=U

160PRINT“Numberofelements=;R(I)

170FORJ=1TOR(I)

180PRINT“elements”;J;

182INPUTG

185P(J,I)=G

190PRINT“Elements";J,P(J,I)

200V(I)=V(1)+P(J,I)

210D(I)=D(I)+P(J,I)A2

220NEXTJ

230M(I)=V(I)/R(I)

240V(I)=(D(I)-V(I)A2/R(I)/(R(I)-1)

255NEXTI

260PRINT

270IFT=2THEN340

280IFT=3THEN380

300INPUTuValueofmean=M

305PRINT“Valueofmean=9,;M

310A=(M(1)-M)*SQR(R(1)/V(D)

320B=R(1)-1

330GOTO420

340A=(M(1)-M(2))/SQR(1/R(1)+1/R(2))

350B=R(1)+R(2)-2

360A=A/SQR(((R(1)-1)*V(1)+(R(2)-1)*V(2))

/B)

370GOTO420

380A=(M(1)-M(2))/SQR(V(1)/R(1)+V(2)/R(2))

390B=(V(1)/R(1)+V(2)/R(2))A2

400B=B/((V(1)/R(1)A2(R(1)+V(2)/R(2))A2/

(R(2)+D)-2)

410B=INT(B+.5)

420PRINT

430PRITNUT—Value=9,;ABS(A)

440PRITN“Degreesoffreedom=";B

450T=ABS(A)

460D=B

470X=1

480Y=1

490T=TA2

500IFT<1THEN550

510S=Y

520R=D

530Z=T

540GOTO580

550S=D

560R=Y

570Z=1/T

580J=2/(9*S)

590K=2/(9*R)

600L=ABS((1-K)*ZA1/3)-1+J)/SQR(K*Z八(2/3)

+J)

610IFR<4THEN650

620X=.5/(1+L*(.196854+L*(.115194+L*(.000344+L

*.019527))))A4

630X=INT(X*10000+.5)/10000

640GOTO620

650L=L*(l+.08+LA4/RA3)

660GOTO620

670IFT>=1THEN690

680X=1-X

690PRINT“Righttailvalue=";X

700END

五、例題

(一)設(shè)某運(yùn)動(dòng)員的200米跑的成績服從正態(tài)分布。其中抽測6

次的成績(單位:秒)如下:24.7,23.5,22.2,23.0,24.4,22.6。

能否認(rèn)為該運(yùn)動(dòng)員200米跑的成績?yōu)?3.2秒?(取顯著性水平a二

0.05)

解:無效假設(shè)Ho:〃=23.2秒

RUN

STUDENTzST—TESTPROGRAM

Test1:Mean=x

Test2:Mean=Mean,Standarddeviation=Standarddeviation

Test3:Mean=Mean,Standarddeviation<>Standarddeviation

Whichhypothesis=1

Sample1:

Numberofelements=6

Elements124.7

Elements223.5

Elements322.2

Elements423

Elements524.4

Elements622.6

Valueofmean=23.2

T—Value=.492869

Degreesoffreedom=5

Righttailvalue=.6584

???右尾值=0.6584大于a值

???〃二23.2秒的假設(shè)未被否定。即可用23.2秒作為該運(yùn)動(dòng)員

200米跑成績的代表。

(二)采用兩種試驗(yàn)方法進(jìn)行同一種試驗(yàn),分別獲得試驗(yàn)數(shù)據(jù)如

T:___________________________________________________________

A1613121510nA=5

B879657NB=5

試用T檢驗(yàn)法檢驗(yàn)這兩種方法獲得的試驗(yàn)數(shù)據(jù)是否有顯著性差異?

(總體的峭=端未知,a=0.05)

解:無效假設(shè)Ho:"A-NB

RUN

STUDENT'ST—TESTPROGRAM

Test1:Mean=x

Test2:Mean=Mean,Standarddeviation=Standarddeviation

Test3:Mean=Mean,Standarddeviation<>Standarddeviation

Whichhypothesis=2

Sample1:

Numberofelements=5

Elements116

Elements213

Elements312

Elements415

Elements510

Sample2:

Numberofelements=6

Elements18

Elements27

Elements39

Elements46

Elements55

Elements67

T-Value=5.3634

Degreesoffreedom=9

Righttailvalue=.003

???右尾值=0.003小于a值

="“的假設(shè)未被否定。即這兩種實(shí)驗(yàn)方法獲得的試

驗(yàn)數(shù)據(jù)有顯著性差異。

(三)下列資料為兩家電影公司的體育紀(jì)錄影片放映時(shí)間:

公司名稱時(shí)間(分)

公司I102869810992

公司H81165971349287114

試檢驗(yàn)公司I與公司n的體育紀(jì)錄影片的平均放映時(shí)間是否有顯著

性差異?(兩總體的方差不等,a=0.05)

解:無效假設(shè)Ho://I=〃ii

RUN

STUDENT'ST--TESTPROGRAM

Test1:Mean=x

Test2:Mean=Mean,Standarddeviation=Standarddeviation

Test3:Mean=Mean,Standarddeviation<>Standarddeviation

Whichhypothesis=3

Sample1:

Numberofelements==5

Elements1102

Elements286

Elements398

Elements4109

Elements592

Sample2:

Numberofelements==7

Elements181

Elements2165

Elements397

Elements4134

Elements592

Elements687

Elements7114

:右尾值=0.3232小于a值

/.//i=4n的假設(shè)未被否定。即這兩家電影公司的體育紀(jì)

錄影片的平均放映時(shí)間沒有顯著性差異。

第二節(jié)一元線性回歸分析

一、一元線性回歸的意義

經(jīng)過相關(guān)分析后,確認(rèn)為兩個(gè)變量之間具有較密切的直線相關(guān)關(guān)

系時(shí),期望著能找到兩個(gè)變量之間存在的數(shù)量關(guān)系,即找到一個(gè)最適

宜的數(shù)學(xué)表達(dá)式,用函數(shù)關(guān)系來描述兩變量的關(guān)系。這就要借助于回

歸分析的方法。

(-)回歸分析方法是一種處理變量的相關(guān)關(guān)系的方法

它主要是把兩個(gè)或兩個(gè)以上變量之間的變動(dòng)關(guān)系,加以模型化,

求現(xiàn)回歸方程來,以便進(jìn)行估計(jì)推算。

兩個(gè)變量之間的回歸分析稱為一元回歸分析,三個(gè)以上變量之間

的回歸分析稱為多元回歸分析。

“回歸”一詞所表示的實(shí)質(zhì)意義是:任何變異的東西總有趨向平

穩(wěn)、一般的勢頭。對(duì)于一組樣本觀察數(shù)據(jù)(X”y。,(X2,y2),..........

(Xn,yn)來說,總有一個(gè)穩(wěn)定點(diǎn)在起作用,這個(gè)穩(wěn)定點(diǎn)就是n個(gè)樣

本觀察值的幾何重心(口飛),而通過(丸Q)點(diǎn)的穩(wěn)定軸線便稱

為回歸線。

(二)回歸分析主要解決以下幾方面的問題

1.分析一組數(shù)據(jù),確定個(gè)變量之間是否存在相關(guān)關(guān)系;如果

存在的話,找出它們之間最合適的數(shù)學(xué)關(guān)系式,即回歸方程。

2.對(duì)變量關(guān)系式中的參數(shù)進(jìn)行估計(jì)和統(tǒng)計(jì)檢驗(yàn),分析影響因素

與預(yù)測目標(biāo)之間的關(guān)系強(qiáng)弱和影響程度,確定諸變量中哪些是主要影

響因素,哪些是次要因素以及它們之間的關(guān)系。

3.根據(jù)求得的回歸方程和自變量的值,預(yù)測因變量未來的取值,

并分析預(yù)測結(jié)果的誤差范圍和精度。

(三)要注意的問題

一般地,有相關(guān)關(guān)系的變量都不是從屬的因果關(guān)系,即分不清誰

是自變量,誰是因變量。而作回歸分析時(shí),一定要先根據(jù)研究目的確

定哪個(gè)是自變量。這里,要求因變量是隨機(jī)的,而自變量不是隨機(jī)的,

是給定的數(shù)值。求出回歸方程后,也是將給定的自變更值代入方程中,

去求得估計(jì)的因變量值,這個(gè)估計(jì)值不只是一個(gè)確定的數(shù)值,而是許

多可能數(shù)值的平均數(shù)。因此,可以計(jì)算估計(jì)值的標(biāo)準(zhǔn)差。

綜上所述,可知“相關(guān)”與“回歸”的區(qū)別主要在于:

1.相關(guān)關(guān)系是互相的,是結(jié)等的,不是一種從屬的因果關(guān)系。

我們只是去研究相關(guān)的密切程度。

2.回歸分析是研究從屬的因果關(guān)系,有已知變量,依此推測未

知變量。(一個(gè)是非隨機(jī)變量,一個(gè)是隨機(jī)變量。)

(四)研究兩變量關(guān)系時(shí)的一般程序

1.先根據(jù)n對(duì)數(shù)據(jù)在直角坐標(biāo)系xoy中作散點(diǎn)圖,由直觀上看

無成直線分布的趨勢。

2.若兩個(gè)變量只有直線相關(guān)關(guān)系時(shí),需進(jìn)一步由一個(gè)變量(自

變量x)的值來推測另一個(gè)變量(因變量y)的值,這就需要作直

線回歸分析。

3.直線回歸的任務(wù)是建立描述兩變量之間關(guān)系的回歸方程。這

個(gè)方程用

y=a+bx(10—3)

表示,其中,是y的估計(jì)值。

方程y=a+bx所表示的直線,是n個(gè)散點(diǎn)的一條擬合直線,

稱為回歸直線。它是針對(duì)散點(diǎn)圖找出的一條能代表兩變量x與y之

間關(guān)系的最佳直線c“配線”原則是:使各點(diǎn)與這條直線的縱向距離

最近。由數(shù)學(xué)意義上說,即使離差y-y的平方和Z(y-9)2達(dá)

到最小。若令Q=£(y-9)2,即稱之為剩余平方和。

這樣,根據(jù)數(shù)學(xué)上的“最小二乘原理”,求回歸方程y=a-bx

的問題就歸結(jié)為求使Q=£(y-y)2取得最小值時(shí)的a和b的問

題了。

在回歸方程?二a+bx中,把b稱為回歸系數(shù)。因?yàn)閎反映

兩個(gè)變量X與y之間的數(shù)量關(guān)系。b可正可負(fù),與r的符號(hào)一致。

a稱為截距。

二、一元線性回歸方程的求法

例10—5仍以例10—1的資料為例,說明求由引向上指標(biāo)

x推測30秒俯臥撐y的回歸方程的具體步驟。

(一)列計(jì)算表同表10—1o

(二)求回歸系數(shù)b

.xv(Zx)(Zy)—

b=j二二―=Zxy-吩(10_4)

LXX)2_(ZX)2>2一”

本例:由上節(jié)已知Lxx=4(),Lxy=48代入公式(10—4)得

(三)求截距a

a=y—bx(10—5)

本例:x==—=7

n10

-Zy90

y=二=—=yo

n10

/.a=y—bx=9—1.2=0.6

(四)列出回歸方程

y=0.6+1.2x

注意:回歸方程9=a+bx是根據(jù)x、y之間的相關(guān)關(guān)系建立的,

不是確定性的函數(shù)關(guān)系,因此不可根據(jù)這個(gè)方程進(jìn)行逆推由y求出

XO

要想由y推測x值必須另建立回歸方程。其中:

x=a,+b,y(10—6)

b'=xy(10—7)

az=x-b*y(10—8)

由上可推知r與b,bf之間的關(guān)系:

b.b,=L(Lxy),

T.T

LXXLyyJxx匚yy

Ar=±Yb?b,(10—9)

公式(10—9)中,正、負(fù)的取舍決定于“r與b的符號(hào)是否一

致二

在上例中,b=1.2,而

b=Ld=—=0.522

Lxx92

Ar=4bly=V1.2x0.522處0.791

這與上節(jié)中求出的r一致。

三、一元線性回歸方程的評(píng)價(jià)

(-)回歸問題的方差分析

直線回歸方程在一定程度上提示了兩個(gè)相關(guān)變量x,y之間的

內(nèi)在規(guī)律,但一個(gè)回歸方程所揭示的規(guī)律性強(qiáng)不強(qiáng)?回歸效果如何?

怎樣利用回歸方程由自變量x的取值預(yù)測因變量y的取值?預(yù)測的

精度如何?等等,這些都需要進(jìn)一步地分圻。

1.離差平方和的分解

由于受x值變化的影響和受其他因素的影響,因變量y是有變

異的,即y的值是有波動(dòng)的。Y值的這種波動(dòng)稱為變差,用觀測值

y與其平均數(shù)、的離均差y-Q來表示。全部n次觀測值的總變差

由這些離均差的平方和Lyy=Z(y-7)2來表示,它稱為y的總離

差平方和。(圖10—4)

圖10—4總離差分解示意圖

由(圖10—4)可知,每個(gè)觀測點(diǎn)的離差y一7可分解成

y-y=(y-y)+(y-y)

把上式兩邊同時(shí)平方之后,對(duì)所有n點(diǎn)求和,有:

Z(y-y)2=Et(y-y)+(y-y)]2

=E(y-y)2+Z(y-y)2+2^(y-y)(y-y)]

可證上式右邊最后一項(xiàng)X(y-yMy-y)J二°,故

Z(y-y)2=Z(y-y)2+L(y_y)?(io—io)

公式(10—io)右邊第二項(xiàng)是估計(jì)值y離差的平方和,根據(jù)

回歸方程y=a+bx,可以把y—y[=b(X—X)]看做是由于x

的變化所引起的,因此反映了在y的總變差中由于x與y

的直線回歸關(guān)系而引起的y的變化部分,稱之為回歸平方和,記作

u=?y)~。

一9

公式(io—io;右邊第一項(xiàng)z(V-y),是每個(gè)觀測點(diǎn)距回去

歸直線的殘關(guān)匠平方和,它反映的是除了x對(duì)y的線性影響之外的

一切因素(包括X對(duì)y的非直線關(guān)系的影響及觀測誤差等)對(duì)y的

影響部分,稱為剩余平方和,記作Q=2L(y-y)2o

故有

Lyy=U+Q(10—11)

在實(shí)際計(jì)算中,U及Q并不是由定義形式去計(jì)算的,由于已知

回歸系數(shù)b,則:

U=£(y-yf=Z(a+bx—a—b7)2

=b2X(x-x)*^=b2Lxx

二b?-Lxx=bLxy(10—12)

LxX

Q=Lyy—U二Lyy—bLxy(1()—13)

又:由U及Q的意義可知,U在總平方和Lyy中所占的比例『L

Lyy

2

越大,回歸效果越好。而旦==(Lxy)二產(chǎn)

LyyLyyLxx'Lyy

2

AU=rLyy(10—14)

2

Q=Lyy-U=(l-r)Lyy(10—15)

通過以上關(guān)系式,可看到|r|越大,回歸效果越好??蛇M(jìn)一步

理解相關(guān)系數(shù)的意義。

2.自由度

在回歸問題中:Lyy的自由度N=n-l

U的自由度n「=k=1

Q的自由度ni1-n—k—1=n—2

rT=n「+n2'(10一16)

式中:k是自變量的個(gè)數(shù)。一元線性回歸中k=l。

3.剩余標(biāo)準(zhǔn)差(估計(jì)標(biāo)準(zhǔn)誤差)

剩余平方和Q除以它的自由度n—2所得之商的算術(shù)平方根為:

SJ=J—(10—17)

Vn-2

SJ稱為剩余標(biāo)準(zhǔn)差,它可以用來衡量所有隨機(jī)因素對(duì)y的一次

觀測值的平均變化差的大小。S/的單位與Y的單位相同。

SJ越小,則所有觀察點(diǎn)越靠近回歸線;Sy'越大,則所有觀察

點(diǎn)離回去歸線越遠(yuǎn)??梢娺@一指標(biāo)從另一側(cè)面反映了線性關(guān)系的密切

程度。

以上這種把平方和與自由度進(jìn)行分解的方法,稱為回歸問題的方

差分析法。

表10—3一元線性回歸的方差分析表

變差來源平方和自由度均方F值

回歸U=bLxy1U

(n-2)U

Q

剩余Q=Lyy—bLyn-2QQ

Xn-2

總計(jì)Lyy=U+Qn—1

例10—6資料同例10—1,已求出回歸方程g=0.6+L2x,

作回歸問題的方差分析。(a=0.05)

解:可作Ho:回歸效果不顯著。

已知Lxx=40,Lyy=92,Lxy=48,n=10,b=1.2

Q=bLxy=1.2x48=57.6

Q=Lyy-U=92-57.6=34.4

nz=n-1=10-1=9

nT=1

r)2'=n—2=10—2=8

表10—4本例的方差分析表

變差來源平方和自由度均方F值

回歸57.6757.6

13.395

剩余34.484.3

總計(jì)929

取a=0.05,n?f=1,ri2‘=8查知F0.05(i.8)=5.32

,**F>Fo,05(1,8)

???P(Ho)<O.O5,拒絕Ho,說明回歸效果顯著。

(二)根據(jù)回歸方程預(yù)測值

運(yùn)用分二a+bx求得的y并不是實(shí)際值,而是回歸估計(jì)值,

通常稱為點(diǎn)估計(jì)。僅僅求出y的實(shí)際意義并不大,因?yàn)殡S著現(xiàn)實(shí)情

況的變化和各種因素的影響,預(yù)測目標(biāo)的實(shí)際值總會(huì)同預(yù)測值有或大

或小的偏移。所以,不僅要求出y的預(yù)測值,并且還應(yīng)知道實(shí)際的

值可能偏離預(yù)測值的范圍,也就是要知道預(yù)測的精度如何?這樣的范

圍常用區(qū)間的形式給出,稱為預(yù)測區(qū)間。

一般地,對(duì)于某個(gè)確定的x=x0,實(shí)際對(duì)應(yīng)的Y值是在y=a+

bx附近波動(dòng)的,且服從正態(tài)分布。它的平均數(shù)就是當(dāng)x=x。時(shí)回歸

方程的相應(yīng)值yo=a+bxo,其方差可用剩余方差SJ來估計(jì)。

干是,根據(jù)正態(tài)分布的性質(zhì),對(duì)干固定的x=x。,y的取值是以

V。為中心而對(duì)稱分布的,而且與剩余標(biāo)準(zhǔn)差SJ之間有下關(guān)系:

y值落在go土Sy'區(qū)間內(nèi)的概率約為68%

y值落在g°±L96Sy'區(qū)間內(nèi)的概率約為95%

y值落在yo±2.58Sy"區(qū)間內(nèi)的概率約為99%

由上可見,SJ越小,則由回歸方程預(yù)y值就越精確。因此,SJ是

預(yù)測精確度的標(biāo)志。

例10.7資料同例1().1:

若已知x0=9,則預(yù)測y值:

yo=O.6+1.2x9=11.4

預(yù)測的95%置信區(qū)間是

,1

y0±1.96Sy=11.411.96x2.07=即(7.3,15.5)。

由此可預(yù)測與X。=9對(duì)應(yīng)的全部y值落在區(qū)間(73.3,15.5)之內(nèi)

的概率約是95%o

注意:用回歸方程作預(yù)測的適用范圍一般僅局限于原來自變量變

動(dòng)的范圍,而不能隨意外推!

(四)、相關(guān)與回去歸在實(shí)際應(yīng)月時(shí)應(yīng)注意的問題

(一)當(dāng)目的在于確定兩個(gè)變量之間關(guān)系的性質(zhì)(例如確定它們

之間是否有線性關(guān)系),以便對(duì)給定的X值預(yù)測最可能的y值時(shí),

回歸分析是一種較好的技術(shù)。但如果只對(duì)估計(jì)兩個(gè)變量之間關(guān)系的強(qiáng)

度感興趣。那么用相關(guān)分析就夠了。

(二)相關(guān)系數(shù)的顯著性水平與相關(guān)的密切程度雖然有聯(lián)系,但

絕不是一回事。顯著性達(dá)到0.05,只說明有95%的可能存在相關(guān),

有5%的可能估計(jì)不準(zhǔn),不存在相關(guān)。不能誤認(rèn)為顯著性水平越高,

相關(guān)系數(shù)就越大,或線性關(guān)系就越密切。

(三)對(duì)于不存在相互聯(lián)系的事物,不要勉強(qiáng)做出沒有意義的相

關(guān)和回歸。例如人的年齡秘樹的樹齡,也可能可以作出“正相關(guān)”的

情況,但沒有實(shí)際意義。

(四)只有在相關(guān)系數(shù)r顯著且|r|較大時(shí),計(jì)算回歸方程才

具有一定的實(shí)用意義。

回歸分析的計(jì)算中以數(shù)據(jù)為依據(jù)。田賽成績越好數(shù)值越大,但徑

賽成績越好數(shù)值(時(shí)間數(shù))越小,故兩者往往呈負(fù)相關(guān)。因此在計(jì)算

回歸方程時(shí),相關(guān)系數(shù)按負(fù)值代入。

(五)相關(guān)分析要求X和Y皆為連續(xù)隨機(jī)變量:但回歸分析的

應(yīng)用范圍較廣,它不要求兩個(gè)變量都是隨機(jī)變量。人們常常是“控制”

了一個(gè)變量,這個(gè)被控制的變量即是自變量。

(六)回歸推測方程式只適用于樣本數(shù)據(jù)的最大值和最小值兩極

的范圍內(nèi)?!巴馔啤钡淖龇ǎ锌赡軒砦kU(xiǎn)的后果。因?yàn)樵谀硞€(gè)區(qū)

間之內(nèi),兩個(gè)變量之間的關(guān)系可以是線性關(guān)系,但在這一區(qū)間之則它

只能對(duì)總體提供有限的代表性。而把這一樣本的結(jié)果擴(kuò)展到它所代表

的區(qū)間之外,就有可能導(dǎo)致錯(cuò)誤的結(jié)論。如(圖10—5)所示,便

是一種可能的外推陷井。

第三節(jié)二元線性回歸分析介紹

先簡單回顧一元回歸分析的大致內(nèi)容:

(1)數(shù)學(xué)模型:y=a+4x+e

萬一總體中的相關(guān)系數(shù);

£一誤差,一般服從正態(tài)分布。

給出一組觀測數(shù)據(jù)(X|,y1),(X2,y2),......,(Xn,yn),

有yi二a+Qxi+ci,y2=0+^x2+£2,......,yn=cr+/?xn

+£n,其中:£1,£2,......,£n~N(0,CT2)

(2)建立回歸方程:y=a+bx

用最小二乘法(使Q取最小值)求出a,b即a,£的估計(jì)值。

n__

I£(Xj-x)(ys-y)

b=,=-----_——

LxxX(xi-x)2

i=l

a=y—bx

(3)回歸方程檢驗(yàn)

Ho:。二0(假設(shè)總體中相關(guān)系數(shù)為0)

因?yàn)槿簟?0,則y為常數(shù);若0,則x與y有線性關(guān)系。

所以檢驗(yàn)回歸方程顯著性一般檢驗(yàn)夕是否等于0?

檢驗(yàn)統(tǒng)計(jì)量(方差分析):

U

F=—^—?F(1,n—2)

n-2

重要的平方和分解公式:

Lyy=U+Q

①若F>F](臨界值),則否定Ho,說明夕W(),x與y之間

圖10—6

②若F>F”則可接受Ho,或可說是“相容”的。

(4)相關(guān)系數(shù)

r=Lxy

JLxx.LXy

(5)預(yù)測問題

s/=J旦并利用正態(tài)分布的理論。

以上所述的兩個(gè)變量,其中因變量y只與一個(gè)自變量x有關(guān)。

但在客觀現(xiàn)象當(dāng)中,各事物之間的聯(lián)系和制約是廣泛的、相互的,一

個(gè)事物的變化是受許多因素影響的。為了分析研究這諸多因素(Xi)

相互間的關(guān)系,以及對(duì)某一事物(y)的關(guān)系,數(shù)理統(tǒng)計(jì)給出了“多

元分析”的方法。

多元分析方法是科學(xué)研究中常用的統(tǒng)計(jì)方法。它比單因素分析更

能揭示事物的本質(zhì)和內(nèi)在的聯(lián)系。但由于多元分析方法較復(fù)雜,而且

計(jì)算量大,所以多用計(jì)算機(jī)計(jì)算。至于實(shí)際應(yīng)用,關(guān)鍵是掌握處理方

法和操作計(jì)算機(jī)的技術(shù)。因?yàn)榇蟛糠侄嘣治龇椒ǘ家延杏?jì)算機(jī)計(jì)算

程序。這將為實(shí)際計(jì)算帶來方便并節(jié)省大量時(shí)間。

由于課時(shí)限制等原因,這里只介紹“二元線性回歸分析”的基本

內(nèi)容。

研究兩個(gè)變量與一個(gè)因變量的線性相關(guān)關(guān)系的統(tǒng)計(jì)方法稱為二

元性回歸分析方法。二元線性回歸的原理與一元線性回歸相同,只是

在計(jì)算等方面有復(fù)雜許多。今后若能把二元線性回歸的理論和方法進(jìn)

一步推廣,就可解決多元線性回歸的問題了。

一、求二元線性回歸方程

二元線性回歸方程的一般形式是

y=bo+bixi+b2X2(10一18)

求b。,bI,b2之值的原則是應(yīng)用最小二乘法,求使剩余平方和

Q=Z(y-9)2達(dá)到最小值時(shí)的bo,bi,b2之值。即解方程組

'票=0

<

建=0(i=?,2)

得其解為b0,b1,b2的估計(jì)值。

我們課上的具體求法是解正規(guī)方程:

=

L11b1+L[2b2Liv

v111122_ly(10—19)

b]+L22b2=L2y

求得bo,bl,b2的值。

公式(10—19)中:

Lij=Lji=£(Xi—xi)(xj-xj)

=Zxixj--(Zxi)(SXj)(10—20)

(i,j=l,2)

Liy二工⑸-xi)(y-y)

=Xxiy--(Zxi)(Xy)(10—21)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論