版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、回歸分析法摘要:略。關(guān)鍵詞:回歸分析、回歸模型、相關(guān)性檢驗(yàn)、置信區(qū)間?;貧w分析的起源:回歸分析起源.doc回歸分析定義:利用數(shù)據(jù)統(tǒng)計(jì)原理,對(duì)大量統(tǒng)計(jì)數(shù)據(jù)進(jìn)行數(shù)學(xué)處理,并確定因變 量與某些自變量的相關(guān)關(guān)系,建立一個(gè)相關(guān)性較好的回歸方程(函數(shù)表達(dá)式), 并加以外推,用于預(yù)測(cè)今后的因變量的變化的分析方法。分類:根據(jù)因變量和自變量的個(gè)數(shù)來(lái)分類:一元回歸分析;多元回歸分析;根據(jù)因變量和自變量的函數(shù)表達(dá)式來(lái)分類:線性回歸分析;北線性回歸分析;幾點(diǎn)說(shuō)明:通常情況下,線性回歸分析是回歸分析法中最基本的方法,當(dāng)遇到北線性回 歸分析時(shí),可以借助數(shù)學(xué)手段將其化為線性回歸;因此,主要研究線性回歸 問題,一點(diǎn)線性回歸問
2、題得到解決,北線性回歸也就迎刃而解了,例如,取 對(duì)數(shù)使得乘法變成加法等;當(dāng)然,有些北線性回歸也可以直接進(jìn)行,如多項(xiàng) 式回歸等;在社會(huì)經(jīng)濟(jì)現(xiàn)象中,很難確定因變量和自變量之間的關(guān)系,它們大多是隨機(jī) 性的,只有通過大量統(tǒng)計(jì)觀察才能找出其中的規(guī)律。隨機(jī)分析是利用統(tǒng)計(jì)學(xué) 原理來(lái)描述隨機(jī)變量相關(guān)關(guān)系的一種方法;由回歸分析法的定義知道,回歸分析可以簡(jiǎn)單的理解為信息分析與預(yù)測(cè)。信 息即統(tǒng)計(jì)數(shù)據(jù),分析即對(duì)信息進(jìn)行數(shù)學(xué)處理,預(yù)測(cè)就是加以外推,也就是適 當(dāng)擴(kuò)大已有自變量取值范圍,并承認(rèn)該回歸方程在該擴(kuò)大的定義域內(nèi)成立, 然后就可以在該定義域上取值進(jìn)行“未來(lái)預(yù)測(cè)”。當(dāng)然,還可以對(duì)回歸方程進(jìn) 行有效控制;相關(guān)關(guān)系可以分
3、為確定關(guān)系和不確定關(guān)系。但是不論是確定關(guān)系或者不確定 關(guān)系,只要有相關(guān)關(guān)系,都可以選擇一適當(dāng)?shù)臄?shù)學(xué)關(guān)系式,用以說(shuō)明一個(gè)或 幾個(gè)變量變動(dòng)時(shí),另一變量或幾個(gè)變量平均變動(dòng)的情況。相關(guān)關(guān)系線性相關(guān)非線性相關(guān)完全相關(guān)不相關(guān)正相關(guān)負(fù)相關(guān)正相關(guān)負(fù)相關(guān)回歸分析主要解決的問題:回歸分析主要解決方面的問題;確定變量之間是否存在相關(guān)關(guān)系,若存在,則找出數(shù)學(xué)表達(dá)式;根據(jù)一個(gè)或幾個(gè)變量的值,預(yù)測(cè)或控制另一個(gè)或幾個(gè)變量的值,且要估計(jì)這 種控制或預(yù)測(cè)可以達(dá)到何種精確度?;貧w模型:回歸模型一元回歸多元回歸線性回歸|非線性回歸| 線性回歸|非線性回歸回歸分析步驟:根據(jù)自變量與因變量的現(xiàn)有數(shù)據(jù)以及關(guān)系,初步設(shè)定回歸方程;求出合理
4、的回歸系數(shù);進(jìn)行相關(guān)性檢驗(yàn),確定相關(guān)系數(shù);在符合相關(guān)性要求后,即可根據(jù)已得的回歸方程與具體條件相結(jié)合,來(lái)確定 事物的未來(lái)狀況,并計(jì)算預(yù)測(cè)值的置信區(qū)間;回歸分析的有效性和注意事項(xiàng):有效性:用回歸分析法進(jìn)行預(yù)測(cè)首先要對(duì)各個(gè)自變量做出預(yù)測(cè)。若各個(gè)自變量可 以由人工控制或易于預(yù)測(cè),而且回歸方程也較為符合實(shí)際,則應(yīng)用回歸預(yù)測(cè)是有 效的,否則就很難應(yīng)用;注意事項(xiàng):為使回歸方程較能符合實(shí)際,首先應(yīng)盡可能定性判斷自變量的可能種 類和個(gè)數(shù),并在觀察事物發(fā)展規(guī)律的基礎(chǔ)上定性判斷回歸方程的可能類型;其次, 力求掌握較充分的高質(zhì)量統(tǒng)計(jì)數(shù)據(jù),再運(yùn)用統(tǒng)計(jì)方法,利用數(shù)學(xué)工具和相關(guān)軟件從定量方面計(jì)算或改進(jìn)定性判斷?;貧w分析中
5、的幾個(gè)常用概念:實(shí)際值:實(shí)際觀測(cè)到的研究對(duì)象特征數(shù)據(jù)值;理論值:根據(jù)實(shí)際值我們可以得到一條傾向線,用數(shù)學(xué)方法擬合這條曲線,可以 得到數(shù)學(xué)模型,根據(jù)這個(gè)數(shù)學(xué)模型計(jì)算出來(lái)的、與實(shí)際值相對(duì)應(yīng)的值,稱為理論 值;預(yù)測(cè)值:實(shí)際上也是根據(jù)數(shù)學(xué)模型計(jì)算出來(lái)的理論值,但它是與未來(lái)對(duì)應(yīng)的理論 值。表示符號(hào):實(shí)際值,用y表示;理論值,用云表示;預(yù)測(cè)值,用y0表示。+Unary Linear Regression+ 一元線性回歸,就是只涉及一個(gè)自變量的回歸;自變量和因變量之間的關(guān)系是 線性關(guān)系的回歸;因變量與自變量之間的關(guān)系用一條線性方程來(lái)表示的回歸。方法步驟:確定回歸模型:由于我們研究的是一元線性回歸,因此其回歸
6、模型可表示為:y =Po + P1x + ; 其中,y是因變量;X是自變量;8是誤差項(xiàng);、和3 1稱為模型參數(shù)(回歸系數(shù))。求出回歸系數(shù):這里的回歸系數(shù)的求解,就要用一定的方法,使得該系數(shù)應(yīng)用于該方程是“合理 的”。最常用的一種方法就是最小二乘估計(jì)法。最小二乘法是測(cè)量工作和科學(xué)實(shí) 驗(yàn)中最常用的一種數(shù)據(jù)處理方法,其基本原理是,根據(jù)實(shí)驗(yàn)觀測(cè)得到的自變量x 和因變量y之間的一組對(duì)應(yīng)關(guān)系,找出一個(gè)給定類型的函數(shù)y = f (X),使得它所 取的值f (x ), f (x ), , f (x )與觀測(cè)值y , y ,y在某 TOC o 1-5 h z 12n12n種尺度下最接近,即在各點(diǎn)處的偏差的平方和
7、達(dá)到最小,即切(y - y )2 = ( y 6 6 X )2 =最小。這種方法求的的和將使得擬合直線01 /01i=1i=1y = 0 +6 X中的y和X之間的關(guān)系與實(shí)際數(shù)據(jù)的誤差比其他任何直線都小。 01根據(jù)最小二乘法的要求,可以推導(dǎo).doc得到最小二乘法的計(jì)算公式:n x yl八 )P = i=1-4-4 / 1 /1nx2 一i I i i=1l i=1P0 = y - Px相關(guān)性檢驗(yàn):Yx 2Wx其中- 1 - 1 ni=1y ,n 1i=1對(duì)于若干組具體數(shù)據(jù)(X , y )都可算出回歸系數(shù)6 , 6,從而得到回歸方程。至于y i i01與X之間是否真有如回歸模型所描述的關(guān)系,或者說(shuō)
8、用所得的回歸模型去擬合實(shí)際數(shù)據(jù)是否有足夠好的近似,并沒有得到判明。因此,必須對(duì)回歸模型描述實(shí)際數(shù)據(jù)的近似程度,也即對(duì)所得的回歸模型的可信程度進(jìn)行檢驗(yàn),稱為相關(guān)性檢驗(yàn)。相關(guān)系數(shù)是衡量一組測(cè)量數(shù)據(jù)X,y線性相關(guān)程度的參量,其定義為:n x 2-x 2 n y 2-y 2iiiii = 1i = 1i = 1i = 1xy - xy V( X2 - X 2)( y 2 - y 2)n xy - x yr值在0 I r 11中。I rl越接近于1,x y之間線性好;r為正,直線斜率為 正,稱為正相關(guān);r為負(fù),直線斜率為負(fù),稱為負(fù)相關(guān)。I r I接近于0,則測(cè)量 數(shù)據(jù)點(diǎn)分散或x , y之間為北線性。不論
9、測(cè)量數(shù)據(jù)好壞都能求出&和6,所以我 們必須有一種判斷測(cè)量數(shù)據(jù)好壞的方法,用來(lái)判斷什么樣的測(cè)量數(shù)據(jù)木宜擬合, 判斷的方法是lr I r0,則x和y具有置信區(qū)間的確定:當(dāng)確定相關(guān)性后,就可以對(duì)置信區(qū)間.doc進(jìn)行確定,就可以結(jié)合實(shí)際情況,確 定事物未來(lái)的狀況了。回歸分析的最主要的應(yīng)用就在于“預(yù)測(cè)”,而預(yù)測(cè)是不是 準(zhǔn)確的,就得有一個(gè)衡量的工具。它就是置信區(qū)間?;蛘邚牧硗庖环矫鎭?lái)說(shuō),回 歸方程是由數(shù)理統(tǒng)計(jì)得出的,它反映的是實(shí)際數(shù)據(jù)的統(tǒng)計(jì)規(guī)律,所以,根據(jù)回歸 方程所得的預(yù)測(cè)值y0只是對(duì)應(yīng)于的單點(diǎn)預(yù)測(cè)估計(jì)值,預(yù)測(cè)值應(yīng)該有一個(gè)置信 置信區(qū)間:口U (y - y )2S 2 =-,其中S 2是G 2的無(wú)偏估計(jì)
10、量.doc,$ 2稱為剩余方差,S稱為剩 n - 2余標(biāo)準(zhǔn)差。注:該表達(dá)式的自由度為n - 2是因?yàn)橛?個(gè)限制變量x和y故對(duì)于給定的x,y值的概率為0.95的置信區(qū)間是:(y - 1.96 S, y + 1.96 S)。點(diǎn)擊參看 置信區(qū)間的確定.doc內(nèi)容。+Example+實(shí)驗(yàn)數(shù)據(jù)如下表:城鎮(zhèn)居民家庭人 均可支配收入城市人均住宅面 積城鎮(zhèn)居民家庭人 均可支配收入城市人均住宅面 積343.46.74838.917.0477.67.25160.317.8739.110.05425.118.71373.913.55854.019.41510.213.76280.020.31700.614.2685
11、9.620.82026.614.87702.822.82577.415.28472.223.73496.215.79421.625.04283.016.310493.026.1步驟一:先畫出散點(diǎn)圖,進(jìn)行觀察:程序如下: clf x=343.4 477.6 739.1 1373.9 1510.2 1700.6 2026.6 2577.4 3496.2 4283.0 4838.95160.3 5425.1 5854.0 6280.0 6859.6 7702.8 8472.2 9421.6 0493.0;y=6.7 7.2 10.0 13.5 13.7 14.2 14.8 15.2 15.7 16.
12、3 17.0 17.8 18.7 19.4 20.3 20.8 22.823.7 25.0 26.1;plot(x,y,x) xlabel (城鎮(zhèn)居民家庭人均可支配收入)ylabel(城市人均住宅面積)在MATALB中的運(yùn)行結(jié)果:1000 2000 3000 4000 5000 6000 7000 8000 9000 WOOD 城鎮(zhèn)居民家庭人均可支配收入25o 52 1o可以看到,除了個(gè)別點(diǎn)除外,基本上所有的點(diǎn)都分布在一條直線的附近。而且自 變量只有一個(gè),因此可以假設(shè)其回歸模型為:y = p +px + ;步驟二求出回歸系數(shù),過程根據(jù)最小而乘法的公式計(jì)算;計(jì)算公式為:Yn Y x y-1 1
13、頊iP = i=1-i=4 /1nYx2 一i I ii=1* i=iP 0 = y - %x編程: n1,n2=size(x);lxx=0;其中X = 1Yx y =1Yn i=1y ,n 1i=1lxy=0 for k=1:n2lxx=lxx+(x(k)-mean(x)A2lxy=lxy+(x(k)-mean(x)*(y(k)-mean(y) end b=lxy/lxxa=mean(y)-b*mean(x)在MATLAB中的運(yùn)行結(jié)果:求得 &0.0017&0 =9.4866, 故:y =9.4866+0.0017x 為所求。整個(gè)數(shù)據(jù)擬合如下: clf x=343.4 477.6 739.1
14、 1373.9 1510.2 1700.6 2026.6 2577.4 3496.2 4283.0 4838.95160.3 5425.1 5854.0 6280.0 6859.6 7702.8 8472.2 9421.6 0493.0;y=6.7 7.2 10.0 13.5 13.7 14.2 14.8 15.2 15.7 16.3 17.0 17.8 18.7 19.4 20.3 20.8 22.823.7 25.0 26.1;plot(x,y,x) xlabel (城鎮(zhèn)居民家庭人均可支配收入)ylabel(城市人均住宅面積) n1,n2=size(x);lxx=0;lxy=0for k=
15、1:n2lxx=lxx+(x(k)-mean(x)A2lxy=lxy+(x(k)-mean(x)*(y(k)-mean(y)endb=lxy/lxxa=mean(y)-b*mean(x)n1,n2=size(x);lxx=0;lxy=0for k=1:n2lxx=lxx+(x(k)-mean(x)A2lxy=lxy+(x(k)-mean(x)*(y(k)-mean(y)endb=lxy/lxxa=mean(y)-b*mean(x)xx=linspace(0,12000,500)yy=a+b*xx;hold onplot(xx,yy,b-)text(6000,15,FitFunction: y=
16、a+b*x)在MATLAB中運(yùn)行得到擬合圖:bjlsw域sYte舅20004000600080001000012000城鎮(zhèn)居民家庭人均可支配收入205步驟三:相關(guān)性檢驗(yàn);r = Xy - Xy,同理編程計(jì)算出相關(guān)系數(shù)為:I Y(x 2 - x 2)(y 2 - y 2)r=0.964740192922406由于r的絕對(duì)值很接近1,所以相關(guān)性很強(qiáng)。換句話說(shuō),就是擬合程度很好;或者| r |=0.964740192922406 r =0.561,所以相關(guān)關(guān)系;相關(guān)指數(shù):R2=0.930723639839961,因此回歸效果很好。步驟四:置信區(qū)間的確定;U (y - y )2可以根據(jù)表達(dá)式S 2 =
17、 -計(jì)算出剩余方差,然后給定條件x,進(jìn)而就可 n 20以求解給定概率內(nèi)的置信區(qū)間了。至此,此次擬合基本完成。當(dāng)然,確定數(shù)據(jù)是可以擬合之后,就可以進(jìn)步一計(jì)算擬合方程的截距,斜率等項(xiàng) 目,再根據(jù)式子的意義,就可以對(duì)現(xiàn)實(shí)事物進(jìn)行預(yù)測(cè)和分析了。附錄: TOC o 1-5 h z HYPERLINK l bookmark69 o Current Document 回歸分析起源11最小二乘法11-13置信區(qū)間13無(wú)偏估計(jì)量13置信區(qū)間的確定14附錄1回歸分析的起源回歸分析最早是19世紀(jì)末期高爾頓(Sir Francis Galton)所發(fā)展。高爾頓 是生物統(tǒng)計(jì)學(xué)派的奠基人,他的表哥達(dá)爾文的巨著物種起源問世
18、以后,觸動(dòng) 他用統(tǒng)計(jì)方法研究智力進(jìn)化問題,統(tǒng)計(jì)學(xué)上的“相關(guān)”和“回歸”的概念也是高爾頓 第一次使用的。1855年,他發(fā)表了一篇“遺傳的身高向平均數(shù)方向的回歸”文章, 分析兒童身高與父母身高之間的關(guān)系,發(fā)現(xiàn)父母的身高可以預(yù)測(cè)子女的身高,當(dāng) 父母越高或越矮時(shí),子女的身高會(huì)比一般兒童高或矮,他將兒子與父母身高的這 種現(xiàn)象擬合出一種線形關(guān)系。但是有趣的是:通過觀察他注意到,盡管這是一種 擬合較好的線形關(guān)系,但仍然存在例外現(xiàn)象:矮個(gè)的人的兒子比其父要高,身材 較高的父母所生子女的身高將回降到人的平均身高。換句話說(shuō),當(dāng)父母身高走向 極端(或者非常高,或者非常矮)的人的子女,子女的身高不會(huì)象父母身高那樣 極
19、端化,其身高要比父母?jìng)兊纳砀吒咏骄砀?。高爾頓選用“回歸”一詞,把 這一現(xiàn)象叫做“向平均數(shù)方向的回歸(regression toward mediocrity)。雖然這是 一種特殊情況,與線形關(guān)系擬合的一般規(guī)則無(wú)關(guān),但“線形回歸”的術(shù)語(yǔ)仍被沿用 下來(lái)。作為根據(jù)一種變量(父母身高)預(yù)測(cè)另一種變量(子女身高)的一般名稱 沿用至今,后被引用到對(duì)多種變量關(guān)系的描述。(整理自歐美統(tǒng)計(jì)學(xué)史)而關(guān)于父輩身高與子代身高的具體關(guān)系是如何的,高爾頓和他的學(xué)生 K-Pearson通過觀察了 1078對(duì)夫婦,以每對(duì)夫婦的平均身高作為自變量,取他 們的一個(gè)成年兒子的身高作為因變量,結(jié)果發(fā)現(xiàn)兩者近乎一條直線,其回歸直
20、線 方程為:y33.73+0.516x,這種趨勢(shì)及回歸方程表明父母身高每增加一個(gè)單位 時(shí),其成年兒子的身高也平均增加0.516個(gè)單位。附錄2最小二乘法計(jì)算公式推導(dǎo)設(shè)直線方程的表達(dá)式為:y = a + bx要根據(jù)測(cè)量數(shù)據(jù)求出最佳的a和b。對(duì)滿足線性關(guān)系的一組等精度測(cè)量數(shù)據(jù)(, *),假定自變量的誤差可以忽略,則在同一 下,測(cè)量點(diǎn)y和直線上的點(diǎn)a+bxi的偏差di如下:d = y - a - bxd = y - a - bx顯然最好測(cè)量點(diǎn)都在直線上(即d1=d2=dn=0),求出的a和b是最理想 的,但測(cè)量點(diǎn)不可能都在直線上,這樣只有考慮d1、d2、dn為最小,也就 是考慮d+d+d為最小,但因d
21、、d、d有正有負(fù),加起來(lái)可能相互 12n12n TOC o 1-5 h z 抵消,因此不可?。欢鴟d+ |d2l+ |dnl又不好解方程,因而不可行。現(xiàn)在 采取一種等效方法:當(dāng)di2+d22+dn2對(duì)a和b為最小時(shí),dd2 -為最小。取(di2+d22+d:)為最小值,求a和b的方法叫最小二乘法。 HYPERLINK l bookmark77 o Current Document n_Vy, - a - b 2i=1D = d 2 D =乙 d 2 =乙 iii=1i=1D對(duì)a和b分別求一階偏導(dǎo)數(shù)為:迪=-2y - na - b x d a11i=1i=1d DY=-2乙 x,y, - a x
22、=1i=1再求二階偏導(dǎo)數(shù)為:顯然:滿足最小值條件,d2 D v =2乙 x2 0=1令一階偏導(dǎo)數(shù)為零:y -na - b x iii = 1i = 1xy - a fxi ii一可一- b乙 x: = 0i = 1i = 1i=1引入平均值:-1 f .x =乙 xni=1y - a - bx = 0 xy - ax - bx2 =0解得:a = y - bxb xy - x y-1 y .y = y , n i=1I x 2 ;n 1i=11 vxy =乙ni=1則:o 2x2 - x將a、b值帶入線性方程y = a + bx即得到回歸直線方程。附錄3置信區(qū)間設(shè)總體分布含有一未知參數(shù)0,又I,,xn為來(lái)自于總體的樣本,若對(duì)于給定a(0a1),統(tǒng)計(jì)量0(x,x)和0(x,x)滿足 偵 IUaA /,1 1 n 2 1 nP0 (x,x ) 0 0 (x,x ) = 1 - a 11n21n則稱區(qū)間0,氣為0相應(yīng)于置信度是1 -a的置
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年高職學(xué)前教育(幼兒語(yǔ)言發(fā)展)試題及答案
- 2025年大學(xué)醫(yī)學(xué)美容技術(shù)(美容技術(shù)研究)試題及答案
- 2025年大學(xué)護(hù)理學(xué)(中醫(yī)護(hù)理基礎(chǔ))試題及答案
- 2026年熱水器清洗(水垢去除)試題及答案
- 2025年注冊(cè)會(huì)計(jì)師(CPA)考試 會(huì)計(jì)科目深度沖刺試卷與答案解析
- 醫(yī)患關(guān)系溫暖文案集
- 人工智能:典型應(yīng)用實(shí)例
- 神奇的埃及科普講解
- 祛斑知識(shí)培訓(xùn)課件
- 天津理工大學(xué)就業(yè)指南
- 污水管網(wǎng)監(jiān)理規(guī)劃
- GB/T 35273-2020信息安全技術(shù)個(gè)人信息安全規(guī)范
- GB/T 1690-2010硫化橡膠或熱塑性橡膠耐液體試驗(yàn)方法
- 2023年杭州臨平環(huán)境科技有限公司招聘筆試題庫(kù)及答案解析
- 《看圖猜成語(yǔ)》課件
- LF爐機(jī)械設(shè)備安裝施工方案
- 企業(yè)三級(jí)安全生產(chǎn)標(biāo)準(zhǔn)化評(píng)定表(新版)
- 耐壓測(cè)試儀點(diǎn)檢記錄表
- 梅州市梅江區(qū)村級(jí)資金財(cái)務(wù)管理制度(試行)
- GB∕T 37127-2018 混凝土結(jié)構(gòu)工程用錨固膠
- 胸腺瘤與重癥肌無(wú)力手術(shù)治療課件
評(píng)論
0/150
提交評(píng)論