上海世博會影響力有關(guān)的數(shù)學(xué)模型.ppt_第1頁
上海世博會影響力有關(guān)的數(shù)學(xué)模型.ppt_第2頁
上海世博會影響力有關(guān)的數(shù)學(xué)模型.ppt_第3頁
上海世博會影響力有關(guān)的數(shù)學(xué)模型.ppt_第4頁
上海世博會影響力有關(guān)的數(shù)學(xué)模型.ppt_第5頁
已閱讀5頁,還剩28頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、2020/7/28,1,第四部分 回歸分析,回歸分析的概念 一元線性回歸 多元線性回歸 多項式回歸 非線性回歸 逐步回歸,2020/7/28,2,4.1 回歸分析的概念,在工農(nóng)業(yè)生產(chǎn)和科學(xué)研究中,常常需要研究變量之間的關(guān)系。變量之間的關(guān)系可以分為兩類:確定性關(guān)系、非確定性關(guān)系。確定性關(guān)系就是指存在某種函數(shù)關(guān)系。然而,更常見的變量之間的關(guān)系存在著某種不確定性。例如:商品的銷售量與當(dāng)?shù)厝丝谟嘘P(guān),人口越多,銷售量越大,但它們之間并沒有確定性的數(shù)值關(guān)系,同樣的人口,可能有不同的銷售量。這種既有關(guān)聯(lián),又不存在確定性數(shù)值關(guān)系的相互關(guān)系,就稱為相關(guān)關(guān)系。 回歸分析就是研究變量之間相關(guān)關(guān)系的一種數(shù)理統(tǒng)計分析方

2、法。在回歸分析中,主要研究以下幾個問題:,2020/7/28,3,4.1 回歸分析的概念,(1)擬合:建立變量之間有效的經(jīng)驗函數(shù)關(guān)系; (2)變量選擇:在一批變量中確定哪些變量對因變量有顯著影響,哪些沒有實質(zhì)影響; (3)估計與檢驗:估計回歸模型中的未知參數(shù),并且對模型提出的各種假設(shè)進(jìn)行推斷; (4)預(yù)測:給定某個自變量,預(yù)測因變量的值或范圍。 根據(jù)自變量個數(shù)和經(jīng)驗函數(shù)形式的不同,回歸分析可以分為許多類別。,2020/7/28,4,4.2 一元線性回歸,一元線性回歸模型 給定一組數(shù)據(jù)點(x1, y1),(x2 ,y2),.,(xn, yn),如果通過散點圖可以觀察出變量間大致存在線性函數(shù)關(guān)系,

3、則可以建立如下模型:,其中a,b稱為一元線性回歸的回歸系數(shù);表示回歸值與測量值之間的誤差。 針對該模型,需要解決以下問題: (1)如何估計參數(shù)a,b以及2; (2)模型的假設(shè)是否正確? (3)如何應(yīng)用所求的回歸方程對試驗指標(biāo)進(jìn)行預(yù)測。,2020/7/28,5,4.2 一元線性回歸,回歸系數(shù)的最小二乘估計 已知(x1, y1),(x2 ,y2),.,(xn, yn),代入回歸模型得到:,采用最小二乘法(即使觀測值與回歸值的離差平方和最小):,2020/7/28,6,4.2 一元線性回歸,回歸系數(shù)估計量的性質(zhì),2020/7/28,7,4.2 一元線性回歸,對2的估計,對a,b ,2的區(qū)間估計,20

4、20/7/28,8,4.2 一元線性回歸,樣本相關(guān)系數(shù)及其顯著性檢驗,顯然:樣本相關(guān)系數(shù)R的符號決定于Lxy,因此與相關(guān)系數(shù)b的符號一致。說明: (1)當(dāng)R=0時, Lxy =0,因此b=0,說明Y的變化與X無關(guān),此時Y與X毫無線性相關(guān)關(guān)系; (2)當(dāng)R=1時, 所有的樣本點都在回歸直線上,此時稱Y與X完全線性相關(guān),R=1,完全正相關(guān),R=-1,完全負(fù)相關(guān); (3)當(dāng)0|R|1時, 說明X與Y存在一定的線性相關(guān)關(guān)系,0R1,正相關(guān); -1 R0,負(fù)相關(guān);R的絕對值越大,相關(guān)關(guān)系越顯著。,2020/7/28,9,4.2 一元線性回歸,給定顯著性水平a,查表得F的臨界值Fa,若F*Fa (F*為F

5、的觀測值),則拒絕假設(shè)即認(rèn)為X與Y之間相關(guān)關(guān)系顯著;否則認(rèn)為Y與X不存在線性相關(guān)關(guān)系;也可使用P=PFF* 來比較,若P Fa),則拒絕假設(shè)即認(rèn)為X與Y之間相關(guān)關(guān)系顯著;一般使用時,P接近于0。,顯著性檢驗:原假設(shè)H0:b=0,的值可以使用polyfit()或regress()命令計算,用法參看MATLAB具體說明。,2020/7/28,10,4.2 一元線性回歸,利用回歸模型進(jìn)行預(yù)測,當(dāng)回歸模型和系數(shù)通過檢驗后,可由給定的x0值代入回歸方程得到Y(jié)的點預(yù)測值y0:,給定顯著性水平a,可以得到Y(jié)的預(yù)測區(qū)間:,2020/7/28,11,4.2 一元線性回歸,利用回歸模型進(jìn)行控制,觀察值y在某個區(qū)間

6、(y1,y2)取值時,應(yīng)如何控制x的取值范圍,使得響應(yīng)的觀察值落入指定區(qū)間的概率至少為1-a.解方程:,解得x1,x2,即可以得到x的控制區(qū)間的兩個端點值。,x1,x2,y2,y1,2020/7/28,12,4.2 一元線性回歸,異常數(shù)據(jù)的剔除,當(dāng)用regress()命令得到回歸模型的系數(shù)估計值和殘差及殘差置信區(qū)間時,由于殘差符合均值為零的正態(tài)分布,所以殘差置信區(qū)間應(yīng)該通過零點。用rcoplot(r,rint)畫出殘差圖,由圖可容易看出異常數(shù)據(jù)點,剔除這些異常點,重新進(jìn)行回歸分析,可使模型預(yù)測更精確。,2020/7/28,13,4.2 一元線性回歸,例4.1人口預(yù)測 1949年1994年我國人

7、口數(shù)據(jù)資料如下: 年份xi 49 54 59 64 69 74 79 84 89 94 人數(shù)yi 5.4 6.0 6.7 7.0 8.1 9.1 9.8 10.3 11.3 11.8 建模分析我國人口增長的規(guī)律, 預(yù)報1999、2005年我國人口數(shù)。,建模分析步驟: (1) 在坐標(biāo)系上作觀測數(shù)據(jù)的散點圖。 (2) 根據(jù)散點分布的幾何特征提出模型 (3) 利用數(shù)據(jù)估計模型的參數(shù) (4) 計算擬合效果 (1)散點圖,2020/7/28,14,4.2 一元線性回歸,(2)人口線性增長模型 假設(shè):人口隨時間線性地增加,模型:y = a + b x+ (3) 利用數(shù)據(jù)估計模型的參數(shù) 觀測值的模型:yi

8、= a + b xi + i ,i = 1,n 擬合的精度: Q = i 2 = (yi - a b xi)2, 誤差平方和。 最小二乘法:求參數(shù) a 和 b,使得誤差平方和最小。 用MATLAB中的regress()命令 可以算出:a = 2.032, b = 0.148 模型:y = 2.032 + 0.148 x (4)擬合精度 Q = 0.3280 , R2=0.9928 , F=1101.878 ,P=0 由R2和P表明擬合效果很好! (5)預(yù)報 當(dāng)X=99時,Y=12.62億;當(dāng)X=105時,Y=13.508億,2020/7/28,15,4.3 多元線性回歸,多元線性回歸模型,其中

9、i稱為多元線性回歸的回歸系數(shù);表示回歸值與測量值之間的誤差。,2020/7/28,16,4.3 多元線性回歸,回歸系數(shù)的最小二乘估計,已知(xi1, xi2,., xim, yi),i=1,2,.,n,代入回歸模型,利用最小二乘法可得到回歸系數(shù)的最小二乘估計。令:,2020/7/28,17,4.3 多元線性回歸,2020/7/28,18,4.3 多元線性回歸,回歸模型的檢驗 回歸模型是否為線性函數(shù)形式?問題可轉(zhuǎn)化為檢驗原假設(shè):H0: 1=2 = .=m=0,與一元回歸分析一樣F檢驗,命令說明等類似。,2020/7/28,19,4.3 多元線性回歸,回歸系數(shù)的檢驗 上個檢驗被拒絕時,表明回歸系數(shù)

10、不全為零,但不排除某個或某些系數(shù)為零。檢驗原假設(shè):H0: i=0,若假設(shè)成立,表明因素Xi對Y的影響不顯著。,2020/7/28,20,4.3 多元線性回歸,例4.2 為了研究火柴銷量與各因素間的回歸關(guān)系,收集數(shù)據(jù):,2020/7/28,21,4.3 多元線性回歸,MATLAB實現(xiàn): x1=17.84,27.43,21.43,11.09,25.78;18.27,29.95,24.96,. 14.48,28.16;20.29,33.53,28.37,16.97,24.26;22.61,37.31,. 42.57,20.16,30.18;26.71,41.16,45.16,26.39,17.08;

11、31.19,. 45.73,52.46,27.04,7.39;30.5,50.59,45.3,23.08,3.88;29.63,. 58.82,46.8,24.46,10.53;29.69,65.28,51.11,33.82,20.09;. 29.25,71.25,53.29,33.57,21.22; x=ones(size(x1(:,1),x1(:,2:5);y=x1(:,1); b,bint,r,rint,stats=regress(y,x,0.05) b =17.2597 0.0486 0.2218 0.0705 -0.2469 stats = 0.9980 626.2680 0.000

12、0 0.1011 Q=r*r=0.5057 2=Q/n-2=0.0632,2020/7/28,22,4.4 多項式回歸,一元多項式回歸模型,可以轉(zhuǎn)化為多元線性回歸推導(dǎo)公式(略)。可用polyfit()命令實現(xiàn)。輔助命令:polyval()、polyconj()、polytool()等參看MATLAB幫助。,多元二項式回歸模型,命令: rstool()參看MATLAB幫助。,2020/7/28,23,4.5 非線性回歸,非線性回歸命令:,nlinfit()、nlparci()、nlpredci()、nlintool()等參看MATLAB幫助。,非線性回歸轉(zhuǎn)化為線性回歸:,如: y=aebx z

13、= ln a + b x = a* + b x . y = a xb z = ln y = lnb ln x = a*+ b u y = 1/(abx) z = 1/y = a + bx . y = x/(b+ax) z = 1/y = a + b/x = a + b u y = (1+ax)/(1+bx) ?,y=cxe-dx ?, y=L/(1+ceax) ?,2020/7/28,24,4.5 非線性回歸,例4.3 賽跑的成績與賽跑距離 表列數(shù)據(jù)為1977年以前六個不同距離的中短距離賽跑成績的世界紀(jì)錄. 距離 x(m) 100 200 400 800 1000 1500 時間 t (s)

14、9.95 19.72 43.86 102.4 133.9 212.1 試用這些數(shù)據(jù)建模分析賽跑的成績與賽跑距離的關(guān)系,(1)散點圖 用線性模型誤差比較大,2020/7/28,25,4.5 非線性回歸,(2) 模型 假設(shè):t = a xb, 令 z = ln t, u = ln x , 則有: z = ln t = ln ab ln x = a* + bu (3) 利用數(shù)據(jù)估計模型的參數(shù) 可以算出:a* = 3.0341, b = 1.1453,a=ea*=0.0481 R2= 0.9987 ,P= 0 模型:y = 0.0481 * x1.1453 (4)擬合精度 擬合值:9.395 20.7

15、82 45.968 101.679 131.288 208.88 原值: 9.95 19.72 43.86 102.4 133.9 212.1 Q = 23.5746,2020/7/28,26,4.6 逐步回歸,實際問題中影響因變量的因素可能很多,我們希望從中挑選出影響顯著的自變量來建立回歸模型,這就涉及到變量選擇的問題。逐步回歸是一種從眾多變量中有效選擇重要變量的方法。以下只討論線性回歸的情況。 原理:若候選的自變量集合為S=x1,x2,.,xm,從中選出一個子集S1,假設(shè)包含k個自變量,由S1和因變量y構(gòu)造的回歸模型的誤差平方和為Q,則模型的剩余平方和s2=Q/(n-l-1), n為數(shù)據(jù)樣

16、本容量。所選子集S1應(yīng)使s盡量小。通常模型包含的自變量越多,Q越小,但若模型中包含有對y影響很小的量,那么Q不會由于包含這些變量在內(nèi)而減少,反而可能因k的增大而增大,因此可將s2最小作為衡量變量選擇的一個數(shù)量標(biāo)準(zhǔn)。,2020/7/28,27,4.6 逐步回歸,步驟:先確定一初始子集,然后每次從子集外影響顯著的變量中引入一個對 有影響最大的,再對原來子集中的變量進(jìn)行檢驗,從變得不顯著得變量中剔除一個影響最小的,直到不能引入和剔除為止。 注意事項:一要適當(dāng)?shù)剡x定引入變量的顯著性水平ain和剔除變量的顯著性水平aout,顯然,ain越大,引入的額變量越多,aout越大,剔除的變量越少;二在最初選擇變

17、量時應(yīng)盡量選擇相互獨立性強的那些變量。 MATLAB實現(xiàn):命令stepwise(x,y,inmodel,alpha) x是自變量數(shù)據(jù)(n行m列);y是因變量數(shù)據(jù)(n行1列);inmodel是矩陣x的列數(shù)的指標(biāo),給出初始模型中包括的子集,缺省時設(shè)定為全部自變量;alpha為顯著性水平。,2020/7/28,28,4.4 逐步回歸,例4.4 為了研究火柴銷量與各因素間的回歸關(guān)系,收集數(shù)據(jù):,2020/7/28,29,4.4 逐步回歸,確定一個線性模型。 MATLAB實現(xiàn): x1=17.84,27.43,21.43,11.09,25.78;18.27,29.95,24.96,. 14.48,28.1

18、6;20.29,33.53,28.37,16.97,24.26;22.61,37.31,. 42.57,20.16,30.18;26.71,41.16,45.16,26.39,17.08;31.19,. 45.73,52.46,27.04,7.39;30.5,50.59,45.3,23.08,3.88;29.63,. 58.82,46.8,24.46,10.53;29.69,65.28,51.11,33.82,20.09;. 29.25,71.25,53.29,33.57,21.22; x=x1(:,2:5);y=x1(:,1); stepwise(x,y),2020/7/28,30,4.4 逐步回歸,stepwise初始界面:S1為空。(紅色表示未加入),2020/7/28,31,4.4 逐步回歸,第一步:將最顯著的x2加入S1。,2020/7/28,32,4.4 逐步回歸,第二步:將x4、 x3加入S1(可以看出剩余標(biāo)準(zhǔn)差RMSE在減小),2020/7/28,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論