數(shù)據(jù)分析處理_第1頁
數(shù)據(jù)分析處理_第2頁
數(shù)據(jù)分析處理_第3頁
數(shù)據(jù)分析處理_第4頁
數(shù)據(jù)分析處理_第5頁
已閱讀5頁,還剩51頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

數(shù)據(jù)分析處理第1頁,共56頁,2023年,2月20日,星期六二、多元數(shù)據(jù)處理方法1、二維插值2、多元回歸分析第2頁,共56頁,2023年,2月20日,星期六二維插值的定義xyO第一種(網(wǎng)格節(jié)點):第3頁,共56頁,2023年,2月20日,星期六

已知mn個節(jié)點其中互不相同,不妨設構(gòu)造一個二元函數(shù)通過全部已知節(jié)點,即再用計算插值,即第4頁,共56頁,2023年,2月20日,星期六第二種(散亂節(jié)點):yx0第5頁,共56頁,2023年,2月20日,星期六已知n個節(jié)點其中互不相同,構(gòu)造一個二元函數(shù)通過全部已知節(jié)點,即再用計算插值,即第6頁,共56頁,2023年,2月20日,星期六注意:最鄰近插值一般不連續(xù)。具有連續(xù)性的最簡單的插值是分片線性插值。最鄰近插值xy(x1,y1)(x1,y2)(x2,y1)(x2,y2)O二維或高維情形的最鄰近插值,與被插值點最鄰近的節(jié)點的函數(shù)值即為所求。第7頁,共56頁,2023年,2月20日,星期六將四個插值點(矩形的四個頂點)處的函數(shù)值依次簡記為:分片線性插值xy(xi,yj)(xi,yj+1)(xi+1,yj)(xi+1,yj+1)Of(xi,yj)=f1,f(xi+1,yj)=f2,f(xi+1,yj+1)=f3,f(xi,yj+1)=f4第8頁,共56頁,2023年,2月20日,星期六插值函數(shù)為:第二片(上三角形區(qū)域):(x,y)滿足插值函數(shù)為:注意:(x,y)當然應該是在插值節(jié)點所形成的矩形區(qū)域內(nèi)。顯然,分片線性插值函數(shù)是連續(xù)的;分兩片的函數(shù)表達式如下:第一片(下三角形區(qū)域):(x,y)滿足第9頁,共56頁,2023年,2月20日,星期六雙線性插值是一片一片的空間二次曲面構(gòu)成。雙線性插值函數(shù)的形式如下:其中有四個待定系數(shù),利用該函數(shù)在矩形的四個頂點(插值節(jié)點)的函數(shù)值,得到四個代數(shù)方程,正好確定四個系數(shù)。雙線性插值xy(x1,y1)(x1,y2)(x2,y1)(x2,y2)O第10頁,共56頁,2023年,2月20日,星期六

要求x0,y0單調(diào);x,y可取為矩陣,或x取行向量,y取為列向量,x,y的值分別不能超出x0,y0的范圍。z=interp2(x0,y0,z0,x,y,’method’)被插值點插值方法用MATLAB作網(wǎng)格節(jié)點數(shù)據(jù)的插值插值節(jié)點被插值點的函數(shù)值‘nearest’

最鄰近插值‘linear’

雙線性插值‘cubic’

雙三次插值缺省時,雙線性插值第11頁,共56頁,2023年,2月20日,星期六例:測得平板表面3*5網(wǎng)格點處的溫度分別為:828180828479636165818484828586試作出平板表面的溫度分布曲面z=f(x,y)的圖形。輸入以下命令:x=1:5;y=1:3;temps=[8281808284;7963616581;8484828586];mesh(x,y,temps)1.先在三維坐標畫出原始數(shù)據(jù),畫出粗糙的溫度分布曲圖.第12頁,共56頁,2023年,2月20日,星期六2.以平滑數(shù)據(jù),在x、y方向上每隔0.2個單位的地方進行插值.再輸入以下命令:xi=1:0.2:5;yi=1:0.2:3;zi=interp2(x,y,temps,xi',yi,'cubic');mesh(xi,yi,zi)%畫出插值后的溫度分布曲面圖.第13頁,共56頁,2023年,2月20日,星期六

通過此例對最近鄰點插值、雙線性插值方法和雙三次插值方法的插值效果進行比較。第14頁,共56頁,2023年,2月20日,星期六

插值函數(shù)griddata格式為:

cz

=griddata(x,y,z,cx,cy,‘method’)用MATLAB作散點數(shù)據(jù)的插值計算

要求cx取行向量,cy取為列向量。被插值點插值方法插值節(jié)點被插值點的函數(shù)值‘nearest’

最鄰近插值‘linear’

雙線性插值‘cubic’

雙三次插值'v4'-Matlab提供的插值方法缺省時,雙線性插值第15頁,共56頁,2023年,2月20日,星期六例在某海域測得一些點(x,y)處的水深z由下表給出,船的吃水深度為5英尺,在矩形區(qū)域(75,200)*(-50,150)里的哪些地方船要避免進入。第16頁,共56頁,2023年,2月20日,星期六4.作出水深小于5的海域范圍,即z=5的等高線.3、作海底曲面圖第17頁,共56頁,2023年,2月20日,星期六clearx=[129140103.588185.5195105157.5107.57781162162117.5];y=[7.5141.52314722.5137.585.5-6.5-81356.5-66.584-33.5];z=[4868688

9988949

];cx=min(x):10:max(x);cy=min(y):10:max(y);cz=griddata(x,y,z,cx,cy’,‘cubic’)%cy取列向量mesh(cx,cy,cz)第18頁,共56頁,2023年,2月20日,星期六第19頁,共56頁,2023年,2月20日,星期六可線性化的一元非線性回歸曲線回歸例2出鋼時所用的盛鋼水的鋼包,由于鋼水對耐火材料的侵蝕,容積不斷增大.我們希望知道使用次數(shù)與增大的容積之間的關(guān)系.對一鋼包作試驗,測得的數(shù)據(jù)列于下表:第20頁,共56頁,2023年,2月20日,星期六散點圖此即非線性回歸或曲線回歸問題(需要配曲線)配曲線的一般方法是:第21頁,共56頁,2023年,2月20日,星期六通常選擇的六類曲線如下:第22頁,共56頁,2023年,2月20日,星期六多元線性回歸數(shù)學模型及定義第23頁,共56頁,2023年,2月20日,星期六第24頁,共56頁,2023年,2月20日,星期六第25頁,共56頁,2023年,2月20日,星期六第26頁,共56頁,2023年,2月20日,星期六模型參數(shù)估計

第27頁,共56頁,2023年,2月20日,星期六解得估計值第28頁,共56頁,2023年,2月20日,星期六第29頁,共56頁,2023年,2月20日,星期六多元線性回歸中的檢驗與預測第30頁,共56頁,2023年,2月20日,星期六(殘差平方和)F檢驗法第31頁,共56頁,2023年,2月20日,星期六多元線性回歸

b=regress(Y,X)1)確定回歸系數(shù)的點估計值:MATLAB多元回歸命令對一元線性回歸,取p=1即可.第32頁,共56頁,2023年,2月20日,星期六3、畫出殘差及其置信區(qū)間:

rcoplot(r,rint)2)求回歸系數(shù)的點估計和區(qū)間估計、并檢驗回歸模型:

[b,bint,r,rint,stats]=regress(Y,X,alpha)回歸系數(shù)的區(qū)間估計殘差用于檢驗回歸模型的統(tǒng)計量,有三個數(shù)值:相關(guān)系數(shù)r2、F值、與F對應的概率p置信區(qū)間顯著性水平(缺省時為0.05)第33頁,共56頁,2023年,2月20日,星期六法一直接作二次多項式回歸:

t=1/30:1/30:14/30;s=[11.8615.6720.6026.6933.7141.9351.1361.4972.9085.4499.08113.77129.54146.48];

[p,S]=polyfit(t,s,2)得回歸模型為:第34頁,共56頁,2023年,2月20日,星期六法二化為多元線性回歸:t=1/30:1/30:14/30;s=[11.8615.6720.6026.6933.7141.9351.1361.4972.9085.4499.08113.77129.54146.48];T=[ones(14,1),t’,(t.^2)'];[b,bint,r,rint,stats]=regress(s',T);b,stats得回歸模型為:Y=polyconf(p,t,S)plot(t,s,'k+',t,Y,'r')預測及作圖第35頁,共56頁,2023年,2月20日,星期六(2)預測(A)點預測(B)區(qū)間預測第36頁,共56頁,2023年,2月20日,星期六逐步回歸分析

實際問題中影響因變量的因素可能很多,我們希望從中挑選出影響顯著的自變量來建立回歸模型,這就涉及到變量選擇的問題。逐步回歸是一種從眾多變量中有效地選擇重要變量的方法。它是在多元線性回歸的基礎(chǔ)上派生出來的一種算法技巧。

“最優(yōu)”的回歸方程就是包含所有對Y有影響的變量,而不包含對Y影響不顯著的變量回歸方程。如果采用的自變量越多,則回歸平方和越大,殘差平方和越小,然而較多的變量來擬合回歸方程,得到的防策劃能夠穩(wěn)定性差,用它作預測可靠性差,精度低.另一方面,如果采用了y影響較小的變量而遺漏了重要變量,可導致估計量產(chǎn)生偏崎和不一致性.為此,我們希望得到“最優(yōu)”的回歸方程.第37頁,共56頁,2023年,2月20日,星期六(4)“有進有出”的逐步回歸分析。(1)從所有可能的因子(變量)組合的回歸方程中選擇最優(yōu)者;(2)從包含全部變量的回歸方程中逐次剔除不顯著因子;(3)從一個變量開始,把變量逐個引入方程;選擇“最優(yōu)”的回歸方程有以下幾種方法:以第四種方法,即逐步回歸分析法在篩選變量方面較為理想.第38頁,共56頁,2023年,2月20日,星期六這個過程反復進行,直至既無不顯著的變量從回歸方程中剔除,又無顯著變量可引入回歸方程時為止。逐步回歸分析法的思想:從一個自變量開始,視自變量Y作用的顯著程度,從大到小地依次逐個引入回歸方程。當引入的自變量由于后面變量的引入而變得不顯著時,要將其剔除掉。引入一個自變量或從回歸方程中剔除一個自變量,為逐步回歸的一步。對于每一步都要進行Y值檢驗,以確保每次引入新的顯著性變量前回歸方程中只包含對Y作用顯著的變量。第39頁,共56頁,2023年,2月20日,星期六逐步回歸matalb逐步回歸的命令是:

stepwise(x,y,inmodel,alpha)運行stepwise命令時產(chǎn)生三個圖形窗口:StepwisePlot,StepwiseTable,StepwiseHistory.在StepwisePlot窗口,顯示出各項的回歸系數(shù)及其置信區(qū)間.

StepwiseTable窗口中列出了一個統(tǒng)計表,包括回歸系數(shù)及其置信區(qū)間,以及模型的統(tǒng)計量剩余標準差(RMSE)、相關(guān)系數(shù)(R-square)、F值、與F對應的概率P.矩陣的列數(shù)的指標,給出初始模型中包括的子集(缺省時設定為全部自變量)顯著性水平(缺省時為0.05)自變量數(shù)據(jù),

階矩陣因變量數(shù)據(jù), 階矩陣第40頁,共56頁,2023年,2月20日,星期六例6

水泥凝固時放出的熱量y與水泥中4種化學成分x1、x2、x3、x4

有關(guān),今測得一組數(shù)據(jù)如下,試用逐步回歸法確定一個線性模型.1、數(shù)據(jù)輸入:x1=[7111117113122111110]';x2=[26295631525571315447406668]';x3=[615886917221842398]';x4=[6052204733226442226341212]';y=[78.574.3104.387.695.9109.2102.772.593.1115.983.8113.3109.4]';x=[x1x2x3x4];第41頁,共56頁,2023年,2月20日,星期六2、逐步回歸:(1)先在初始模型中取全部自變量:

stepwise(x,y)圖StepwisePlot中四條直線都是紅線線,說明模型的顯著性不好第42頁,共56頁,2023年,2月20日,星期六(2)在圖StepwisePlot中點擊直線3和直線4,移去變量x3和x4移去變量x3和x4后模型具有顯著性.雖然剩余標準差(RMSE)沒有太大的變化,但是統(tǒng)計量F的值明顯增大,因此新的回歸模型更好.第43頁,共56頁,2023年,2月20日,星期六(3)對變量y和x1、x2作線性回歸:

X=[ones(13,1)x1x2];b=regress(y,X)得結(jié)果:b=52.57731.46830.6623故最終模型為:y=52.5773+1.4683x1+0.6623x2第44頁,共56頁,2023年,2月20日,星期六1.6.3多元二項式回歸命令:rstool(x,y,’model’,alpha)nm矩陣顯著性水平(缺省時為0.05)n維列向量第45頁,共56頁,2023年,2月20日,星期六

命令rstool產(chǎn)生一個交互式畫面,畫面中有m個圖形,這m個圖形分別給出了一個獨立變量xi(另m-1個變量取固定值)與y的擬合曲線,以及y的置信區(qū)間。可以通過鍵入不同的xi值來獲得相應的y值。第46頁,共56頁,2023年,2月20日,星期六例3

設某商品的需求量與消費者的平均收入、商品價格的統(tǒng)計數(shù)據(jù)如下,建立回歸模型,預測平均收入為800、價格為6時的商品需求量.解直接用多元二項式回歸:x1=[10006001200500300400130011001300300];x2=[5766875439];y=[10075807050659010011060]';x=[x1'x2'];rstool(x,y,'purequadratic')第47頁,共56頁,2023年,2月20日,星期六在畫面左下方的下拉式菜單中選”all”,則beta(回歸系數(shù))、rmse(剩余標準差)和residuals(殘差)都傳送到Matlab工作區(qū)中.在左邊圖形下方的方框中輸入800,右邊圖形下方的方框中輸入6。則畫面左邊的“PredictedY”下方的數(shù)據(jù)變?yōu)?6.3971,即預測出平均收入為800、價格為6時的商品需求量為86.3971.第48頁,共56頁,2023年,2月20日,星期六在Matlab工作區(qū)中輸入命令:beta,rmse第49頁,共56頁,2023年,2月20日,星期六非線性回歸(1)確定回歸系數(shù)的命令:

[beta,r,J]=nlinfit(x,y,’model’,beta0)(2)非線性回歸命令:nlintool(x,y,’model’,beta0,alpha)1.7.1回歸:殘差Jacobian矩陣,用于估計預測誤差需要的數(shù)據(jù)?;貧w系數(shù)的初值是事先用m-文件定義的非線性函數(shù)估計出的回歸系數(shù)輸入數(shù)據(jù)x、y分別為矩陣和n維列向量,對一元非線性回歸,x為n維列向量。其中個參數(shù)含義同前,alpha為顯著性水平,缺省時為0.05。該命令產(chǎn)生一個交互式的畫面,畫面中有擬合曲線和y的置信區(qū)間。通過左下方的Export菜單,可以輸出回歸系數(shù)等。第50頁,共56頁,2023年,2月20日,星期六預測和預測誤差估計:該命令用于求nlinfit或nlintool所得的回歸函數(shù)在x處的預測值Y及預測值的顯著性為1-alpha的置信區(qū)間YDELTA.[Y,DELTA]=nlpredci(’model’,x,beta,r,J)第51頁,共56頁,2023年,2月20日,星期六例4

對第一節(jié)例2,求解如下:

clearyhat=inline('beta(1)*exp(beta(2)./x)','beta','x')x=2:16;y=[6.428.209.589.59.7109.939.9910.4910.5910.6010.8010.6010.9010.76];beta0=[82]';[beta,r,J]=nlinfit(x',y',yhat,beta0)3、求回歸系數(shù):

[beta,r,J]=nlinfit(x',y','volum',beta0);

beta得結(jié)果:beta=11.6036-1.0641即得回歸模型為:1、對將要擬合的非線性模型y=a*exp(b/x)第52頁,共56頁,2023年,2月20日,星期六4、預測及作圖:

[YY,delta]=nlpredci('volum',x',beta,r,J);

plot(x,y,'k+',x,YY,'r')第53頁,共56頁,2023年,2月20日,星期六練習1、經(jīng)研究發(fā)現(xiàn),家庭書刊消費受家庭收入幾戶主受教育年數(shù)的影響,表中為對某地區(qū)部分家庭抽樣調(diào)查得到樣本數(shù)據(jù):家庭書刊年消費支出(元)Y家庭月平均收入(元)X戶主受教育年數(shù)(年)T家庭書刊年消費支出(元)Y家庭月平均收入(元)X戶主受教育年數(shù)/(年)T4501027.28793.21998.614507.71045.29660.8219610613.91225.812792.72105.412563.41312.29580.82147.48501.51316.47612.7215410781.51442.415890.82231.414541.81641911212611.818611.11768.8101094.23143.4161222.1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論