數(shù)據(jù)分析處理 (1).ppt_第1頁
數(shù)據(jù)分析處理 (1).ppt_第2頁
數(shù)據(jù)分析處理 (1).ppt_第3頁
數(shù)據(jù)分析處理 (1).ppt_第4頁
數(shù)據(jù)分析處理 (1).ppt_第5頁
已閱讀5頁,還剩114頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、數(shù)據(jù)處理專題,數(shù)據(jù)處理是指用簡明而嚴(yán)格的方法把獲得的實(shí)驗(yàn)數(shù)據(jù)所代表的事物內(nèi)在的規(guī)律提煉出來,得出結(jié)果的加工過程,包括數(shù)據(jù)記錄、描繪曲線,從帶有誤差的數(shù)據(jù)中提取參數(shù),驗(yàn)證和尋找經(jīng)驗(yàn)規(guī)律,外推實(shí)驗(yàn)數(shù)據(jù)等等。本章介紹一些最基本的數(shù)據(jù)處理方法。,3 協(xié)方差及相關(guān)系數(shù),對于二維隨機(jī)變量(X,Y),除了討論X與Y的數(shù)學(xué)期望和方差外,還需討論描述X與Y之間相互關(guān)系的數(shù)字特征。這就是本節(jié)的內(nèi)容。 定義:,數(shù)據(jù)處理的過程:,1、獲得數(shù)據(jù)(標(biāo)準(zhǔn)化處理)。 2、將數(shù)據(jù)分類(聚類分析)。 3、提取主要影響因素( 主成分分析)。 4、數(shù)據(jù)分析(相關(guān)性分析,回歸分析)。,聚類分析,聚類也就是分類,在社會經(jīng)濟(jì)領(lǐng)域中存在大量

2、的分類問題,比如三十個(gè)省市自治區(qū)獨(dú)立核算工業(yè)企業(yè)經(jīng)濟(jì)效益進(jìn)行分析,一般不是逐個(gè)省市自治區(qū)去分析,而較好的做法是選取具有代表性的指標(biāo)如,百元固定資產(chǎn)實(shí)現(xiàn)利稅,資金利稅率、產(chǎn)值利稅率、百元銷售收入實(shí)現(xiàn)利潤、全員勞動生產(chǎn)率等等,根據(jù)這些指標(biāo)對省市自治區(qū)分類,然后根據(jù)分類結(jié)果對企業(yè)經(jīng)濟(jì)效益進(jìn)行綜合評價(jià)。,聚類分析方法,系統(tǒng)聚類法、有序樣品聚類法、動態(tài)聚類法、模糊聚類法、圖論聚類法、聚類預(yù)報(bào)法等。我們著重講述系統(tǒng)聚類法。對樣品分類成Q分類,對指標(biāo)分類稱R分類,聚類的三種尺度: 1、間隔尺度:變量是用連續(xù)量來表示,如長度、重量等 2、有序尺度:用一些等級來表示。如上中下三等。 3、名義尺度:既沒有數(shù)量表示

3、也沒有次序表示。如紅黃藍(lán)三色等,我們通過距離來分類。方法有:最短距離法、最長距離法、中間距離法、重心法等。我們用最短距離法來講述,其它方法讀者自己翻閱相關(guān)的多元統(tǒng)計(jì)教材。,最短距離法步驟如下: 【1】定義樣品之間的距離,計(jì)算樣品兩兩距離,得一距離記為D(0) 開始每個(gè)樣品自成一類,顯然這時(shí)Dij =dij。其中D表示類G之間的距離,d表示樣品之間的距離。 【2】找出D(0) 的非對角線最小元素,設(shè)為Dpq,則將Gp和Gq合并為一新類,記為Gr 。 【3】給出計(jì)算新類與其他的類的距離公式: 距離公式有:歐氏距離,馬氏距離,蘭氏距離等。我們一般用馬氏距離,應(yīng)為它即排除了各指標(biāo)之間相關(guān)性的干擾,而且

4、還不受各指標(biāo)量綱的影響。 兩個(gè)樣本間的距離定義:,其中,Xi 為樣品的p個(gè)指標(biāo)組成的向量。,協(xié)方差陣的逆矩陣,協(xié)方差陣定義如下:,樣品到總體的距離定義:,總體均值向量,Dkr=minDkp,Dkq將D(0)中的第p、q行及p、q列用上面公式并成一個(gè)新行新列,新行新列對應(yīng)Gr,所得到得矩陣記為D(1) 【4】對D(1)重復(fù)上述對D(0)的(2)(3)兩步得D(2);如此下去,直到所有的元素并為一類。 注意:如果某一步中非對角線最小的元素不止一個(gè),則對應(yīng)這些最小元素的類可以同時(shí)合并。 為了大家便于掌握我們舉例如下:,例:設(shè)抽取五個(gè)樣品,每個(gè)樣品只測一個(gè)指標(biāo),它們是1,2,3.5,7,9,試用最短距

5、離法對這五個(gè)樣品進(jìn)行分類。 解:我們距離選用我們所熟悉的絕對值距離。,最終我們分為兩類比較合適,x1,x2,x3與x4,x5,Step1 尋找變量之間的相似性 用pdist函數(shù)計(jì)算相似矩陣,有多種方法可以計(jì)算距離,進(jìn)行計(jì)算之前最好先將數(shù)據(jù)用zscore函數(shù)進(jìn)行標(biāo)準(zhǔn)化。 X=1,2,3.5,7,9 X2=zscore(X); %標(biāo)準(zhǔn)化數(shù)據(jù) Y2=pdist(X2); %計(jì)算距離 Step2 定義變量之間的連接 Z2=linkage(Y2); Step3 評價(jià)聚類信息 C2=cophenet(Z2,Y2); /0.94698 Step4 創(chuàng)建聚類,并作出譜系圖 T=cluster(Z2,2); H

6、=dendrogram(Z2);%畫出聚類圖,matlab做聚類分析,分步聚類:(1)找到數(shù)據(jù)集合中變量兩兩之間的相似性和非相似性,用pdist函數(shù)計(jì)算變量之間的距離;(2)用 linkage函數(shù)定義變量之間的連接;(3)用 cophenetic函數(shù)評價(jià)聚類信息;(4)用cluster函數(shù)創(chuàng)建聚類。,例 為了更深入了解我國人口的文化程度狀況,1990年全國人口普查數(shù)據(jù)對全國30個(gè)省直轄市、自治區(qū)進(jìn)行聚類分析。分析選用了三個(gè)指標(biāo):【1】大學(xué)以上文化程度的人口占全部人口的比例(DXBZ);【2】初中以上文化程度的人口占全部人口的比例(CZBZ);【3】文盲半文盲的人口占全部人口的比例(WMBZ);

7、分別用來反映較高、中等、較低文化程度人口的狀況,原始數(shù)據(jù)如附件:,clear clc X=load(data1.txt) Y2=pdist(X);%計(jì)算距離 Z2=linkage(Y2); C2=cophenet(Z2,Y2); T=cluster(Z2,4); H=dendrogram(Z2);%畫出聚類圖,pdist函數(shù) 調(diào)用格式:Y=pdist(X,metric) 說明:用 metric指定的方法計(jì)算 X 數(shù)據(jù)矩陣中對象之間的距離。 X:一個(gè)mn的矩陣,它是由m個(gè)對象組成的數(shù)據(jù)集,每個(gè)對象的大小為n。 metric取值如下: euclidean:歐氏距離(默認(rèn));seuclidean:標(biāo)

8、準(zhǔn)化歐氏距離; mahalanobis:馬氏距離;cityblock:布洛克距離; minkowski:明可夫斯基距離;cosine: chebychev:Chebychev距離。,linkage函數(shù) 調(diào)用格式:Z=linkage(Y,method) 說 明:用method參數(shù)指定的算法計(jì)算系統(tǒng)聚類樹。 Y:pdist函數(shù)返回的距離向量; method:可取值如下: single:最短距離法(默認(rèn)); complete:最長距離法; average:未加權(quán)平均距離法; weighted: 加權(quán)平均法; centroid:質(zhì)心距離法; median:加權(quán)質(zhì)心距離法; ward:內(nèi)平方距離法(最小

9、方差算法),練習(xí)題 根據(jù)信息基礎(chǔ)設(shè)施的發(fā)展?fàn)顩r,對二十個(gè)國家的地區(qū)進(jìn)行分類。,主成分分析 在實(shí)際問題中,研究多指標(biāo)的問題是經(jīng)常遇到的,然而在多數(shù)情況下,不同指標(biāo)之間是有一定關(guān)系的。由于指標(biāo)較多再加上指標(biāo)之間有一定的相關(guān)性,勢必增加了分析問題的復(fù)雜性。主成分分析就是設(shè)法將原來指標(biāo)重新組合成一組新的互相無關(guān)的幾個(gè)綜合指標(biāo)來代替原來指標(biāo),同時(shí)根據(jù)實(shí)際需要從中可取幾個(gè)較少的綜合指標(biāo)盡可能多滴反映原來指標(biāo)的信息。這種多個(gè)指標(biāo)化為少數(shù)互不干擾的綜合指標(biāo)的統(tǒng)計(jì)方法叫做主成分分析法,如某人要做一件上衣要測量很多尺寸,如身長、袖長、胸圍、腰圍、肩寬、肩厚等十幾項(xiàng)指標(biāo)。但是某服裝產(chǎn)生產(chǎn)一批新型服裝絕不可能吧尺寸型

10、號分的過多。而是從其中選取幾個(gè)綜合性的指標(biāo)作為分類型號。1、反映胖瘦。2、反映特體。3反映長度。,計(jì)算步驟 設(shè)有n個(gè)樣品,每個(gè)樣品觀測p個(gè)指標(biāo),將原始數(shù)據(jù)寫成矩陣形式,1、將原始數(shù)據(jù)標(biāo)準(zhǔn)化,2、建立變量的相關(guān)系數(shù)陣,3、求R的特征根及相應(yīng)的單位特征向量a1,a2,.ap,4、寫出主成分,一般取累計(jì)貢獻(xiàn)率達(dá)8595%的特征值,所對應(yīng)的第一、第二,第m(mp)個(gè)主成分。,特征值大的貢獻(xiàn)大。 貢獻(xiàn)率=特征值/所有特征值和,例 中國大陸35個(gè)大城市某年的10項(xiàng)社會經(jīng)濟(jì)統(tǒng)計(jì)指標(biāo)指標(biāo)做主成分分析數(shù)據(jù)見下表。,相關(guān)系數(shù)矩陣: std = 1.0000 -0.3444 0.8425 0.3603 0.7390

11、 0.6215 0.4039 0.4967 0.6761 0.4689 -0.3444 1.0000 -0.4750 0.3096 -0.3539 0.1971 0.3571 0.2600 0.1570 0.3090 0.8425 -0.4750 1.0000 0.3358 0.5891 0.5056 0.3236 0.4456 0.5575 0.3742 0.3603 0.3096 0.3358 1.0000 0.1507 0.7664 0.9412 0.8480 0.7320 0.8614 0.7390 -0.3539 0.5891 0.1507 1.0000 0.4294 0.1971

12、0.3182 0.3893 0.2595 0.6215 0.1971 0.5056 0.7664 0.4294 1.0000 0.8316 0.8966 0.9302 0.9027 0.4039 0.3571 0.3236 0.9412 0.1971 0.8316 1.0000 0.9233 0.8376 0.9527 0.4967 0.2600 0.4456 0.8480 0.3182 0.8966 0.9233 1.0000 0.9201 0.9731 0.6761 0.1570 0.5575 0.7320 0.3893 0.9302 0.8376 0.9201 1.0000 0.9396

13、 0.4689 0.3090 0.3742 0.8614 0.2595 0.9027 0.9527 0.9731 0.9396 1.0000,pcacov 功能:運(yùn)用協(xié)方差矩陣進(jìn)行主成分分析 格式:PC=pcacov(X) PC,latent,explained=pcacov(X) 說明:PC,latent,explained=pcacov(X)通過協(xié)方差矩陣X進(jìn)行主成分分析,返回主成分(PC)、協(xié)方差矩陣X的特征值(latent)和每個(gè)特征向量表征在觀測量總方差中所占的百分?jǐn)?shù)(explained)。,特征值(val) val = 0.0039 0 0 0 0 0 0 0 0 0 0 0.02

14、40 0 0 0 0 0 0 0 0 0 0 0.0307 0 0 0 0 0 0 0 0 0 0 0.0991 0 0 0 0 0 0 0 0 0 0 0.1232 0 0 0 0 0 0 0 0 0 0 0.2566 0 0 0 0 0 0 0 0 0 0 0.3207 0 0 0 0 0 0 0 0 0 0 0.5300 0 0 0 0 0 0 0 0 0 0 2.3514 0 0 0 0 0 0 0 0 0 0 6.2602,特征根排序: 6.26022 2.35138 0.530047 0.320699 0.256639 0.123241 0.0990915 0.0307088 0.

15、0240355 0.00393387,特征向量(vec):,-0.1367 0.2282 -0.2628 0.1939 0.6371 -0.2163 0.3176 -0.1312 -0.4191 0.2758 -0.0329 -0.0217 0.0009 0.0446 -0.1447 -0.4437 0.4058 -0.5562 0.5487 0.0593 -0.0522 -0.0280 0.2040 -0.0492 -0.5472 -0.4225 0.3440 0.3188 -0.4438 0.2401 0.0067 -0.4176 -0.2856 -0.2389 0.1926 -0.491

16、5 -0.4189 0.2726 0.2065 0.3403 0.0404 0.1408 0.0896 0.0380 -0.1969 -0.0437 -0.4888 -0.6789 -0.4405 0.1861 -0.0343 0.2360 0.0640 -0.8294 0.0377 0.2662 0.1356 -0.1290 0.0278 0.3782 0.2981 0.4739 0.5685 0.2358 0.1465 -0.1502 -0.2631 0.1245 0.2152 0.3644 0.1567 0.3464 -0.6485 0.2489 -0.4043 0.2058 -0.07

17、04 0.0462 0.1214 0.3812 0.4879 -0.5707 0.1217 0.1761 0.0987 0.3550 0.3280 -0.0139 0.0071 0.3832 -0.7894 -0.1628 0.1925 0.2510 -0.0422 0.2694 0.0396 0.0456 0.1668 0.3799,于是的三個(gè)指標(biāo)為: Y1=-0.1312*x1-0.5562*x2+0.3188*x3+.+ 0.0456*x10 Y2=-0.4191*x1+0.5487*x2+.+0.1668*x10 Y3=0.2758*x1+ 0.0593*x2+.+0.3799*x10

18、,通過觀察我們發(fā)現(xiàn)Y1當(dāng)中x2,x5的系數(shù)比較大,即影響Y1比較明顯因此我們可將Y1看做反映非農(nóng)業(yè)人口比與客運(yùn)總量的綜合指標(biāo)。,練習(xí)、我們給出了各地的企業(yè)的經(jīng)濟(jì)效益狀況,通過相關(guān)的方法對各地的經(jīng)濟(jì)效益做分析。數(shù)據(jù)如下表:,進(jìn)一步還可做因子分析。,相關(guān)性分析,在一元統(tǒng)計(jì)分析中,研究兩入隨機(jī)變量之間的線性相關(guān)關(guān)系、 可用相關(guān)系數(shù)(稱為簡單相關(guān)系數(shù));研究一個(gè)隨機(jī)變量與多個(gè)隨 機(jī)變量之間的線性相關(guān)關(guān)系,可用復(fù)相關(guān)系數(shù)(稱為全相關(guān)系 數(shù))將它推廣到研究多個(gè)隨機(jī)變量與多個(gè)隨機(jī)變量之間的相關(guān)關(guān)系的討論中, 提出了典型相關(guān)分析。 實(shí)際問題中,兩組變量之間具有相關(guān)關(guān)系的問題很多,例如 幾種主要產(chǎn)品如豬肉、牛肉

19、、雞蛋的價(jià)格(作為第一組變量)和 相應(yīng)這些產(chǎn)品的銷售量(作為第二組變量)有相關(guān)關(guān)系;投資性 變量(如勞動各人數(shù)、貨物周轉(zhuǎn)量、生產(chǎn)建設(shè)投資等)與國民收 入變量(如工農(nóng)業(yè)國民收入、運(yùn)輸業(yè)國民收入、建筑業(yè)國民收入 等)只有相關(guān)關(guān)系;患某種疾病的病人的各種癥狀程度(第一組 變量)和用物理化學(xué)方法檢驗(yàn)的結(jié)果(第二組變量)具有相關(guān)關(guān) 系;運(yùn)動員的體力測試指標(biāo)(如反復(fù)橫向跳、縱跳、背力、握力 等)與運(yùn)動能力測試指標(biāo)(如耐力跑、跳遠(yuǎn)、投球等)之間具有 相關(guān)關(guān)系等等。,典型相關(guān)分析就是研究兩組變量之間相關(guān)關(guān)系的一種多元統(tǒng)計(jì)方法,設(shè)兩組變量用x1,x2,xn和y1,y2yn表示,要研究兩組變量的相關(guān)關(guān)系,一種方法

20、是分別研究X和Y之間的相關(guān)關(guān)系,然后列出相關(guān)系數(shù)表進(jìn)行分析,當(dāng)兩組變量較多時(shí),這樣做法不僅煩瑣也不易抓住問題的實(shí)際;另一種方法采用 類似主成分分析的做法在每一組變量中都選擇若干個(gè)有代表性的綜合指標(biāo)(變量的線性組合),通道研究兩組的綜合指標(biāo)之間的關(guān)系來反映兩組變量之間關(guān)系比如豬肉價(jià)格和牛肉價(jià)格用x1,X2表示,它們的銷售售量用X,xl表示,研究它們之間的相又關(guān)系,從經(jīng)濟(jì)學(xué)觀點(diǎn)就是希望構(gòu)造一個(gè)X1、x2的線性函數(shù)入y1a11X1十a(chǎn)12x2稱為價(jià)格指數(shù)及x3、x4的線性函數(shù)y2a21x3十a(chǎn)22X4稱為銷售指數(shù),要求它們之間具有最大相關(guān)性,這就是一個(gè)典型相關(guān)分析問題。,1.插值擬合 2.線性回歸

21、4.灰色分析 5.神經(jīng)網(wǎng)絡(luò),在解決實(shí)際問題的生產(chǎn)(或工程)實(shí)踐和科學(xué)實(shí)驗(yàn)過程中,通常需要通過研究某些變量之間的函數(shù)關(guān)系來幫助我們認(rèn)識事物的內(nèi)在規(guī)律和本質(zhì)屬性,而這些變量之間的未知函數(shù)關(guān)系又常常隱含在從試驗(yàn)、觀測得到的一組數(shù)據(jù)之中。因此,能否根據(jù)一組試驗(yàn)觀測數(shù)據(jù)找到變量之間相對準(zhǔn)確的函數(shù)關(guān)系就成為解決實(shí)際問題的關(guān)鍵。 例如在工程實(shí)踐和科學(xué)實(shí)驗(yàn)中,常常需要從一組試驗(yàn)觀測數(shù)據(jù)(xi ,yi ) ,i = 0,1,.,n之中找到自變量x與因變量y 之間的函數(shù)關(guān)系,一般可用一個(gè)近似函數(shù)y = f (x)來表示。函數(shù)y = f (x)的產(chǎn)生辦法因觀測數(shù)據(jù)和要求不同而異,通??刹捎脭?shù)據(jù)擬合與函數(shù)插值兩種辦法

22、來實(shí)現(xiàn)。,數(shù)據(jù)擬合主要是考慮到觀測數(shù)據(jù)受隨機(jī)觀測誤差的影響,進(jìn)而尋求整體誤差最小、能較好反映觀測數(shù)據(jù)的近似函數(shù)y = f (x),此時(shí)并不要求所得到的近似函數(shù)y = f (x)滿足yi= f (xi) , i = 0,1,n。,函數(shù)插值則要求近似函數(shù)y = f (x)在每一個(gè)觀測點(diǎn)i x 處一定要滿足y i= f (xi) , i = 0,1,n ,在這種情況下,通常要求觀測數(shù)據(jù)相對比較準(zhǔn)確,即不考慮觀測誤差的影響。,在實(shí)際問題中,通過觀測數(shù)據(jù)能否正確揭示某些變量之間的關(guān)系,進(jìn)而正確認(rèn)識事物的內(nèi)在規(guī)律與本質(zhì)屬性,往往取決于兩方面因素。其一是觀測數(shù)據(jù)的準(zhǔn)確性或準(zhǔn)確程度,這是因?yàn)樵讷@取觀測數(shù)據(jù)的過

23、程中一般存在隨機(jī)測量誤差,導(dǎo)致所討論的變量成為隨機(jī)變量。其二是對觀測數(shù)據(jù)處理方法的選擇,即到底是采用插值方法還是用擬合方法,插值方法之中、擬合方法之中又選用哪一種插值或擬合技巧來處理觀測數(shù)據(jù)。插值問題忽略了觀測誤差的影響,而擬合問題則考慮了觀測誤差的影響。但由于觀測數(shù)據(jù)客觀上總是存在觀測誤差,而擬合函數(shù)大多數(shù)情況下是通過經(jīng)驗(yàn)公式獲得的,因此要正確揭示事物的內(nèi)在規(guī)律,往往需要對大量的觀測數(shù)據(jù)進(jìn)行分析,尤為重要的是進(jìn)行統(tǒng)計(jì)分析。統(tǒng)計(jì)分析的方法有許多,如方差分析、回歸分析等。,數(shù)據(jù)擬合雖然較有效地克服了隨機(jī)觀測誤差的影響,但從數(shù)理統(tǒng)計(jì)的角度看,根據(jù)一個(gè)樣本計(jì)算出來的擬合函數(shù)(系數(shù)),只是擬合問題的一

24、個(gè)點(diǎn)估計(jì),還不能完全說明其整體性質(zhì)。因此,還應(yīng)該對擬合函數(shù)作區(qū)間估計(jì)或假設(shè)檢驗(yàn),如果置信區(qū)間太大或包含零點(diǎn),則由計(jì)算得到的擬合函數(shù)系數(shù)的估計(jì)值就毫無意義。這里所采用的統(tǒng)計(jì)分析方法就是所謂的回歸分析。另外還可用方差分析的方法對模型的誤差作定量分析。,對于插值方法,本章簡單介紹最常用的插值法的基本結(jié)論及其Matlab實(shí)現(xiàn)問題。由于數(shù)據(jù)擬合問題必須作區(qū)間估計(jì)或假設(shè)檢驗(yàn),所以除了在本章介紹最基本的數(shù)據(jù)擬合方法最小二乘法的基本結(jié)論及其Matlab實(shí)現(xiàn)問題外,我們在專門介紹了對數(shù)值擬合問題進(jìn)行區(qū)間估計(jì)或假設(shè)檢驗(yàn)的統(tǒng)計(jì)方法,,即介紹回歸分析方法及其Matlab實(shí)現(xiàn)。 數(shù)據(jù)處理問題通常情況下只是某個(gè)復(fù)雜實(shí)際問

25、題的一個(gè)方面或部分內(nèi)容,因而這里所介紹的數(shù)據(jù)處理方法函數(shù)插值和數(shù)據(jù)擬合的方法(包括回歸分析)通常只能解決實(shí)際問題中的部分問題計(jì)算問題。一般來說,對實(shí)際問題進(jìn)行數(shù)學(xué)建模需要用到多方面知識,只有很少的情況下可以單獨(dú)使用本章所介紹的內(nèi)容,故我們只在本章最后一節(jié)以修改后的美國91年數(shù)學(xué)建模A題為例說明如何使用數(shù)值計(jì)算知識建立數(shù)學(xué)模型,從而解決實(shí)際問題的方法。,插值方法,1、拉格朗日插值法,2、分段線性插值法,分段線性插值的Matlab實(shí)現(xiàn) 用Matlab實(shí)現(xiàn)分段線性插值不需要編制函數(shù)程序,Matlab中有現(xiàn)成的一維插值函數(shù)interp1。 y=interp1(x0,y0,x,method) metho

26、d指定插值的方法,默認(rèn)為線性插值。其值可為: nearest 最近項(xiàng)插值 linear 線性插值 spline 立方樣條插值 cubic 立方插值。,3、三次樣條插值法,Matlab中三次樣條插值也有現(xiàn)成的函數(shù): y=interp1(x0,y0,x,spline); y=spline(x0,y0,x); pp=csape(x0,y0,conds), pp=csape(x0,y0,conds,valconds),y=ppval(pp,x)。 其中x0,y0是已知數(shù)據(jù)點(diǎn),x是插值點(diǎn),y是插值點(diǎn)的函數(shù)值。,對于三次樣條插值,我們提倡使用函數(shù)csape,csape的返回值是pp形式,要求插值點(diǎn)的函數(shù)值

27、,必須調(diào)用函數(shù)ppval。,例1 機(jī)床加工 待加工零件的外形根據(jù)工藝要求由一組數(shù)據(jù)(x, y)給出(在平面情況下),用程控銑床加工時(shí)每一刀只能沿x方向和y 方向走非常小的一步,這就需要從已知數(shù)據(jù)得到加工所要求的步長很小的(x, y)坐標(biāo)。 表中給出的x, y數(shù)據(jù)位于機(jī)翼斷面的下輪廓線上,假設(shè)需要得到x坐標(biāo)每改變0.1時(shí)的y坐標(biāo)。試完成加工所需數(shù)據(jù),畫出曲線,并求出x = 0處的曲線斜率和13 x 15范圍內(nèi)y 的最小值。 x 0 3 5 7 9 11 12 13 14 15 y 0 1.2 1.7 2.0 2.1 2.0 1.8 1.2 1.0 1.6 要求用分段線性和三次樣條two種插值方法

28、計(jì)算。,x0=0 3 5 7 9 11 12 13 14 15; y0=0 1.2 1.7 2.0 2.1 2.0 1.8 1.2 1.0 1.6; x=0:0.1:15; y2=interp1(x0,y0,x,linear); y3=interp1(x0,y0,x,spline); pp1=csape(x0,y0); y4=ppval(pp1,x); pp2=csape(x0,y0,second); y5=ppval(pp2,x); subplot(2,2,2) plot(x0,y0,+,x,y2) title(Piecewise linear) subplot(2,2,3) plot(x0

29、,y0,+,x,y3) title(Spline1),subplot(2,2,4) plot(x0,y0,+,x,y4) title(Spline2) dx=diff(x); dy=diff(y3); dy_dx=dy./dx; dy_dx0=dy_dx(1) ytemp=y3(131:151); ymin=min(ytemp); index=find(y3=ymin); xmin=x(index); xmin,ymin,計(jì)算結(jié)果略。 可以看出,分段線性插值的光滑性較差(特別是在x = 14附近彎曲處),建議選用三次樣條插值的結(jié)果。,五 一維插值總結(jié) 插值函數(shù)一般是已知函數(shù)的線性組合或者稱為加

30、權(quán)平均。在已知數(shù)據(jù)點(diǎn)較少時(shí),插值技術(shù)在工程實(shí)踐和科學(xué)實(shí)驗(yàn)中有著廣泛而又十分重要的應(yīng)用。例如在信息技術(shù)中的圖像重建、圖像放大過程中為避免圖像失真、扭曲而增加的插值補(bǔ)點(diǎn),建筑工程的外觀設(shè)計(jì),化學(xué)工程試驗(yàn)數(shù)據(jù)與模型分析,天文觀測數(shù)據(jù)、地理信息數(shù)據(jù)的處理,社會經(jīng)濟(jì)現(xiàn)象的統(tǒng)計(jì)分析等方面,插值技術(shù)的應(yīng)用是不可或缺的。,插值技術(shù)(或方法)遠(yuǎn)不止這里所介紹的這些,但在解決實(shí)際問題時(shí),對于一維插值問題而言,前面介紹的插值方法已經(jīng)足夠了。剩下的問題關(guān)鍵在于什么情況下使用、怎樣使用和使用何種插值方法的選擇上。 拉格朗日插值函數(shù)在整個(gè)插值區(qū)間上有統(tǒng)一的解析表達(dá)式,其形式關(guān)于節(jié)點(diǎn)對稱,光滑性好。但缺點(diǎn)同樣明顯,這主要體

31、現(xiàn)在高次插值收斂性差(龍格現(xiàn)象);增加節(jié)點(diǎn)時(shí)前期計(jì)算作廢,導(dǎo)致計(jì)算量大;一個(gè)節(jié)點(diǎn)函數(shù)值的微小變化(觀測誤差存在)將導(dǎo)致整個(gè)區(qū)間上插值函數(shù)都發(fā)生改變,因而穩(wěn)定性差等幾個(gè)方面。因此拉格朗日插值法多用于理論分析,在采用拉格朗日插值方法進(jìn)行插值計(jì)算時(shí)通常選取n 7。分段線性插值函數(shù)(僅連續(xù))與三次樣條插值函數(shù)(二階導(dǎo)數(shù)連續(xù))雖然光滑性差,但他們都克服了拉格朗日插值函數(shù)的缺點(diǎn),不僅收斂性、穩(wěn)定性強(qiáng),而且方法簡單實(shí)用,計(jì)算量小。因而應(yīng)用十分廣泛。,數(shù)據(jù)擬合,在科學(xué)計(jì)算中經(jīng)常要建立實(shí)驗(yàn)數(shù)據(jù)的數(shù)學(xué)模型。給定函數(shù)的實(shí)驗(yàn)數(shù)據(jù),需要用比較簡單和合適的函數(shù)來逼近(或擬合)實(shí)驗(yàn)數(shù)據(jù)。這種逼近的特點(diǎn)是: (a) 適度的精

32、度是需要的; (b) 實(shí)驗(yàn)數(shù)據(jù)有小的誤差; (c) 對于某些問題,可能有某些特殊的信息能夠用來選擇實(shí)驗(yàn)數(shù)據(jù)的數(shù)學(xué)模型。 逼近離散數(shù)據(jù)的基本方法就是曲線擬合,常采用最小二乘擬合,曲線擬合問題的數(shù)學(xué)描述是,已知一組(二維)數(shù)據(jù)(xi,yi ) ,i = 1,2,。,n(即平面上的n個(gè)點(diǎn)(xi, yi ) ,i = 1,2,。,n), x i 互不相同。尋求一個(gè)函數(shù)(曲線) y = f (x),使f (x)在某種準(zhǔn)則下與所有數(shù)據(jù)點(diǎn)最為接近,即曲線擬合得最好。 最小二乘擬合分為線性最小二乘擬合和非線性最小二乘擬合。,一 、線性最小二乘擬合 線性最小二乘法是解決曲線擬合問題最常用的方法,基本思路是,令

33、f(x)=a1*r1(x)+a2*r2(x)+.+am*rm(x) 其中rk(x)是一組事先選定的線性無關(guān)的函數(shù),(ak)是一組待定系數(shù)。尋求系數(shù)(ak)使得yi與f(xi)的距離 d i (i = 1,2,n)的平方和最小。這種準(zhǔn)則稱為最小二乘準(zhǔn)則,其求系數(shù)的方法稱為線性最小二乘擬合方法。,1、 系數(shù)(ak)的求法 若記,則J 為a1am的二次函數(shù)。由高等數(shù)學(xué)的極值理論,J 達(dá)到最小的充分必要條件是a1am 滿足dJ/dak =0(k = 1,。,m)。于是得到求使J 達(dá)到最小的a1am的方法是求解線性方程組(稱為法方程組),即求解線性方程組,若記,則以上方程組可表示為 RT RA = RT

34、Y 。,由于當(dāng) r1(x ), , rm( x) 線性無關(guān)時(shí),R列滿秩,RT R可逆,所以方程組(10.7)有唯一解 A = (RT R)-1RTY 。,用以上方法作線性最小二乘擬合的誤差通??紤]以下兩種形式:,最小平方誤差:,最大偏差:,2、 函數(shù)組 r1(x ), , rm( x)的選取,面對一組數(shù)據(jù) (x i , y i ), i = 1,2,。,n ,用線性最小二乘法作曲線擬合時(shí),首要的、也是關(guān)鍵的一步是恰當(dāng)?shù)剡x取 r1(x ), , rm( x) 。,如果通過機(jī)理分析,能夠知道y 與x之間應(yīng)該有什么樣的函數(shù)關(guān)系,則 r1(x ), , rm( x)容易確定。若無法知道y 與x之間的關(guān)

35、系,通??梢詫?shù)據(jù)(x i , y i ), i = 1,2,。,n,作圖,直觀地判斷應(yīng)該用什么樣的曲線去作擬合。人們常用的曲線有:,(i)直線 y = a1 x + a2 ;,(ii)多項(xiàng)式 y = a1 x m + +am x+am+1, (一般m = 2,3,不宜太高),(iii)雙曲線(一支)y=a1/x+a2擬合前作變量替換t = 1/x求解 a 1 ,a2 較簡單,(iv)指數(shù)曲線 y =a1ea2x 擬合前作變量代換z = ln y,t = 1/x,則指數(shù)曲線y =a1ea2x 轉(zhuǎn)化為關(guān)于lna1 ,a2 的線性函數(shù)z = ln a1+ a2t,這樣做求解 a1 ,a2 較簡單。

36、,在實(shí)際計(jì)算過程中,面對一組已知數(shù)據(jù),到底用什么樣的曲線擬合最好,可以在直觀判斷的基礎(chǔ)上,選幾種曲線分別擬合,然后比較,看哪條曲線的最小二乘指標(biāo)J 最小。,二 、非線性最小二乘擬合 非線性最小二乘法是假設(shè)f (x)是待定系數(shù)ak的任意非線性函數(shù),在最小二乘準(zhǔn)則下求其系數(shù)ak 。 例如上述人們常用的雙曲線和指數(shù)曲線就是非線性最小二乘擬合中最常用的非線性函數(shù),只不過在上面使用中將它們轉(zhuǎn)變成線性最小二乘擬合方法。,對于給定的實(shí)驗(yàn)數(shù)據(jù),通常應(yīng)根據(jù)實(shí)驗(yàn)數(shù)據(jù)的走向、趨勢選擇合適的數(shù)學(xué)模型,即擬合函數(shù)。例如當(dāng)實(shí)驗(yàn)數(shù)據(jù)具有單調(diào)性和凸性時(shí),可選擇下述適當(dāng)?shù)臄?shù)學(xué)模型y = f (x)來擬合實(shí)驗(yàn)數(shù)據(jù)。,f (x)

37、= aebx ,f (x) = aeb/x , f (x) = axb , f (x) = a + b / x,在有可能的情況下,一般將非線性擬合函數(shù)轉(zhuǎn)化為線性擬合函數(shù)求解,這一方面是如此求解簡單,另一方面也是因?yàn)橐话闱闆r下求解法方程組dJ/dak=0得到的(a1, , am) 通常僅是J 的駐點(diǎn),不一定是極值點(diǎn)。也可以直接解J 極小化問題。,例3 用最小二乘法求一個(gè)形如y = a1 + bx2的經(jīng)驗(yàn)公式,使它與下表所示的數(shù)據(jù)擬合. x 19 25 31 38 44 y 19.0 32.3 49.0 73.3 97.8 解 編寫程序如下 x=19 25 31 38 44; y=19.0 32.

38、3 49.0 73.3 97.8; r=ones(5,1),x.2; ab=inv(r*r)*r*y x0=19:0.1:44; y0=ab(1)+ab(2)*x0.2; plot(x,y,o,x0,y0,r),三、 最小二乘擬合法的Matlab實(shí)現(xiàn),命令為 A = R Y,2 線性最小二乘擬合(多項(xiàng)式擬合)方法 在線性最小二乘擬合中,用的較多的是多項(xiàng)式擬合。如果取 r1( x), , rm+1( x) =1, ,xm ,即用m 次多項(xiàng)式擬合給定數(shù)據(jù),則Matlab中有現(xiàn)成的函數(shù) a=polyfit(x0,y0,m), 其中輸入?yún)?shù)x0,y0為要擬合的數(shù)據(jù),m為擬合多項(xiàng)式的次數(shù),輸出參數(shù)a為擬

39、合多項(xiàng)式 y=amxm+a1x+a0系數(shù)a= am, , a1, a0。 多項(xiàng)式在x處的值y可用下面的函數(shù)計(jì)算 y=polyval(a,x)。 例4 某鄉(xiāng)鎮(zhèn)企業(yè)1990-1996年的生產(chǎn)利潤如下表:,年份 1990 1991 1992 1993 1994 1995 1996 利潤(萬元) 70 122 144 152 174 196 202 試預(yù)測1997年和1998年的利潤。,解 作已知數(shù)據(jù)的的散點(diǎn)圖, x0=1990 1991 1992 1993 1994 1995 1996; y0=70 122 144 152 174 196 202; plot(x0,y0,*) 發(fā)現(xiàn)該鄉(xiāng)鎮(zhèn)企業(yè)的年生產(chǎn)

40、利潤幾乎直線上升。因此,我們可以用y = a1 x + a0 作為擬合函 數(shù)來預(yù)測該鄉(xiāng)鎮(zhèn)企業(yè)未來的年利潤。編寫程序如下: x0=1990 1991 1992 1993 1994 1995 1996; y0=70 122 144 152 174 196 202; a=polyfit(x0,y0,1) y97=polyval(a,1997) y98=polyval(a,1998) 求得a1 = 20 ,a0 = -4.0705104 ,1997年的生產(chǎn)利潤y97=233.4286,1998年的生產(chǎn)利潤y98=253.9286。,3 非線性最小二乘擬合 Matlab的優(yōu)化工具箱中提供了兩個(gè)求非線性最

41、小二乘擬合的函數(shù):curvefit和leastsq。使用這兩個(gè)命令時(shí),都要先建立M文件fun.m,但它們定義f (x)的方式是不同的。,1 curvefit 設(shè)已知xdata=(xdata1,xdata2,xdatan ),ydata=(ydata1,ydata2,ydatan ), curvefit用以求含參量x(向量)的向量值函數(shù)F(x,xdata)=(f(x,data1), ,f(x,xdata n ) T中的參變量x(向量),使得 Sum(F(x,xdatai)-ydatai)2最小,輸入格式為: (1)x=curvefit(fun,x0,xdata,ydata); (2)x=curv

42、efit(fun,x0,xdata,ydata,options); (3)x=curvefit(fun,x0,xdata,ydata,options, grad); (4)x,options=curvefit(fun,x0,xdata,ydata,); (5)x,options,funval=curvefit(fun,x0,xdata,ydata,); (6)x,options,funval,Jacob=curvefit(fun,x0,xdata,ydata,). 輸出目標(biāo)函數(shù)值格式:f=fun(x,xdata). 其中x0為迭代初值,options為控制參數(shù)。,2 leastsq 設(shè)已xda

43、ta=(xdata1,xdata2,xdatan ),ydata=(ydata1,ydata2,ydatan ), leastsq 用以求含參量x(向量)的向量值函數(shù),輸入格式為: (1)x= leastsq (fun,x0); (2)x= leastsq (fun,x0,options); (3)x= leastsq (fun,x0,options, grad); (4)x,options= leastsq (fun,x0,); (5)x,options,funval= leastsq (fun,x0,);,例5 用下面一組數(shù)據(jù)擬合函數(shù) c(t) = a + be-0.02kt 中的參數(shù)a,

44、b, k 。,t 100 200 300 400 500 600 700 800 900 1000 cj103 4.54 4.99 5.35 5.65 5.90 6.10 6.26 6.39 6.50 6.59,1 用命令curvefit。此時(shí) F(x,tdata)=(a+b e-0.02kt1,a+be-0.02kt10)T,x=(a,b,k) (1) 編寫M文件curvefun1.m function f=curvefun1(x,tdata) f=x(1)+x(2)*exp(-0.02*x(3)*tdata) %其中x(1)=a;x(2)=b;x(3)=k; (2) 輸入命令 tdata=

45、100:100:1000 cdata=1e03*4.54,4.99,5.35,5.65,5.90,6.10,6.26,6.39,6.50,6.59; x0=0.2,0.05,0.005; x=curvefit(curvefun1,x0,tdata,cdata) f=curvefun1(x,tdata) (3)運(yùn)算結(jié)果為: x=0.0070 -0.0030 0.1012 f= Columns 1 through 7 0.0045 0.0050 0.0054 0.0057 0.0059 0.0061 0.0063 Columns 8 through 10 0.0064 0.0065 0.0066

46、即擬合得a=0.0070,b=-0.0030,k=0.0066,2 用命令leastsq。此時(shí) f(x)=F(x,tdata,cdata)=(a+be-0.02kt1-c1,a+be-0.02kt10-c10)T,x=(a,b,k) (1) 編寫M文件curvefun2.m function f=curvefun2(x) tdata=100:100:1000; cdata=1e-03*4.54,4.99,5.35,5.65,5.90,6.10,6.26,6.39,6.50,6.59; f=cdata-x(1)-x(2)*exp(-0.02*x(3)*tdata) %其中x(1)=a;x(2)=

47、b;x(3)=k;,(2) 輸入命令 x0=0.2,0.05,0.005; x=leastsq(curvefun2,x0) f=curvefun2(x) (3)運(yùn)算結(jié)果為: x=0.0070 -0.0030 0.1012 f=1.0e-005* Columns 1 through 7 0.0221 0.2081 -0.3933 -0.2872 0.2973 0.3561 0.0693 Columns 8 through 10 -0.2327 -0.0970 0.0296 可以看出,兩個(gè)命令的計(jì)算結(jié)果是相同的,回歸分析,回歸分析是處理很難用一種精確方法表示出來的變量之間關(guān)系的一種數(shù)學(xué)方法,它是最

48、常用的數(shù)理統(tǒng)計(jì)方法,能解決預(yù)測、控制、生產(chǎn)工藝優(yōu)化等問題。它在工農(nóng)業(yè)生產(chǎn)和科學(xué)研究各個(gè)領(lǐng)域中均有廣泛的應(yīng)用。回歸分析一般分為線性回歸分析和非線性回歸分析。本節(jié)著重介紹線性回歸分析的基本結(jié)論及其在Matlab中的相應(yīng)命令。線性回歸分析是兩類回歸分析中較簡單的一類,也是應(yīng)用較多的一類。,一 、一元線性回歸分析 針對一組(二維)數(shù)據(jù)( xi,yi ),i = 1,2,。,n(其中xi 互不相同),其最簡單的數(shù)據(jù)擬合形式為尋求直線y = b1 + b2*x ,使b1 + b2*x在最小二乘準(zhǔn)則下與所有數(shù)據(jù)點(diǎn)最為接近。但由于隨機(jī)觀測誤差的存在,滿足上述數(shù)據(jù)點(diǎn)的直線應(yīng)該是 y = b1 + b2* x +

49、e, (1.1) 其中x, y是準(zhǔn)確的,b1 ,b2 是兩個(gè)未知參數(shù),e 是均值為零的隨機(jī)觀測誤差,具有不可觀測性,可以合理地假設(shè)這種觀測誤差服從正態(tài)分布。于是我們得到一元線性回歸模型為:,y = b1 + b2* x +e,E(e) =0,D(e)=s2,其中s 未知,固定的未知參數(shù) b1 、 b2 稱為回歸系數(shù),自變量x稱為回歸變量。,式兩邊同時(shí)取期望得: Y = b1 + b2*x ,稱為y 對x的回歸直線方程。,正態(tài)分布,在該模型下,第i個(gè)觀測值可以看作樣本Yi = b1 + b2*xi +ei (這些樣本相互獨(dú)立但不同分布, i = 1,2,n)的實(shí)際抽樣值,即樣本值。 一元線性回歸

50、分析的主要任務(wù)是:用實(shí)驗(yàn)值(樣本值)對b1 、b2和s 作點(diǎn)估計(jì);對回歸系數(shù)b1 、b2 作假設(shè)檢驗(yàn);在x = x0 處對y 作預(yù)測,并對y 作區(qū)間估計(jì)。,2 模型的假設(shè)、預(yù)測、控制 1回歸方程的顯著性檢驗(yàn) 在實(shí)際問題中,因變量y 與自變量x之間是否有線性關(guān)系(1.1)只是一種假設(shè),在求出回歸方程之后,還必須對這種回歸方程同實(shí)際觀測數(shù)據(jù)擬合的效果進(jìn)行檢驗(yàn)。由(10.10)可知,| b2 |越大, y 隨x變化的趨勢就越明顯;反之,| b2 |越小, y 隨x變化的趨勢就越不明顯。特別當(dāng)b2 =0時(shí),則認(rèn)為y 與x之間不存在線性關(guān)系,當(dāng) b2 0時(shí),則認(rèn)為y與x之間有線性關(guān)(1.1)。因此,問題

51、歸結(jié)為對假設(shè) H0:b2=0;H1:b2 0 進(jìn)行檢驗(yàn)。假設(shè): H0:b2=0被拒絕,則回歸顯著,認(rèn)為y 與x之間存在線性關(guān)系,所求的線性回歸方程有意義;否則回歸不顯著, y 與x的關(guān)系不能用一元線性回歸模型來描述,所得的回歸方程也無意義。此時(shí),可能有如下幾種情況: (i)x對y 沒有顯著影響,此時(shí)應(yīng)丟掉變量x; (ii)x對y 有顯著影響,但這種影響不能用線性關(guān)系來表示,應(yīng)該用非線性 回歸; (iii)除x之外,還有其他不可忽略的變量對y 有顯著影響,從而削弱了x對y 的影響。 此時(shí)應(yīng)用多元線性回歸模型。因此,在接受H 0 的同時(shí),需要進(jìn)一步查明原因以便分別處理。,上式中的 是由實(shí)際觀測值沒

52、有落在回歸直線上引起的(否則為零),U 是由回歸直線引起的。因此,U 越大, 就越小,表示y 與x的線性關(guān)系就越顯著;否則,U 越小, 就越大,表示y 與x的線性關(guān)系就越不顯著。這樣我們就找到了一種判別回歸直線擬合程度好壞的方法: 如果 較大時(shí),則對擬合效果感到滿意。,下面介紹兩種檢驗(yàn)方法,分別是,(a)F檢驗(yàn)法,對樣本方差,進(jìn)行分解,有,比較F與Fa大小,來判斷x,y是否存在線性關(guān)系。 如果FFa,則兩者有顯著的線性關(guān)系。反之沒有。,Matlab計(jì)算公式 x=finv(1-,n1,n2),Yi為根據(jù)回歸公式計(jì)算的到值。,關(guān)于xi的偏差平方和,關(guān)于yi的偏差平方和,關(guān)于xi,yi的相關(guān)偏差平方

53、和,xi,yi 為實(shí)際數(shù)據(jù) ,Yi為根據(jù)回歸公式計(jì)算的到值。,(b)t檢驗(yàn)法,判別指標(biāo),當(dāng)|t|ta (n-2)時(shí),x,y存在明顯的線性關(guān)系,當(dāng)|t|ta (n-2)時(shí), x,y不存在明顯的線性關(guān)系。,x=-tinv(/2,n1 ),(3) R檢驗(yàn)法,檢驗(yàn)指標(biāo),|R|越大x,y線性關(guān)系越強(qiáng),反之線性關(guān)系越弱。,0|R| 1,|R|Ra,解: clear clc x= 20 25 30 35 40 45 50 55 60 65 y= 13.2 15.1 16.4 17.1 17.9 18.7 19.6 21.2 22.5 24.3 plot(x,y,r*) %y=a*x+b y1=ones(10

54、,1),x A=inv(y1*y1)*y1*y%求的系數(shù)a,b y0=A(2).*x+A(1); %假設(shè)檢驗(yàn),假設(shè)H0:a=0,H1:a0 我們分別采用t檢驗(yàn)和F檢驗(yàn)來考察x,y的關(guān)系是否正確。,clear clc x= 20 25 30 35 40 45 50 55 60 65 ; y= 13.2 15.1 16.4 17.1 17.9 18.7 19.6 21.2 22.5 24.3; plot(x,y,r*) y1=ones(10,1),x; A=inv(y1*y1)*y1*y%求的系數(shù)a,b y0=A(2).*x+A(1); Lyy=sum(y-mean(y).2); Lxx=sum(

55、x-mean(x).2); Lxy=sum(x-mean(x).*(y-mean(y); U=sum(y0-mean(y).2); Q=Lyy-U; %F檢驗(yàn) F=U*(10-2)/Q Fa=finv(1-0.05,1,8) %t檢驗(yàn) t=sqrt(10-2)*Lxx)*A(2)/sqrt(Q) ta=-tinv(0.025,8),回歸分析的Matlab實(shí)現(xiàn) Matlab統(tǒng)計(jì)工具箱中提供了一些回歸分析的命令,現(xiàn)介紹如下。 1 多元線性回歸 多元線性回歸的命令是regress,此命令也可用于一元線性回歸。其格式為: (1)確定回歸系數(shù)的點(diǎn)估計(jì),用命令:b=regress(Y,X)。 (2)求回歸

56、系數(shù)的點(diǎn)估計(jì)和區(qū)間估計(jì),并檢驗(yàn)回歸模型,用命令: b,bint,r,rint,stats=regress(Y,X,alpha)。 (3)畫出殘差及其置信區(qū)間,用命令: rcoplot(r,rint)。,在上述命令中,各符號的含義為: (i) b為回歸方程的系數(shù),Y,X的定義同本部分前面所述。對一元線性 回歸,Y,X中取k=1即可; (ii)alpha為顯著性水平(缺省時(shí)為0.05); (iii)bint為回歸系數(shù)的區(qū)間估計(jì); (iv)r與rint分別為殘差及其置信區(qū)間; (v)stats是用于檢驗(yàn)回歸模型的統(tǒng)計(jì)量,有三個(gè)數(shù)值,第一個(gè)是 R2,第二個(gè)是F值,第三個(gè)是與F對應(yīng)的概率P。其中R2與F

57、定義同前,值越大,說明回歸方程越顯著,P a 時(shí)拒絕H0 ,回歸模型成立。,clc,clear x1= 20 25 30 35 40 45 50 55 60 65 ; y= 13.2 15.1 16.4 17.1 17.9 18.7 19.6 21.2 22.5 24.3; x=ones(10,1),x1; b,bint,r,rint,stats=regress(y,x); b,bint,stats, rcoplot(r,rint),例 合金的強(qiáng)度y 與其中的碳含量x有比較密切的關(guān)系,今從生產(chǎn)中收集了一批數(shù)據(jù)如下表。試先擬合一個(gè)函數(shù)y(x),再用回歸分析對它進(jìn)行檢驗(yàn)。 x 0.10 0.11

58、0.12 0.13 0.14 0.15 0.16 0.17 0.18 y 42.0 41.5 45.0 45.5 45.0 47.5 49.0 55.0 50.0 解 先畫出散點(diǎn)圖: x=0.10:0.01:0.18; y=42.0,41.5,45.0,45.5,45.0,47.5,49.0,55.0,50.0; plot(x,y, + ) 可知y與x大致為線性關(guān)系。 設(shè)回歸模型為y= b1 + b2*x ,用regress和rcoplot編程如下: clc,clear x1=0.10:0.01:0.18 ; y=42.0,41.5,45.0,45.5,45.0,47.5,49.0,55.0,

59、50.0 ; x=ones(9,1),x1; b,bint,r,rint,stats=regress(y,x); b,bint,stats,rcoplot(r,rint),得到 b=27.4722 137.5000 bint=18.6851 36.2594 75.7755 199.2245 stats=0.7985 27.7469 0.0012,即b1=27.4722, b2=137.5000, b1的置信區(qū)間是18.6851,36.2594, b2的置信區(qū)間是75.7755,199.2245; R2 =0.7985,F(xiàn) =27.7469, p = 0.0012。,可知所設(shè)回歸模型成立。 觀察命令rcoplot(r,rint)所畫的殘差分布,除第8個(gè)數(shù)據(jù)外其余殘差的置信區(qū)間均包含零

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論