交通數(shù)據(jù)處理與分析-一元線性回歸分析_第1頁
交通數(shù)據(jù)處理與分析-一元線性回歸分析_第2頁
交通數(shù)據(jù)處理與分析-一元線性回歸分析_第3頁
交通數(shù)據(jù)處理與分析-一元線性回歸分析_第4頁
交通數(shù)據(jù)處理與分析-一元線性回歸分析_第5頁
已閱讀5頁,還剩33頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

交通數(shù)據(jù)處理與分析-一元線性回歸分析第一頁,共38頁。最小二乘法判定系數(shù)回歸方程的顯著性檢驗(yàn)/回歸系數(shù)的顯著性檢驗(yàn)?zāi)P皖A(yù)測精度的度量一元線性回歸分析第二頁,共38頁。在幾種預(yù)測精度度量指標(biāo)中。百分比誤差、平均百分比誤差和平均絕對(duì)百分比誤差是對(duì)預(yù)測精度的相對(duì)度量,其對(duì)預(yù)測模型精度的度量要比回歸標(biāo)準(zhǔn)差、平均絕對(duì)誤差和誤差平方和更直接第三頁,共38頁。預(yù)測精度、模型假設(shè)檢驗(yàn)和模型預(yù)測能力是有區(qū)別的。模型假設(shè)檢驗(yàn)可以用來判定模型是否可以用來擬合歷史數(shù)據(jù);精度分析是模型對(duì)歷史數(shù)據(jù)擬合效果的一個(gè)度量模型的預(yù)測能力則往往不能通過歷史數(shù)據(jù)來說明。由于預(yù)測對(duì)象是未來還沒有發(fā)生的一種狀態(tài),不能應(yīng)用未來數(shù)據(jù)分析模型的預(yù)測能力,一個(gè)很直接的方法是:把一部分觀測數(shù)據(jù)用來估計(jì)模型參數(shù),而余下的數(shù)據(jù)用作模型預(yù)測能力的評(píng)價(jià)。通過模型預(yù)測值和這部分實(shí)際數(shù)據(jù)進(jìn)行對(duì)比分析(精度分析),從而判定模型的預(yù)測能力。第四頁,共38頁?,F(xiàn)有全國31個(gè)主要城市2007年的氣候情況觀測數(shù)據(jù),如表所示。下面研究年平均氣溫與全年日照時(shí)間之間的關(guān)系一元線性回歸分析第五頁,共38頁。令x表示年平均氣溫,y表示全年日照時(shí)數(shù)。由于x和y均為一維變量,可以先從x和y的散點(diǎn)圖上直觀地觀察它們之間的關(guān)系,然后再做進(jìn)一步的分析。Matlab中的corr(x,y)或corrcoef(x,y)函數(shù)用于求相關(guān)系數(shù)數(shù)據(jù)的散點(diǎn)圖第六頁,共38頁。Pearson相關(guān)系數(shù)(Pearson’scorrelationcoefficient)又叫相關(guān)系數(shù)或線性相關(guān)系數(shù)。它一般用字母r表示。它是由兩個(gè)變量的樣本取值得到,這是一個(gè)描述線性相關(guān)強(qiáng)度的量,取值于-1和1之間。當(dāng)兩個(gè)變量有很強(qiáng)的線性相關(guān)時(shí),相關(guān)系數(shù)接近于1(正相關(guān))或-1(負(fù)相關(guān)),而當(dāng)兩個(gè)變量不那么線性相關(guān)時(shí),相關(guān)系數(shù)就接近0。相關(guān)系數(shù)第七頁,共38頁。Kendallt

相關(guān)系數(shù)(Kendall’st)這里的度量原理是把所有的樣本點(diǎn)配對(duì)(如果每一個(gè)點(diǎn)由x和y組成的坐標(biāo)(x,y)代表,一對(duì)點(diǎn)就是諸如(x1,y1)和(x2,y2)的點(diǎn)對(duì),然后看每一對(duì)中的x和y的觀測值是否同時(shí)增加(或減少)。比如由點(diǎn)對(duì)(x1,y1)和(x2,y2),可以算出乘積(x2-x1)(y2-y1)是否大于0;如果大于0,則說明x和y同時(shí)增長或同時(shí)下降,稱這兩點(diǎn)協(xié)同(concordant);否則就是不協(xié)同。如果樣本中協(xié)同的點(diǎn)數(shù)目多,兩個(gè)變量就更加相關(guān)一些;如果樣本中不協(xié)同(discordant)的點(diǎn)數(shù)目多,兩個(gè)變量就不很相關(guān)。相關(guān)系數(shù)第八頁,共38頁。Spearman(斯皮爾曼)秩相關(guān)系數(shù)(Spearmanrankcorrelationcoefficient或Spearman’sr)它和Pearson相關(guān)系數(shù)定義有些類似,只不過在定義中把點(diǎn)的坐標(biāo)換成各自樣本的秩(即樣本點(diǎn)大小的“座次”)。Spearman相關(guān)系數(shù)也是取值在-1和1之間,也有類似的解釋。通過它也可以進(jìn)行不依賴于總體分布的非參數(shù)檢驗(yàn)。相關(guān)系數(shù)第九頁,共38頁。R=corr(x,y,param1,param2,…)R=corrcoef(x,y)其中corrcoef函數(shù)輸出的是Pearson相關(guān)系數(shù),corr()函數(shù)可通過調(diào)整控制參數(shù)設(shè)置計(jì)算的相關(guān)系數(shù)類型。第十頁,共38頁。一元線性回歸分析年平均氣溫(x)全年日照時(shí)間數(shù)(y)第十一頁,共38頁。regress()函數(shù)對(duì)于可控變量x1,x2,…,xp和隨機(jī)變量y的n次獨(dú)立的觀測(xi1,xi2,…,xip;yi),(i=1,2,…n),關(guān)于x1,x2,…,xp的p重廣義線性回歸模型如下一元線性回歸分析第十二頁,共38頁。y為因變量觀測值向量,X為設(shè)計(jì)矩陣,f1,f2,…,fp為p個(gè)函數(shù),對(duì)應(yīng)模型中的p項(xiàng),β為需要顧及的系數(shù)向量,ε為隨機(jī)誤差一元線性回歸分析Xyβε第十三頁,共38頁。不同的函數(shù)f1,f2,…,fp對(duì)應(yīng)不同類型的回歸模型,特別地,當(dāng)f1(xi1)=xi1,f2(xi2)=xi2,…,fp(xip)=xip,(I=1,2,…,n)時(shí),上式稱為p重線性回歸。一元線性回歸模型是多重線性回歸的特殊情況。一元線性回歸分析Xyβε第十四頁,共38頁。b=regress(y,X)返回多重線性回歸方程中的系數(shù)向量β的估計(jì)值b,這里的b為一個(gè)p*1的向量。輸入?yún)?shù)y為因變量的觀測向量值,是n*1的列向量。X為n*p的設(shè)計(jì)矩陣。regress函數(shù)把y或X中的不確定數(shù)據(jù)NaN作為缺失數(shù)據(jù)而忽略他們。注意:當(dāng)回歸模型中需要常數(shù)項(xiàng)時(shí),矩陣X中應(yīng)當(dāng)有1列1元素一元線性回歸分析第十五頁,共38頁。[b,bint]=regress(y,X)還返回系數(shù)估計(jì)值的95%置信區(qū)間bint,它是一個(gè)p*2的矩陣,第1列為置信下限,第2列為置信上限。[b,bint,r]=regress(y,X)還返回殘差(因變量的真實(shí)值yi減去估計(jì)值y?i)向量,它是一個(gè)n*1的矩陣一元線性回歸分析第十六頁,共38頁。[b,bint,r,rint]=regress(y,X)還返回殘差的95%置信區(qū)間rint,它是一個(gè)n*2的矩陣,第1列為置信下限,第2列為置信上限。rint可用于異常值的診斷,若第i組觀測的殘差的置信區(qū)間不包括0,則可認(rèn)為第i組觀測值為異常值。[b,bint,r,rint,stats]=regress(y,X)還返回一個(gè)1*4的向量stats,其元素依次為判定系數(shù)R2,F(xiàn)統(tǒng)計(jì)量的觀測值、檢驗(yàn)的p值和誤差方差的估計(jì)值[…]=regress(y,X,alpha)用alpha指定計(jì)算bint和rint時(shí)的置信水平為100(1-alpha)%第十七頁,共38頁。相關(guān)系數(shù)與判定系數(shù)第十八頁,共38頁。當(dāng)需要計(jì)算判定系數(shù)R2,F(xiàn)統(tǒng)計(jì)量的觀測值、p值時(shí),模型中應(yīng)包含常數(shù)項(xiàng)。若模型中不包含常數(shù)項(xiàng),regress函數(shù)輸出的判定系數(shù)R2、F統(tǒng)計(jì)量的觀測值、p值是不正確的。在不考慮常數(shù)項(xiàng)的情況下,計(jì)算出的判定系數(shù)R2的值可能是負(fù)數(shù),說明所用模型不適合用戶的數(shù)據(jù)。第十九頁,共38頁。第二十頁,共38頁。輸出結(jié)果如下所示一元線性回歸分析進(jìn)而可以寫出線性回歸方程通過假設(shè)檢驗(yàn)的p值可得到回歸得到的線性關(guān)系是否顯著的結(jié)論。第二十一頁,共38頁。通過對(duì)殘差和殘差的置信區(qū)間進(jìn)行分析,可以看出原始數(shù)據(jù)中是否存在異常點(diǎn),若殘差的置信區(qū)間不包括0點(diǎn),可認(rèn)為該組觀測為異常點(diǎn)。殘差分析第二十二頁,共38頁。殘差分析殘差圖的橫坐標(biāo)表示觀測序號(hào),縱坐標(biāo)表示殘差值的大小。途中的每條豎直線段對(duì)應(yīng)一組觀測的殘差和殘差的置信區(qū)間,線段終點(diǎn)處的圓圈對(duì)應(yīng)縱坐標(biāo)為殘差值的大小。第二十三頁,共38頁。線段上端點(diǎn)的縱坐標(biāo)為置信上限,下斷點(diǎn)為置信下限。從殘差圖中可以看出有4條線段(紅色虛線)與水平線y=0沒有交點(diǎn),可認(rèn)為這四組觀測數(shù)據(jù)為異常數(shù)據(jù)。它們分別是拉薩(9.8,3181)、重慶(19,856.2)、成都(1608,935.6)和貴陽(14.9,1014.8)殘差分析第二十四頁,共38頁。將四組異常數(shù)據(jù)剔除后重新計(jì)算相關(guān)系數(shù),剔除異常數(shù)據(jù)后,x和y的線性相關(guān)性變?yōu)?0.8554,線性相關(guān)性進(jìn)一步增強(qiáng)。調(diào)用regress函數(shù)重新計(jì)算,結(jié)果如下所示回歸方程為對(duì)回歸直線進(jìn)行顯著性檢驗(yàn)的p值為1.3088*10-8,可知y(全年日照時(shí)數(shù))與x(年平均氣溫)的線性關(guān)系更為顯著一元線性回歸分析第二十五頁,共38頁。一元線性回歸分析第二十六頁,共38頁。Matlab統(tǒng)計(jì)工具箱中提供了regstats函數(shù),可用來進(jìn)行多重線性回歸分析regstats(y,X,model)輸入?yún)?shù)X為自變量觀測值矩陣(或設(shè)計(jì)矩陣),它是n*p的矩陣。默認(rèn)情況下,regstats函數(shù)自動(dòng)在X第一列元素的左邊加入一列1,不需要用戶自己添加。輸入?yún)?shù)y為因變量的觀測值向量,是n*1的列向量。可選的輸入?yún)?shù)model是一個(gè)字符串,用來控制回歸模型的類型一元線性回歸分析第二十七頁,共38頁。在上述調(diào)用格式下,regstats函數(shù)會(huì)生成一個(gè)交互式圖形用戶界面(GUI),界面上帶有回歸診斷統(tǒng)計(jì)量列表,包括系數(shù)的估計(jì)值、因變量的預(yù)測值、殘差、判定系數(shù)、調(diào)整的判定系數(shù)、F檢驗(yàn)和t檢驗(yàn)的相關(guān)結(jié)果等,共23個(gè)可選項(xiàng)。一元線性回歸分析第二十八頁,共38頁。stats=regstats(…)返回一個(gè)結(jié)構(gòu)體變量stats,它有24個(gè)字段,包括了回歸分析的所有診斷統(tǒng)計(jì)量。這種調(diào)用格式不生成圖形用戶界面,stats的后23個(gè)字段分別與圖形用戶界面上的23個(gè)選項(xiàng)相對(duì)應(yīng)。stats=regstats(y,X,model,whichstats)僅返回有whichstats參數(shù)指定的統(tǒng)計(jì)量。whichstats可以是形如’leverage’的單個(gè)字符串,也可以是形如{‘leverage’,‘standres’}的字符串的元胞數(shù)組。一元線性回歸分析第二十九頁,共38頁。regress函數(shù)和regstats函數(shù)利用普通最小二乘法估計(jì)模型中的參數(shù),參數(shù)的估計(jì)值受異常值的影響比較大。robustifit函數(shù)采用加權(quán)最小二乘法估計(jì)模型中的參數(shù),受異常值的影響比較小。b=robustfit(X,y)返回多重線性回歸方程中系數(shù)向量β的估計(jì)值b,這里的b為一個(gè)p*1的向量。輸入?yún)?shù)X為自變量觀測值矩陣,它是n*p的矩陣。與regress函數(shù)不同的是,默認(rèn)情況下,robustfit函數(shù)自動(dòng)在X第一列元素的左邊加入一列1,不需要用戶自己添加。輸入?yún)?shù)y為因變量的觀測值。一元線性回歸分析第三十頁,共38頁。b=robustfit(X,y,wfun,tune)用參數(shù)wfun指定加權(quán)函數(shù),用參數(shù)tune指定調(diào)節(jié)常數(shù)。wfun為字符串,其可能的取值詳見下表一元線性回歸分析第三十一頁,共38頁。其中第三十二頁,共38頁。用戶也可以自定義權(quán)重函數(shù),函數(shù)的輸入必須是殘差向量,輸出是權(quán)重向量。在調(diào)用robustifit函數(shù)時(shí),把自定義權(quán)重函數(shù)的句柄(形如@myfun)作為wfun參數(shù)傳遞給robustifit函數(shù),此時(shí)必須指定tune參數(shù)。第三十三頁,共38頁。b=robustfit(X,y,wfun,tune,const)用參數(shù)const來控制模型中是否包含常數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論