版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
第5章大數(shù)據(jù)分析挖掘-回歸
回歸分析算法010203主要內(nèi)容回歸分析的步驟
回歸分析概述
回歸算法評估04變量的關(guān)系類型:確定性關(guān)系:多個變量之間存在明確的依賴關(guān)系,可以用確定的或者已知的函數(shù)關(guān)系來表示。非確定性關(guān)系;多個變量之間存在密切的聯(lián)系,會互相影響和制約,但由于有不可預知的其他因素存在,這種依賴關(guān)系具有不確定性,不能用確定的函數(shù)關(guān)系來表示。這種變量之間存在相互依賴但又不能通過確定函數(shù)來描述的關(guān)系稱為變量間的統(tǒng)計關(guān)系或者相關(guān)關(guān)系?;貧w分析概述1回歸分析概述1廣告費用支出與商品銷售額關(guān)系圖回歸分析(RegressionAnalysis)是基于數(shù)據(jù)統(tǒng)計的原理,對經(jīng)過預處理后的大數(shù)據(jù)進行數(shù)學建模,確定一個或者多個獨立預測變量(自變量)與響應變量(因變量)之間相互依賴的定量關(guān)系,建立相關(guān)性較好的回歸方程(數(shù)學函數(shù)表達式),通過數(shù)學模型進行描述和解釋,并用做預測未來響應變量變化的統(tǒng)計分析方法?;貧w分析概述1按照自變量個數(shù)的多少,分為一元回歸分析和多元回歸分析。根據(jù)自變量和因變量的相關(guān)關(guān)系,分為線性回歸分析和非線性回歸分析。部分非線性回歸問題可以借助數(shù)學手段將其轉(zhuǎn)化為線性回歸問題;對于不可以線性化的回歸模型,也可以采用轉(zhuǎn)換成近似線性化回歸模型的方法?;貧w分析概述1回歸分析的步驟2回歸分析的步驟2回歸分析的基本步驟如下:(1)根據(jù)背景理論和經(jīng)驗描述,建立自變量與因變量之間的數(shù)學關(guān)系式,即回歸分析預測模型?;谧宰兞亢鸵蜃兞康臍v史統(tǒng)計數(shù)據(jù),計算得到合理的回歸參數(shù),構(gòu)建回歸分析方程。線性回歸模型:其中、稱為回歸參數(shù),分別稱為截距和斜率,為隨機誤差項或隨機干擾項。
回歸分析的步驟2回歸分析的基本步驟如下:回歸分析方程為:其中和為通過參數(shù)估計方法得到的回歸參數(shù)。通常采用普通最小二乘法(OrdinaryLeastSquares,OLS)和最大似然法(MaximumLikelihood,ML)對回歸參數(shù)進行估計,得到的回歸方程就是最佳擬合曲線?;貧w分析的步驟2回歸分析的基本步驟如下:(2)計算回歸方程的預測誤差,考察所得到的回歸曲線對觀測數(shù)值的擬合程度。通常用擬合優(yōu)度(GoodnessofFit)來表示由回歸方程得到的回歸曲線對觀測值的擬合程度,度量擬合優(yōu)度的統(tǒng)計量為決定系數(shù)(CoefficientofDetermination),記作R2。在多元回歸模型中,使用調(diào)整的R2(AdjustedR-Square)進行評估?;貧w分析的步驟2回歸分析的基本步驟如下:(3)對模型進行校驗,從而判斷所建立的回歸方程是否有意義。皮爾森相關(guān)系數(shù)(PearsonCorrelationCoefficient,PCC)常用于度量自變量X和因變量Y之間的線性相關(guān)程度;F校驗(FTest)是用于度量自變量與因變量之間線性關(guān)系是否顯著的校驗方法;t校驗用于對回歸參數(shù)的顯著性進行校驗,檢測回歸方程中某個自變量是否是因變量的一個顯著性影響因素?;貧w分析的步驟2回歸分析的基本步驟如下:(4)根據(jù)已經(jīng)得到的回歸方程和具體條件,來確定預測目標的未來狀況,并計算預測值,對預測值進行綜合分析,確定預測值的置信區(qū)間?;貧w分析算法3線性回歸非線性回歸其他回歸分析線性回歸采用直線或平面去近似連續(xù)自變量與連續(xù)因變量之間的關(guān)系,是比較基礎簡潔的一種分析方式。自變量X與因變量Y之間呈現(xiàn)某種曲線關(guān)系,采用非線性回歸模型更加符合實際應用需求。逐步回歸分析、嶺回歸分析、套索回歸分析、彈性網(wǎng)回歸分析等。線性回歸01一元線性回歸因變量Y與自變量X之間的關(guān)系滿足如下線性模型:其中和是回歸模型參數(shù),稱為常數(shù)或截距,為斜率,為隨機誤差項,服從均值為零的正態(tài)分布,即,反映了隨機因素對因變量Y的影響程度。線性回歸01一元線性回歸(1)回歸參數(shù)估計求解過程:最小二乘法的基本原理就是求得和,使得所有樣本數(shù)據(jù)的實際數(shù)值與估計值之間的殘差平方和(ResidualSumofSquares,RSS)(即垂直距離平方和)最小,計算公式為:線性回歸01一元線性回歸(1)回歸參數(shù)估計求解過程:線性回歸01一元線性回歸(2)回歸方程的擬合優(yōu)度決定系數(shù)R2:總平方和TSS:回歸平方和ESS:總平方和可以分解為TSS=RSS+ESS線性回歸01一元線性回歸(3)參考范例家庭序號/戶123456789101112131415單身居民家庭月收入/百元303542456040475070748065555838月食品消費/百元161923182914222130323929202517工齡/年13659354.56.55103572單身居民家庭月收入、月食品消費與工齡數(shù)據(jù)線性回歸01一元線性回歸(3)參考范例家庭月收入與月食品消費的數(shù)據(jù)變化趨勢線性回歸01一元線性回歸(3)參考范例單身居民家庭月收入與月食品消費散點圖線性回歸01一元線性回歸(3)參考范例1)回歸方程求解一元線性回歸方程線性回歸01一元線性回歸(3)參考范例1)回歸方程求解線性回歸01一元線性回歸(3)參考范例2)回歸方程的擬合優(yōu)度校驗居民月收入x實際月食品消費數(shù)值y月食品消費預測值301613.90564351916.05039422319.05304451820.33989602926.77414401418.19514472221.19779502122.48464703031.06364743232.77944803935.35314652928.91889552024.62939582525.91624381717.33724線性回歸01一元線性回歸(3)參考范例2)回歸方程的擬合優(yōu)度校驗線性回歸01多元線性回歸因變量Y與多個自變量X1,X2,...,Xn之間的關(guān)系滿足如下線性模型:其中、,…,是回歸模型參數(shù),為隨機誤差項,服從均值為零的正態(tài)分布,即,反映了隨機因素對因變量Y的影響程度。線性回歸01多元線性回歸(1)回歸參數(shù)估計求解過程:最小二乘法的基本原理就是求得,使得所有樣本數(shù)據(jù)的實際數(shù)值與估計值之間的殘差平方和(ResidualSumofSquares,RSS)(即垂直距離平方和)最小,計算公式為:線性回歸01多元線性回歸(1)回歸參數(shù)估計求解過程:線性回歸01多元線性回歸(2)回歸方程的擬合優(yōu)度調(diào)整的R2(AdjustedR-Square):其中n為樣本總數(shù),k為自變量的個數(shù),n-1為TSS的自由度,n-k-1為RSS的自由度,等于觀測樣本總數(shù)減去待估計回歸參數(shù)的個數(shù)。線性回歸01多元線性回歸(3)參考范例家庭序號/戶123456789101112131415單身居民家庭月收入/百元303542456040475070748065555838月食品消費/百元161923182914222130323929202517工齡/年13659354.56.55103572單身居民家庭月收入、月食品消費與工齡數(shù)據(jù)線性回歸01多元線性回歸(3)參考范例居民工齡與月食品消費的數(shù)據(jù)變化趨勢線性回歸01多元線性回歸(3)參考范例1)回歸方程求解多元線性回歸方程為線性回歸01多元線性回歸(3)參考范例1)回歸方程求解線性回歸01多元線性回歸(3)參考范例2)回歸方程的擬合優(yōu)度校驗居民月收入x工齡X2實際月食品消費數(shù)值y月食品消費預測值3011613.1577653531916.0666584262320.2464874551820.8106566092928.4635474031417.9017634752221.544698504.52122.377314706.53030.7915227453231.45426580103936.3408616532927.0772885552024.4808665872526.6557173821716.630827線性回歸01多元線性回歸(3)參考范例2)回歸方程的擬合優(yōu)度校驗線性回歸01多元線性回歸(3)參考范例2)回歸方程的擬合優(yōu)度校驗非線性回歸02對于已知的一組真實數(shù)據(jù)(xi,yi),i=1,2,?,n,非線性回歸模型可以寫為如下形式:其中自變量xi=(xi1,xi2,?,xik),未知回歸參數(shù)β=(β0,β1,?,βl),同樣假定隨機誤差項服從正態(tài)分布,均值為零,即E(ε)=0且方差var(ε)=σ2。對于一般的非線性回歸模型來說,不要求。
非線性關(guān)系的處理方法:自變量X和因變量Y之間的關(guān)系可以通過函數(shù)替換轉(zhuǎn)為線性,然后利用線性回歸模型的求解方法。自變量X與因變量Y之間的非線性關(guān)系對應的描述函數(shù)形式不明確。自變量X與因變量Y之間的非線性關(guān)系對應的描述函數(shù)形式很明確,但回歸參數(shù)是未知的??赊D(zhuǎn)換為線性回歸模型多項式回歸分析不可轉(zhuǎn)換為線性回歸模型非線性回歸02可轉(zhuǎn)換為線性回歸模型的非線性關(guān)系(1)直接代換非線性回歸02當變量之間是非線性關(guān)系,而回歸參數(shù)之間是線性關(guān)系時,可以利用變量直接代換的方法將回歸模型線性化。可轉(zhuǎn)換為線性回歸模型的非線性關(guān)系(1)直接代換1)雙曲線模型設,轉(zhuǎn)化為一元線性回歸模型:非線性回歸02可轉(zhuǎn)換為線性回歸模型的非線性關(guān)系(1)直接代換1)雙曲線模型非線性回歸02可轉(zhuǎn)換為線性回歸模型的非線性關(guān)系(1)直接代換2)半對數(shù)模型如果設,轉(zhuǎn)化為一元線性回歸模型:非線性回歸02可轉(zhuǎn)換為線性回歸模型的非線性關(guān)系(1)直接代換2)半對數(shù)模型非線性回歸02可轉(zhuǎn)換為線性回歸模型的非線性關(guān)系(1)直接代換3)雙對數(shù)模型設,轉(zhuǎn)化為一元線性回歸模型:非線性回歸02可轉(zhuǎn)換為線性回歸模型的非線性關(guān)系(1)直接代換4)三角函數(shù)模型以正弦函數(shù)模型為例:設,轉(zhuǎn)化為一元線性回歸模型:非線性回歸02可轉(zhuǎn)換為線性回歸模型的非線性關(guān)系(2)間接代換1)指數(shù)函數(shù)模型對上式兩邊取對數(shù)可得:設,轉(zhuǎn)化為線性回歸模型:非線性回歸02可轉(zhuǎn)換為線性回歸模型的非線性關(guān)系(2)間接代換1)指數(shù)函數(shù)模型非線性回歸02可轉(zhuǎn)換為線性回歸模型的非線性關(guān)系(2)間接代換2)冪函數(shù)模型對上式兩邊取對數(shù)可得:設,可得如下線性回歸模型:非線性回歸02可轉(zhuǎn)換為線性回歸模型的非線性關(guān)系(2)間接代換2)冪函數(shù)模型非線性回歸02多項式回歸(1)多項式回歸模型當自變量數(shù)目為1時,稱為一元多項式回歸,當自變量大于1時,稱為多元多項式回歸。以一元k次多項式回歸模型為例,其一般形式可寫為:其中k為多項式的階數(shù)。非線性回歸02多項式回歸(1)多項式回歸模型一元二次多項式可寫為:非線性回歸02多項式回歸(1)多項式回歸模型多項式回歸問題通??梢允褂米兞看鷵Q法轉(zhuǎn)化為多元線性回歸問題來處理,參照線性回歸模型的求解思路,使用最小二乘法(OLS)完成對多項式回歸模型的參數(shù)估計。需要注意的是,轉(zhuǎn)化過程可能會導致自變量之間存在一定程度的多重共線性問題,一般通過構(gòu)造正交多項式來解決。非線性回歸02多項式回歸(2)參考范例非線性回歸02序號xy123.685.17230.1310.54338.9212.86443.5215.76546.1416.98653.3416.76760.1515.53867.3613.16969.7810.851076.239.341179.828.581285.475.13觀測數(shù)據(jù)集合多項式回歸(2)參考范例非線性回歸02觀測數(shù)據(jù)散點圖多項式回歸(2)參考范例自變量x與因變量y之間的關(guān)系可以表示多項式回歸方程,即1)對多項式回歸方程進行求解計算殘差平方和RSS:
非線性回歸02多項式回歸(2)參考范例1)對多項式回歸方程進行求解分別對等求一階偏導并使其一階偏導值為0:非線性回歸02多項式回歸(2)參考范例1)對多項式回歸方程進行求解進行求解可得到:由此得到的多項式回歸方程為:非線性回歸02多項式回歸(2)參考范例1)對多項式回歸方程進行求解非線性回歸02多項式回歸(2)參考范例2)多項式回歸模型的擬合優(yōu)度校驗非線性回歸02不可轉(zhuǎn)換為線性回歸模型的非線性關(guān)系(1)逐次迭代估計思路1)首先盡量運用變量代換簡化復雜函數(shù)模型,變?yōu)檩^簡單的非線性回歸模型;然后所有未知參數(shù)指定一組初始值,將原方程通過泰勒級數(shù)展開,使得非線性方程在初始值附近線性化;2)對這一線性方程應用最小二乘法(OLS),得出一組新的參數(shù)估計值;用新的參數(shù)估計值替代初始值,再次將方程通過泰勒級數(shù)展開,使非線性方程在新的參數(shù)估計值附近線性化,對新得到的線性方程再次應用OLS方法,重新得出一組新的參數(shù)估計值;非線性回歸02不可轉(zhuǎn)換為線性回歸模型的非線性關(guān)系(1)逐次迭代估計思路3)不斷重復新參數(shù)更新過程,直至所得到的參數(shù)估計值收斂,穩(wěn)定于某一數(shù)值,迭代過程至此結(jié)束。例如著名的生產(chǎn)函數(shù)CES(ConstantElasticityofSubstitution)非線性回歸02不可轉(zhuǎn)換為線性回歸模型的非線性關(guān)系(2)常用的數(shù)值迭代算法數(shù)值迭代算法的共同特點:由未知參數(shù)的初值出發(fā),選定適當?shù)乃阉鞣较蛳蛄亢筒介L,通過逐步迭代公式確定新的,如下:非線性回歸02逐步回歸分析基本思想:將眾多自變量按照對因變量的重要程度進行篩選,繼而從自變量集合中得出對因變量Y影響最顯著的自變量子集,由該自變量子集構(gòu)建出的回歸方程被認為是最優(yōu)回歸方程。其他回歸分析方法03逐步回歸分析其他回歸分析方法03構(gòu)造方法逐步剔除法逐步引入法逐步回歸分析法構(gòu)造原理又稱后向剔除法(Backward),先用全部自變量與因變量構(gòu)造回歸方程,再對自變量逐個進行顯著性校驗,依次剔除最不顯著的自變量。又稱前向引入法(Forward),采用遞歸的方法依次選擇當前與因變量相關(guān)性最顯著的那個自變量,然后與之前已選擇的自變量一起建立回歸方程;每次都對新引入的自變量進行顯著性校驗,直至校驗不能通過為止?;驹瓌t是“有進有出”,按照對因變量顯著性影響程度的大小,逐次在回歸方程中引入單個自變量。優(yōu)點顯著性校驗涉及到全部自變量計算量顯著降低自變量引入和剔除最為靈活缺點計算量最大,自變量一旦剔除不再考慮不能涉及全部自變量,自變量一旦選中,不再剔除顯著性校驗計算量大嶺回歸分析嶺回歸(RidgeRegression)實質(zhì)上是一種改進的最小二乘估計方法,是針對共線性數(shù)據(jù)分析的有偏估計方法。多重線性回歸方程的回歸參數(shù):在嶺回歸中估計多重共線性回歸模型的參數(shù)時:
其中稱為嶺參數(shù),取不同的值可以得到不同的嶺估計。其他回歸分析方法03嶺回歸分析嶺回歸分析的基本思路:(1)考慮自變量X量綱上的差異,對自變量X做中心化和標準化處理,方便進行比較;(2)確定合適的嶺參數(shù)值,使得達到最小。(3)根據(jù)自變量的嶺跡圖對自變量進行篩選;(4)根據(jù)嶺回歸得到的估計參數(shù)寫出回歸方程,結(jié)合專業(yè)理論知識綜合判斷自變量的參數(shù)取值是否符合實際情況,預測數(shù)值是否基本吻合,從而做出相應結(jié)論。其他回歸分析方法03回歸算法評估4假設數(shù)據(jù)集中共有n個樣本,每個樣本用(xi,yi)表示,是通過回歸模型得到的預測數(shù)據(jù)。平均絕對誤差MAE平均絕對誤差是樣本集中所有觀測數(shù)據(jù)與預測數(shù)據(jù)之間的絕對誤差平均值?;貧w算法評估4
均方誤差MSE是樣本集中所有觀測數(shù)據(jù)與預測數(shù)據(jù)之間的誤差平方的平均值,可以很好反映預測數(shù)據(jù)偏離真實數(shù)據(jù)的程度?;貧w算法評估4
平均絕對百分誤差MAPEMAPE是相對誤差的預期值:均方根誤差RMSE為均方誤差MSE的算術(shù)平方根,表示預測值和觀測值之差的樣本標準差,主要反映樣本集內(nèi)數(shù)據(jù)的離散程度?;貧w算法評估4
均方根對數(shù)誤差RMSLERMSLE是觀測數(shù)據(jù)與預測數(shù)據(jù)之間的均方根對數(shù)(二次)誤差,適用于存在欠預測比過預測會帶來更大損失的應用場景?;貧w算法評估4
中位數(shù)絕對誤差MedAE是樣本集中所有觀測數(shù)據(jù)與預測數(shù)據(jù)之間絕對誤差的中位數(shù),定義如下:習題5.1什么是回歸分析?回歸分析方法包含哪些分類?5.2簡述回歸分析的具體步驟。5.3某單位學習報告記錄如下表所示,包含報告的學習時(小時)與報告測試成績(分)。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 3D打印心臟補片的組織相容性評價
- 3D打印導板在神經(jīng)外科手術(shù)中的精準固定技術(shù)
- 2025年寧波市鎮(zhèn)海區(qū)龍賽醫(yī)療集團公開招聘編外工作人員備考題庫含答案詳解
- 3D可視化技術(shù)在神經(jīng)介入手術(shù)中的輔助價值
- 小清新總結(jié)匯報模板
- 2025年常熟市交通產(chǎn)業(yè)投資集團有限公司(系統(tǒng))招聘14人備考題庫及參考答案詳解1套
- 2025年鄭州大學第二附屬醫(yī)院公開招聘員額制工作人員(碩士)23人備考題庫附答案詳解
- 2025年中國醫(yī)學科學院醫(yī)學實驗動物研究所第三批公開招聘工作人員備考題庫及參考答案詳解
- 2025年吉林省路橋工程(集團)有限公司西南地區(qū)項目部勞務派遣人員招聘13人備考題庫及完整答案詳解1套
- 2025年中路財產(chǎn)保險股份有限公司校園招聘6人備考題庫及參考答案詳解1套
- 2025大理州強制隔離戒毒所招聘輔警(5人)筆試考試備考題庫及答案解析
- 2025年安全培訓計劃表
- 2026年榆林職業(yè)技術(shù)學院單招職業(yè)技能測試題庫參考答案詳解
- 2025年沈陽華晨專用車有限公司公開招聘筆試歷年參考題庫附帶答案詳解
- 2026(蘇教版)數(shù)學五上期末復習大全(知識梳理+易錯題+壓軸題+模擬卷)
- 垃圾中轉(zhuǎn)站機械設備日常維護操作指南
- 單證主管助理客戶服務能力提升方案
- 汽車行業(yè)可信數(shù)據(jù)空間方案
- 畜牧業(yè)機械化培訓課件
- 工程質(zhì)量管理工作制度
- 云南交投集團筆試試題及答案
評論
0/150
提交評論