版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
8.2.2一元線性回歸模型參數(shù)的最小二乘估計
(第二課時)非線性關(guān)系的回歸模型一.求一元線性回歸方程的步驟:
(1)以成對樣本數(shù)據(jù)描出散點(diǎn)圖,通過散點(diǎn)圖觀察成對樣本數(shù)據(jù)是否線性相關(guān)
(2)判斷兩個變量之間的線性相關(guān)關(guān)系
(4)殘差分析:殘差表、殘差圖對回歸模型的擬合效果進(jìn)行評估。復(fù)習(xí)引入其中:問題人們常將男子短跑100m的高水平運(yùn)動員稱為“百米飛人”.下表給出了1968年之前男子短跑100m世界紀(jì)錄產(chǎn)生的年份和世界紀(jì)錄的數(shù)據(jù).試依據(jù)這些成對數(shù)據(jù),建立男子短跑100m世界紀(jì)錄關(guān)于紀(jì)錄產(chǎn)生年份的經(jīng)驗回歸方程.編號12345678年份18961912192119301936195619601968記錄/s11.8010.6010.4010.3010.2010.1010.009.951.畫散點(diǎn)圖:
以成對數(shù)據(jù)中的世界紀(jì)錄產(chǎn)生年份為橫坐標(biāo),世界紀(jì)錄為縱坐標(biāo)作散點(diǎn)圖,得到右圖.在左圖中,散點(diǎn)看上去大致分布在一條直線附近,似乎可用一元線性回歸模型建立經(jīng)驗回歸方程.由散點(diǎn)圖可知,散點(diǎn)看上去大致分布在一條直線附近,似乎可用一元線性回歸模型建立經(jīng)驗回歸方程.根據(jù)最小二乘法,由表中數(shù)據(jù)可得經(jīng)驗回歸方程為2.求經(jīng)驗回歸方程:將經(jīng)驗回歸方程疊加到散點(diǎn)圖,如圖(3)所示.(3)思考2:你能對模型進(jìn)行修改,以使其更好地反映散點(diǎn)的分布特征嗎?散點(diǎn)更趨向于落在中間下凸且遞減的某條曲線附近.已學(xué)的函數(shù)_________________的圖象具有類似的形狀特征.思考1:仔細(xì)觀察圖中散點(diǎn)與直線的位置關(guān)系,你能看出其中存在的問題嗎?y=﹣lnx、y=﹣lgx由圖形可知,第一點(diǎn)遠(yuǎn)離經(jīng)驗回歸直線,并且前后兩時間段中的散點(diǎn)都在經(jīng)驗回歸直線的上方,中間時間段的散點(diǎn)都在經(jīng)驗回歸直線的下方.這說明散點(diǎn)并不是隨機(jī)分布在經(jīng)驗回歸直線的周圍,而是圍繞著經(jīng)驗回歸直線有一定的變化規(guī)律,即成對樣本數(shù)據(jù)呈現(xiàn)出明顯的非線性相關(guān)的特征.為了利用一元線性回歸模型估計參數(shù)c1和c2,我們引進(jìn)一個中間變量x,令x=ln(t-1895).通過x=ln(t-1895),將年份變量數(shù)據(jù)進(jìn)行變換,得到新的成對數(shù)據(jù)(精確到0.01),如下表所示.思考3:如何利用成對數(shù)據(jù)估計參數(shù)c1和c2?注意到短跑的第1個世界紀(jì)錄產(chǎn)生于1896年,因此可以認(rèn)為散點(diǎn)是集中在曲線y=c1+c2ln(t?1895)的周圍,其中c1和c2為未知參數(shù),且c2<0.非線性經(jīng)驗回歸函數(shù)作出(xi,yi)的散點(diǎn)圖,可見x與y呈現(xiàn)出很強(qiáng)的負(fù)線性相關(guān)特征.精確到0.01思考3:如何利用成對數(shù)據(jù)估計參數(shù)c1和c2?該經(jīng)驗回歸方程對于表中的成對數(shù)據(jù)xi,yi具有非常好的擬合精度.x和Y之間的線性相關(guān)程度比t和Y的線性相關(guān)程度強(qiáng)得多.由圖可看出,散點(diǎn)圖中各散點(diǎn)都非??拷诘膱D象,非線性經(jīng)驗回歸方程②對于原始數(shù)據(jù)的擬合效果遠(yuǎn)遠(yuǎn)好于線性經(jīng)驗回歸方程①(2)殘差分析:
殘差平方和越小,模型擬合效果越好.用ti表示編號為i的年份數(shù)據(jù),用yi表示編號為i的紀(jì)錄數(shù)據(jù),則經(jīng)驗回歸方程①和②的殘差計算公式分別為兩個經(jīng)驗回歸方程的殘差(精確到0.001)如下表所示.編號12345678t189619121921193019361956196019680.591-0.284-0.301-0.218-0.1960.1110.0920.205-0.0010.007-0.0120.015-0.0180.052-0.021-0.022觀察各項殘差的絕對值,發(fā)現(xiàn)經(jīng)驗回歸方程②遠(yuǎn)遠(yuǎn)小于①,即經(jīng)驗回歸方程②的擬合效果要遠(yuǎn)遠(yuǎn)好于①.思考4:你能否通過殘差分析來比較這兩個經(jīng)驗回歸方程對數(shù)據(jù)刻畫的好壞?方程②各項殘差的絕對值遠(yuǎn)遠(yuǎn)小于方程①,即方程②的擬合效果要遠(yuǎn)遠(yuǎn)好于①.一般情況下,直接一一比較兩個模型的各項殘差絕對值比較困難,因為對于某些散點(diǎn),模型①的殘差的絕對值比模型②的小,而另一些散點(diǎn)的情況則相反.方案二:通過比較殘差的平方和來比較兩個模型的效果.在殘差平方和最小的標(biāo)準(zhǔn)下,非線性回歸模型的擬合效果要優(yōu)于一元線性回歸模型的擬合效果.方案一:通過比較殘差的絕對值之和來比較兩個模型的效果.方案二:通過比較殘差的平方和來比較兩個模型的效果.經(jīng)驗回歸方程②的擬合效果要優(yōu)于經(jīng)驗回歸方程①的擬合效果.方案三:通過比較決定系數(shù)R2來比較兩個模型的效果.殘差平方和總偏差平方和(與回歸方程無關(guān))(與回歸方程有關(guān))R2越大,殘差平方和越小,模型擬合效果越好.經(jīng)驗回歸方程②刻畫效果比經(jīng)驗回歸方程①的好很多.(3)用決定系數(shù)R2來比較這兩個模型的擬合效果通過前面的討論我們知道,當(dāng)殘差的平方和越小,經(jīng)驗回歸模型的擬合效果就越好,故我們可以用決定系數(shù)R2來驗證模型的擬合效果.決定系數(shù)R2的計算公式為殘差平方和偏差平方和(與經(jīng)驗回歸方程有關(guān))(與經(jīng)驗回歸方程無關(guān))R2越大,表示殘差平方和越小,即模型的擬合效果越好R2越小,表示殘差平方和越大,即模型的擬合效果越差.顯然0≤R2≤1,R2越接近1,則線性回歸刻畫的效果越好.①R2越大,R2越接近1,殘差平方和越小,模型擬合效果越好.②樣本相關(guān)系數(shù)r刻畫線性相關(guān)關(guān)系的正負(fù)和強(qiáng)弱;
決定系數(shù)R2刻畫模型擬合效果的好壞.③還可以證明,在含有1個解釋變量一元線性回歸模型中R2=r2,
即決定系數(shù)R2等于響應(yīng)變量與解釋變量的樣本相關(guān)系數(shù)r的平方.
例2為研究質(zhì)量x(單位:g)對彈簧長度y(單位:cm)的影響,對不同質(zhì)量的6個物體進(jìn)行測量,數(shù)據(jù)如表所示:
(1)作出散點(diǎn)圖,并求經(jīng)驗回歸方程;(2)求出R2;(3)進(jìn)行殘差分析.x51015202530y7.258.128.959.9010.911.8(2)求出R2;(3)進(jìn)行殘差分析.x51015202530y7.258.128.959.9010.911.8解:(2)列表如下:0.050.005-0.08-0.0450.040.025-2.24-1.37-0.540.411.412.31解:(3)由殘差表中的數(shù)值可以看出第3個樣本點(diǎn)的殘差比較大,需要確認(rèn)在采集這個數(shù)據(jù)的時候是否有人為的錯誤,如果有的話,需要糾正數(shù)據(jù),重新建立回歸模型;由表中數(shù)據(jù)可以看出殘差點(diǎn)比較均勻地落在不超過0.15的狹窄的水平帶狀區(qū)域中,說明選用的回歸模型的精度較高,由以上分析可知,彈簧長度與質(zhì)量成線性關(guān)系.0.050.005-0.08-0.0450.040.025-2.24-1.37-0.540.411.412.31練習(xí):已知某種商品的價格x(單位:元)與需求量y(單位:件)之間的關(guān)系如表所示:x1416182022y1210753(1)求y關(guān)于x的經(jīng)驗回歸方程;(2)借助殘差平方和與R2說明回歸模型擬合效果如何.變式已知某種商品的單價x(單位:元)與需求量y(單位:件)之間的關(guān)系有如下一組數(shù)據(jù):x1416182022y1210753求y關(guān)于x的經(jīng)驗回歸方程,并說明回歸模型擬合效果的好壞.解:列殘差表如下:y1210753129.77.45.12.800.3-0.4-0.10.24.62.6-0.4-2.4-4.4故回歸模型的擬合效果很好.考點(diǎn)非線性經(jīng)驗回歸問題
例3:近期,某公交公司分別推出支付寶和微信掃碼支付乘車活動,活動設(shè)置了一段時間的推廣期,由于推廣期內(nèi)優(yōu)惠力度較大,吸引越來越多的人開始使用掃碼支付.某線路公交車隊統(tǒng)計了活動剛推出一周內(nèi)每天使用掃碼支付的人次,用x表示活動推出的天數(shù),y表示每天使用掃碼支付的人次(單位:十人次),繪制了如圖所示的散點(diǎn)圖.(1)根據(jù)散點(diǎn)圖判斷在推廣期內(nèi),y=a+bx與y=c·dx(c,d為大于0的常數(shù))哪一個適宜作為每天使用掃碼支付的人次y關(guān)于活動推出天數(shù)x的回歸方程類型?(給出判斷即可,不必說明理由)【解】根據(jù)散點(diǎn)圖判斷,y=c·dx適宜作為每天使用掃碼支付的人次y關(guān)于活動推出天數(shù)x的回歸方程類型.(2)根據(jù)(1)的判斷結(jié)果求y關(guān)于x的經(jīng)驗回歸方程,并預(yù)測活動推出第8天使用掃碼支付的人次.參考數(shù)據(jù):其中v=lgy,解決非線性回歸問題的方法及步驟
例4
某企業(yè)為確定下一年投入某種產(chǎn)品的研發(fā)費(fèi)用,需了解年研發(fā)費(fèi)用x(單位:千萬元)對年銷售量y(單位:千萬件)的影響,統(tǒng)計了近10年投入的年研發(fā)費(fèi)用xi與年銷售量yi(i=1,2,???,10)的數(shù)據(jù),得到散點(diǎn)圖如圖所示.(1)利用散點(diǎn)圖判斷y=a+bx和y=c?xd(其中c,d均為大于0的常數(shù))哪一個更適合作為年銷售量y和年研發(fā)費(fèi)用x的回歸方程類型(只要給出判斷即可,不必說明理由);(2)對數(shù)據(jù)作出如下處理,令ui=lnxi,vi=lnyi,得到相關(guān)統(tǒng)計量的值如下表.根據(jù)第(1)問的判斷結(jié)果及表中數(shù)據(jù),求y關(guān)于x的回歸方程.附:對于一組數(shù)據(jù)(u1,v1),(u2,v2),???,(un,vn),其回歸直線的斜率和截距的最小二乘估計分別為解:(1)由散點(diǎn)圖可知,選擇回歸類型y=c?xd更合適.(2)對y=c?xd兩邊取對數(shù),的lny=lnc+dlnx,變式某地今年上半年患某種傳染病的人數(shù)y(人)與月份x(月)之間滿足函數(shù)關(guān)系,模型為y=aebx,確定這個函數(shù)解析式.月份x/月123456人數(shù)y/人526168747883解:x123456u=lny3.95124.11094.21954.30414.35674.4188[2020全國卷I-5]某校一個課外學(xué)習(xí)小組為研究某作物種子的發(fā)芽率y和溫度x(單位:°C)的關(guān)系,在20個不同的溫度條件下進(jìn)行種子發(fā)芽實驗,由實驗數(shù)據(jù)(xi,yi)得到下面的散點(diǎn)圖:由此散點(diǎn)圖,在10°C至40°C之間,下面四個回歸方程類型中最適宜作為發(fā)芽率y和溫度x的回歸方程類型的是()練習(xí)2.2020年初,新型冠狀病毒(COVID-19)引起的肺炎疫情爆發(fā)以來,各地醫(yī)療機(jī)構(gòu)采取了各種針對性的治療方法,取得了不錯的成效,某地開始使用中西醫(yī)結(jié)合方法后,每周治愈的患者人數(shù)如下表所示:由表格可得y關(guān)于x的二次回歸方程為y=6x2+a,則此回歸模型第4周的殘差(實際值與預(yù)報值之差)為(
)A.0 B.1 C.4 D.5周數(shù)(x)12345治愈人數(shù)(y)2173693142在使用經(jīng)驗回歸方程進(jìn)行預(yù)測時,需要注意下列問題:(1)經(jīng)驗回歸方程只適用于所研究的樣本的總體.例如,根據(jù)我國父親身高與兒子身高的數(shù)據(jù)建立的經(jīng)驗回歸方程,不能用來描述美國父親身高與兒子身高之間的關(guān)系.同樣,根據(jù)生長在南方多雨地區(qū)的樹高與胸徑的數(shù)據(jù)建立的經(jīng)驗回歸方程,不能用來描述北方干旱地區(qū)的樹高與胸徑之間的關(guān)系.(2)經(jīng)驗回歸方程一般都有時效性.例如,根據(jù)20世紀(jì)80年代的父親身高與兒子身高的數(shù)據(jù)建立的經(jīng)驗回歸方程,不能用來描述現(xiàn)在的父親身高與兒子身高之間的關(guān)系.(3)解釋變量的取值不能離樣本數(shù)據(jù)的范圍太遠(yuǎn).一般解釋變量的取值在樣本數(shù)據(jù)范圍內(nèi),經(jīng)驗回歸方程的預(yù)報效果會比較好,超出這個范圍越遠(yuǎn),預(yù)報的效果越差.(4)不能期望經(jīng)驗回歸方程得到的預(yù)報值就是響應(yīng)變量的精確值.事實上,它是響應(yīng)變量的可能取值的平均值.練習(xí)1.在回歸分析中,分析殘差能夠幫助我們解決哪些問題解:分析殘差可以幫助我們解決以下幾個問題:(1)尋找殘差明顯比其他殘差大很多的異常點(diǎn),如果有,檢查相應(yīng)的樣本數(shù)據(jù)是否有錯.(2)分析殘差圖可以診斷選擇的模型是否合適,如果不合適,可以參考?xì)埐顖D提出修改模型的思路.(1)作GDP和年份的散點(diǎn)圖,根據(jù)該圖猜想它們之間的關(guān)系可以用什么模型描述;2.1997-2006年我國的國內(nèi)生產(chǎn)總值(GDP)的數(shù)據(jù)如下:年份GDP/億元年份GDP/億元199779715.02002121727.4199885195.52003137422.0199990564.42004161840.22000100280.12005187318.92001110863.12006219438.5解:(1)畫GDP與年份的散點(diǎn)圖,如圖所示,可以觀察到隨著年份的增加GDP也隨之增加,GDP值與年份呈現(xiàn)近似線性關(guān)系,可以用一元線性回歸模型刻畫.(2)建立年份為解釋變量,GDP為響應(yīng)變量的一元線性回歸模型,并計算殘差;(3)根據(jù)你得到的一元線性回歸模型,預(yù)測2017年的GDP,看看你的預(yù)測值與實際的GDP的誤差是多少;2.1997-2006年我國的國內(nèi)生產(chǎn)總值(GDP)的數(shù)據(jù)如下:解:(2)用y表示GDP的值,t表示年份,用一元線性回歸模型擬合數(shù)據(jù),用統(tǒng)計軟件計算,得到經(jīng)驗回歸方程為殘差的計算結(jié)果見下表.年份1997199819992000200120022003200420052006殘差171267752-1734-6873-11145-15145-14296-4732589223157(3)2017年的GDP預(yù)報值為359684億元,2017年的實際的GDP為820754億元,預(yù)測值比實際值少461070億元.(4)你認(rèn)為這個模型能較好地刻畫GDP和年份的關(guān)系嗎請說明理由.2.1997-2006年我國的國內(nèi)生產(chǎn)總值(GDP)的數(shù)據(jù)如下:解:(4)上面建立的回歸方程的R2=0.9213,說明在1997-2006年內(nèi),該模型年份能夠解釋92.13%的GDP值變化,因此所建立的模型較好地刻畫了GDP和年份的關(guān)系.但因為殘差呈現(xiàn)一定的規(guī)律性,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 薛冰安全指南講解
- 達(dá)安深圳一體化項目手冊模板
- 2026年劇本殺運(yùn)營公司行業(yè)展會參展管理制度
- 學(xué)生評價數(shù)字化改革對高校學(xué)生評價體系的影響策略研究教學(xué)研究課題報告
- 2026年旅游元宇宙應(yīng)用創(chuàng)新報告
- 保安公司上班時間制度
- 企業(yè)三個清單制度
- 中石化安委會制度
- 專業(yè)人員職稱制度
- 小手流血了安全教育課件
- 液壓機(jī)安全操作培訓(xùn)課件
- 畢業(yè)論文寫作與答辯(第三版)課件 專題二 論文選題
- 第一單元(知識梳理閱讀)-2023學(xué)年五年級語文下冊單元主題閱讀理解(部編版)
- 隧道深大斷裂突水突泥判識預(yù)報新理論和工程實踐優(yōu)化
- 新教材2025人教版七年級上冊全部單詞默寫版
- 混凝土防滲墻施工工作手冊
- 2026版高中漢水丑生生物-第三章第3節(jié)生態(tài)系統(tǒng)的物質(zhì)循環(huán)
- DB45∕T 2364-2021 公路路基監(jiān)測技術(shù)規(guī)范
- 一圖看清37家公司經(jīng)營模式:財務(wù)報表?;鶊D(2025年6月版)(英)
- 房地產(chǎn)項目回款策略與現(xiàn)金流管理
- 花溪區(qū)高坡苗族鄉(xiāng)國土空間總體規(guī)劃 (2021-2035)
評論
0/150
提交評論