回歸分析的基本思想及其初步應用2課時.ppt_第1頁
回歸分析的基本思想及其初步應用2課時.ppt_第2頁
回歸分析的基本思想及其初步應用2課時.ppt_第3頁
回歸分析的基本思想及其初步應用2課時.ppt_第4頁
回歸分析的基本思想及其初步應用2課時.ppt_第5頁
已閱讀5頁,還剩39頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、1.1回歸分析的基本思想及其初步應用,必修3(第二章 統(tǒng)計)知識結(jié)構(gòu),收集數(shù)據(jù) (隨機抽樣),整理、分析數(shù)據(jù)估計、推斷,簡單隨機抽樣,分層抽樣,系統(tǒng)抽樣,用樣本估計總體,變量間的相關(guān)關(guān)系,用樣本的頻率分布估計總體分布,用樣本數(shù)字特征估計總體數(shù)字特征,線性回歸分析,1、兩個變量的關(guān)系,不相關(guān),相關(guān)關(guān)系(非確定性關(guān)系,是一般關(guān)系),函數(shù)關(guān)系(確定性關(guān)系,是理想型關(guān)系),線性相關(guān),非線性相關(guān),問題1:現(xiàn)實生活中兩個變量間的關(guān)系有哪些呢?,相關(guān)關(guān)系:對于兩個變量,當自變量取值一定時,因變量的取值帶有一定隨機性的兩個變量之間的關(guān)系。,現(xiàn)實生活中存在著大量的相關(guān)關(guān)系,如:人的身高與年齡; 產(chǎn)品的成本與生產(chǎn)

2、數(shù)量; 商品的銷售額與廣告費; 家庭的支出與收入,等等.,10 20 30 40 50,500 450 400 350 300,施化肥量,水稻產(chǎn)量,探究1:如下表某水田水稻產(chǎn)量y與施肥量x之間是否有一個確定性的關(guān)系?,10 20 30 40 50,500 450 400 350 300,發(fā)現(xiàn):圖中各點,大致分布在某條直線附近.,探究2:在這些點附近可畫不止一條直線,哪條直線最能代表x與y之間的關(guān)系呢?,散點圖,施化肥量,水稻產(chǎn)量,問題2:對于線性相關(guān)的兩個變量用什么方法來刻劃之間的關(guān)系呢?,2、最小二乘估計,最小二乘估計下的線性回歸方程:,回歸直線必過樣本點的中心,3、回歸分析的基本步驟:,畫

3、散點圖,求回歸方程,預報、決策,這種方法稱為回歸分析.,回歸分析是對具有相關(guān)關(guān)系的兩個變量進行統(tǒng)計 分析的一種常用方法.,練習 下表提供了某廠節(jié)油降耗技術(shù)發(fā)行后生產(chǎn)甲產(chǎn)品過程中記錄的產(chǎn)量x(噸)與相應的生產(chǎn)能耗y(噸標準煤)的幾組對應數(shù)據(jù). (1)請畫出上表數(shù)據(jù)的散點圖; (2)請根據(jù)上表提供的數(shù)據(jù),用最小二乘法求出y關(guān)于x的線性回歸方程,(3)已知該廠技改前100噸甲產(chǎn)品的生產(chǎn)能耗為90噸標準煤,試根據(jù)(2)求出的線性回歸方程,預測生產(chǎn)100噸甲產(chǎn)品的生產(chǎn)能耗比技改前降低多少噸標準煤? (參考數(shù)值:32.5+43+54+64.566.5),2.回歸方程:,由于所有的樣本點不共線,而只是散布在

4、某一直線的附近,所以身高和體重的關(guān)系可以用線性回歸模型來表示:,其中a和b為模型的未知參數(shù),e稱為隨機誤差.,函數(shù)模型與“回歸模型”的關(guān)系,函數(shù)模型:因變量y完全由自變量x確定 回歸模型: 預報變量y完全由解釋變量x和隨機誤差e確定,當變量x取 時,回歸方程的 與實際收集到的 之間的偏差是,問題二:在線性回歸模型中,e是用bx+a預報真實值y的隨機誤差, 它是一個不可觀測的量,那么應如何研究隨機誤差呢?,結(jié)合例1除了身高影響體重外的其他因素是不可測量的,不能希望有某種方法獲取隨機誤差的值以提高預報變量的估計精度,但卻可以估計預報變量觀測值中所包含的隨機誤差,這對我們查找樣本數(shù)據(jù)中的錯誤和模型的

5、評價極為有用,因此在此我們引入殘差概念。,e=y-(bx+a),稱為殘差平方和.,注:e 產(chǎn)生的主要原因: (1)所用確定性函數(shù)不恰當; (2)忽略了某些因素的影響; (3)觀測誤差。,思考:產(chǎn)生隨機誤差項e的原因是什么?,問題三:如何發(fā)現(xiàn)數(shù)據(jù)中的錯誤?如何衡量隨機模型的擬合效果?,(1)我們可以通過分析發(fā)現(xiàn)原始數(shù)據(jù)中的可疑數(shù)據(jù),判斷建立模型的擬合效果。,殘差圖的制作和作用: 制作:坐標縱軸為殘差變量,橫軸可以有不同的選擇. 橫軸為編號:可以考察殘差與編號次序之間的關(guān)系, 常用于調(diào)查數(shù)據(jù)錯誤. 橫軸為解釋變量:可以考察殘差與解釋變量的關(guān)系,常用于研究模型是否有改進的余地. 作用:判斷模型的適用

6、性若模型選擇的正確,殘差圖中的點應該分布在以橫軸為中心的帶形區(qū)域.,下面表格列出了女大學生身高和體重的原始數(shù)據(jù)以及相應的殘差數(shù)據(jù)。,隨機誤差的估計值為:,殘差圖的制作及作用。 坐標縱軸為殘差變量,橫軸可以有不同的選擇; 若模型選擇的正確,殘差圖中的點應該分布在以橫軸為心的帶形區(qū)域; 對于遠離橫軸的點,要特別注意。,身高與體重殘差圖,幾點說明: 第一個樣本點和第6個樣本點的殘差比較大,需要確認在采集過程中是否有人為的錯誤。如果數(shù)據(jù)采集有錯誤,就予以糾正,然后再重新利用線性回歸模型擬合數(shù)據(jù);如果數(shù)據(jù)采集沒有錯誤,則需要尋找其他的原因。 另外,殘差點比較均勻地落在水平的帶狀區(qū)域中,說明選用的模型計較

7、合適,這樣的帶狀區(qū)域的寬度越窄,說明模型擬合精度越高,回歸方程的預報精度越高。,誤差與殘差,這兩個概念在某程度上具有很大的相似性, 都是衡量不確定性的指標,可是兩者又存在區(qū)別。 誤差與測量有關(guān),誤差大小可以衡量測量的準確性,誤差越大則表示測量越不準確。誤差分為兩類:系統(tǒng)誤差與 隨機誤差。其中,系統(tǒng)誤差與測量方案有關(guān),通過改進測量方案可以避免系統(tǒng)誤差。隨機誤差與觀測者,測量工具,被觀測物體的性質(zhì)有關(guān),只能盡量減小,卻不能避免。 殘差與預測有關(guān),殘差大小可以衡量預測的準確性。殘差越大表示預測越不準確。殘差與數(shù)據(jù)本身的分布特性,回歸方程的選擇有關(guān)。,注:相關(guān)指數(shù)R2是度量模型擬合效果的一種指標。在線

8、性模型中,它代表 自變量刻畫預報變量的能力。,相關(guān)系數(shù),相關(guān)系數(shù)的性質(zhì) (1)|r|1 (2)|r|越接近于1,相關(guān)程度越強;|r|越接近于0,相關(guān)程度越弱 注:b 與 r 同號 問題:達到怎樣程度,x、y線性相關(guān)呢?它們的相關(guān)程度怎樣呢?,相關(guān)系數(shù),正相關(guān);負相關(guān)通常: r-1,-0.75-負相關(guān)很強; r0.75,1正相關(guān)很強; r-0.75,-0.3-負相關(guān)一般; r0.3, 0.75正相關(guān)一般; r-0.25, 0.25-相關(guān)性較弱;,對r進行顯著性檢驗,R2 0.64,解析變量對總效應約貢獻了64%,可以敘述為“身高解析了64%的體重變化”,而隨機誤差貢獻了剩余的36%。 所以,身高

9、對體重的效應比隨機誤差的效應大得多 r=0.8 說明身高對體重的正相關(guān)強,;,一般地,建立回歸模型的基本步驟為:,(1)確定研究對象,明確哪個變量是解析變量,哪個變量是預報變量。,(2)畫出確定好的解析變量和預報變量的散點圖,觀察它們之間的關(guān)系 (如是否存在線性關(guān)系等)。,(3)由經(jīng)驗確定回歸方程的類型(如我們觀察到數(shù)據(jù)呈線性關(guān)系,則選用線性回歸方程y=bx+a).,(4)按一定規(guī)則估計回歸方程中的參數(shù)(如最小二乘法)。,(5)得出結(jié)果后分析殘差圖是否有異常(個別數(shù)據(jù)對應殘差過大,或殘差呈現(xiàn)不隨機的規(guī)律性,等等),過存在異常,則檢查數(shù)據(jù)是否有誤,或模型是否合適等。,問題五:歸納建立回歸模型的基

10、本步驟,問題六:若兩個變量呈現(xiàn)非線性關(guān)系,如何解決? (分析例2),例2 一只紅鈴蟲的產(chǎn)卵數(shù)y和溫度x有關(guān)?,F(xiàn)收集了7組觀測數(shù)據(jù)列于表中:,(1)試建立產(chǎn)卵數(shù)y與溫度x之間的回歸方程;并預測溫度為28oC時產(chǎn)卵數(shù)目。 (2)你所建立的模型中溫度在多大程度上解釋了產(chǎn)卵數(shù)的變化?,畫散點圖,假設(shè)線性回歸方程為 :=bx+a,選 模 型,方法一:一元函數(shù)模型,假設(shè)線性回歸方程為 :=bx+a,所以,一次函數(shù)模型中溫度解釋了74.64%的產(chǎn)卵數(shù)變化。,當x=28時,y =19.8728-463.73 93,y= c1 x2+c2 變換 y= c1 t+c2 非線性關(guān)系 線性關(guān)系,t=x2,方法二,二元

11、函數(shù)模型,產(chǎn)卵數(shù),氣溫,變換 y=bx+a 非線性關(guān)系 線性關(guān)系,對數(shù),方法三:指數(shù)函數(shù)模型,由計算器得:z關(guān)于x的線性回歸方程 相關(guān)指數(shù) 因此y關(guān)于x的非線性回 歸方程為,當x=28 時,y 44 ,指數(shù)回歸模型中溫度解釋了98%的產(chǎn)卵數(shù)的變化,r=0.9899說明y與x成正相關(guān),相關(guān)性很強,最好的模型是哪個?,顯然,指數(shù)函數(shù)模型最好!,利用殘差計算公式:,由殘差平方和:,故指數(shù)函數(shù)模型的擬合效果比二次函數(shù)的模擬效果好.,或由條件R2分別為0.98和0.80,同樣可得它們的效果.,在散點圖中,樣本點沒有分布在某個帶狀區(qū)域內(nèi),因此兩個變量不呈現(xiàn)線性相關(guān)關(guān)系,所以不能直接利用線性回歸方程來建立兩

12、個變量之間的關(guān)系.,令z=lny,則變換后樣本點應該分布在直線z=bx+a(a=lnc1,b=c2)的周圍.,利用線性回歸模型建立y和x之間的非線性回歸方程.,當回歸方程不是形如y=bx+a時,我們稱之為非線性回歸方程.,根據(jù)已有的函數(shù)知識,可以發(fā)現(xiàn)樣本點分布在某一條指數(shù)函數(shù)曲線 的周圍,其中c1和c2是待定參數(shù).,高考連接(2011年安徽)某地最近十年糧食需求量逐年上升,下表是部分統(tǒng)計數(shù)據(jù):,(1)利用所給數(shù)據(jù)求年需求量與年份之間的線性回歸方程 (2)利用(1)中所求出的直線方程預測該地2012年的糧食需求量,數(shù)據(jù)處理如下:,回歸分析的基本思想及其初步應用,探索無止境,探索無止境,探索無止境

13、,探索無止境,課堂知識延伸,我們知道,刑警如果能在案發(fā)現(xiàn)場提取到罪犯的腳印,即將獲得一條重要的破 案線索,其原因之一是人類的腳掌長度和身高存在著相關(guān)關(guān)系,可以根據(jù)一個人的 腳掌長度來來預測他的身高 我們還知道,在統(tǒng)計史上,很早就有人收集過人們的身高、前臂長度等數(shù)據(jù), 試圖尋找這些數(shù)據(jù)之間的規(guī)律 在上述兩個小故事的啟發(fā)下,全班同學請分成一些小組,每組4-6名同學,在老 師的指導下,開展一次數(shù)學建模活動,來親自體驗回歸分析的思想方法,提高自己的 實踐能力。,數(shù)學建模的題目是:收集一些周圍人們的腳掌長度、前臂長度中的一個數(shù)據(jù)及其身高,來作為兩個變量畫散點圖,如果這兩個變量之間具有線性相關(guān)關(guān)系,就求出回歸直線方程,另選一個人的這兩個變量的數(shù)據(jù),作一次預測,并分析預測結(jié)果。 最后以小組寫出數(shù)學建模報告,報告要求過程清晰,結(jié)論明確,有關(guān)數(shù)學論述準 確,以下兩個問題需要注意: (1)如果腳掌長度不方便,可改量腳印的長度。 (2)數(shù)據(jù)盡量取得分散一些。,練習1:下表是某廠1到4月份用水量(單位:百噸)的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論