版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、.,第一章 統(tǒng)計案例,1.1回歸分析的基本思想及其初步應用,學.科.網(wǎng),.,a. 比數(shù)學3中“回歸”增加的內(nèi)容,數(shù)學統(tǒng)計 畫散點圖 了解最小二乘法的思想 求回歸直線方程 ybxa 用回歸直線方程解決應用問題,選修-統(tǒng)計案例 引入線性回歸模型 ybxae 了解模型中隨機誤差項e產(chǎn)生的原因 了解相關指數(shù) R2 和模型擬合的效果之間的關系 了解殘差圖的作用 利用線性回歸模型解決一類非線性回歸問題 正確理解分析方法與結果,問題1:正方形的面積y與正方形的邊長x之間 的函數(shù)關系是,問題2:某水田水稻產(chǎn)量y與施肥量x之間是否 -有一個確定性的關系?,例如:在 7 塊并排、形狀大小相同的試驗田上 進行施肥量
2、對水稻產(chǎn)量影響的試驗,得到如下所示的一組數(shù)據(jù):,復習:變量之間的兩種關系,自變量取值一定時,因變量的取值帶有一定隨機性的兩個變量之間的關系叫做相關關系。,1、定義:,1):相關關系是一種不確定性關系;,注,2、現(xiàn)實生活中存在著大量的相關關系。 如:人的身高與年齡; 產(chǎn)品的成本與生產(chǎn)數(shù)量; 商品的銷售額與廣告費; 家庭的支出與收入。等等,探索:水稻產(chǎn)量y與施肥量x之間大致有何規(guī)律?,10 20 30 40 50,500 450 400 350 300,發(fā)現(xiàn):圖中各點,大致分布在某條直線附近。,探索2:在這些點附近可畫直線不止一條, 哪條直線最能代表x與y之間的關系呢?,施化肥量,水稻產(chǎn)量,散點圖
3、,例1 從某大學中隨機選取8名女大學生,其身高和體重數(shù)據(jù)如表1-1所示。,求根據(jù)一名女大學生的身高預報她的體重的回歸方程,并預報一名身高為 172cm的女大學生的體重。,案例1:女大學生的身高與體重,解:1、選取身高為自變量x,體重為因變量y,作散點圖:,2、由散點圖知道身高和體重有比較好的 線性相關關系,因此可以用線性回歸方程 刻畫它們之間的關系。,3、從散點圖還看到,樣本點散布在某一條 直線的附近,而不是在一條直線上,所以 不能用一次函數(shù)y=bx+a描述它們關系。,我們可以用下面的線性回歸模型來表示: y=bx+a+e,其中a和b為模型的未知參數(shù), e稱為隨機誤差。,思考P3 產(chǎn)生隨機誤差
4、項e 的原因是什么?,思考 產(chǎn)生隨機誤差項e的原因是什么?,隨機誤差e的來源(可以推廣到一般): 1、其它因素的影響:影響體重y 的因素不只是身高 x,可能還包括遺傳基因、飲食習慣、生長環(huán)境等因素; 2、用線性回歸模型近似真實模型所引起的誤差; 3、身高 x 的觀測誤差。,函數(shù)模型與回歸模型之間的差別,函數(shù)模型:,回歸模型:,可以提供 選擇模型的準則,根據(jù)最小二乘法估計 和 就是未知參數(shù)a和b的最好估計,,所以回歸方程是,所以,對于身高為172cm的女大學生,由回歸方程可以預報 其體重為,探究P4: 身高為172cm的女大學生的體重一定是60.316kg嗎?如果不是,你能解析一下原因嗎?,探究
5、P4: 身高為172cm的女大學生的體重一定是60.316kg嗎?如果不是,你能解析一下原因嗎?,答:身高為172cm的女大學生的體重不一定是60.316kg,但一般可以認為她的體重在60.316kg左右。,60.136kg不是每個身高為172cm的女大學生的體重的預測值,而是所有身高為172cm的女大學生平均體重的預測值。,zxxkw,函數(shù)模型與回歸模型之間的差別,函數(shù)模型:,回歸模型:,線性回歸模型y=bx+a+e增加了隨機誤差項e,因變量y的值由自變量x和隨機誤差項e共同確定,即自變量x只能解析部分y的變化。,在統(tǒng)計中,我們也把自變量x稱為解析變量,因變量y稱為預報變量。,1.用相關系數(shù)
6、 r 來衡量,2.公式:,求出線性相關方程后, 說明身高x每增加一個單位,體重y就增加0.849個單位,這表明體重與身高具有正的線性相關關系.如何描述它們之間線性相關關系的強弱呢?,、當 時,x與y為完全線性相關,它們之間存在確定的函數(shù)關系。 、當 時,表示x與y存在著一定的線性相關,r的絕對值越大,越接近于1,表示x與y直線相關程度越高,反之越低。,3.性質:,相關關系的測度 (相關系數(shù)取值及其意義),r,.,對回歸模型進行統(tǒng)計檢驗,思考P6: 如何刻畫預報變量(體重)的變化?這個變化在多大程度上 與解析變量(身高)有關?在多大程度上與隨機誤差有關?,假設身高和隨機誤差的不同不會對體重產(chǎn)生任
7、何影響,那么所有人的體重將相同。在體重不受任何變量影響的假設下,設8名女大學生的體重都是她們的平均值, 即8個人的體重都為54.5kg。,在散點圖中,所有的點應該落在同一條水平直線上,但是觀測到的數(shù)據(jù)并非如此。這就意味著預報變量(體重)的值 受解析變量(身高)和隨機誤差的影響。,例如,編號為6的女大學生的體重并沒有落在水平直線上,她的體重為61kg。解析變量(身高)和隨機誤差共同把這名學生的體重從54.5kg“推”到了61kg,相差6.5kg,所以6.5kg是解析變量和隨機誤差的組合效應。,編號為3的女大學生的體重并也沒有落在水平直線上,她的體重為50kg。解析變量(身高)和隨機誤差共同把這名
8、學生的體重從50kg“推”到了54.5kg,相差-4.5kg,這時解析變量和隨機誤差的組合效應為-4.5kg。,用這種方法可以對所有預報變量計算組合效應。,在例1中,總偏差平方和為354。,那么,在這個總的效應(總偏差平方和)中,有多少來自于解析變量(身高)?有多少來自于隨機誤差?,假設隨機誤差對體重沒有影響,也就是說,體重僅受身高的影響,那么散點圖中所有的點將完全落在回歸直線上。但是,在圖中,數(shù)據(jù)點并沒有完全落在回歸直線上。這些點散布在回歸直線附近,所以一定是隨機誤差把這些點從回歸直線上“推”開了。,在例1中,殘差平方和約為128.361。,例如,編號為6的女大學生,計算隨機誤差的效應(殘差
9、)為:,解析變量和隨機誤差的總效應(總偏差平方和) =解析變量的效應(回歸平方和)+隨機誤差的效應(殘差平方和),顯然,R2的值越大,說明殘差平方和越小,也就是說模型擬合效果越好。,在線性回歸模型中,R2表示解析變量對預報變量變化的貢獻率。,R2越接近1,表示回歸的效果越好(因為R2越接近1,表示解析變量和預報變量的線性相關性越強)。,如果某組數(shù)據(jù)可能采取幾種不同回歸方程進行回歸分析,則可以通過比較R2的值來做出選擇,即選取R2較大的模型作為這組數(shù)據(jù)的模型。,總的來說: 相關指數(shù)R2是度量模型擬合效果的一種指標。 在線性模型中,它代表自變量刻畫預報變量的能力。,表1-3,從表3-1中可以看出,
10、解析變量對總效應約貢獻了64%,即R20.64,可以敘述為“身高解析了64%的體重變化”,而隨機誤差貢獻了剩余的36%。所以,身高對體重的效應比隨機誤差的效應大得多。,zxxkw,.,在研究兩個變量間的關系時,首先要根據(jù)散點圖來粗略判斷它們是否線性相關,是否可以用回歸模型來擬合數(shù)據(jù)。,殘差分析與殘差圖的定義:,然后,我們可以通過殘差 來判斷模型擬合的效果,判斷原始數(shù)據(jù)中是否存在可疑數(shù)據(jù),這方面的分析工作稱為殘差分析。,我們可以利用圖形來分析殘差特性,作圖時縱坐標為殘差,橫坐標可以選為樣本編號,或身高數(shù)據(jù),或體重估計值等,這樣作出的圖形稱為殘差圖。,表1-4列出了女大學生身高和體重的原始數(shù)據(jù)以及
11、相應的殘差數(shù)據(jù)。,使用公式 計算殘差,.,殘差圖的制作及作用。 坐標縱軸為殘差變量,橫軸可以有不同的選擇; 若模型選擇的正確,殘差圖中的點應該分布在以橫軸為心的帶形區(qū)域; 對于遠離橫軸的點,要特別注意。,身高與體重殘差圖,幾點說明: 第一個樣本點和第6個樣本點的殘差比較大,需要確認在采集過程中是否有人為的錯誤。如果數(shù)據(jù)采集有錯誤,就予以糾正,然后再重新利用線性回歸模型擬合數(shù)據(jù);如果數(shù)據(jù)采集沒有錯誤,則需要尋找其他的原因。 另外,殘差點比較均勻地落在水平的帶狀區(qū)域中,說明選用的模型比較合適,這樣的帶狀區(qū)域的寬度越窄,說明模型擬合精度越高,回歸方程的預報精度越高。,一般地,建立回歸模型的基本步驟為
12、:,(1)確定研究對象,明確哪個變量是解析變量,哪個變量是預報變量。,(2)畫出確定好的解析變量和預報變量的散點圖,觀察它們之間的關系(如是否存在線性關系等)。,(3)由經(jīng)驗確定回歸方程的類型(如我們觀察到數(shù)據(jù)呈線性關系,則選用線性回歸方程y=bx+a).,(4)按一定規(guī)則估計回歸方程中的參數(shù)(如最小二乘法)。,(5)得出結果后分析殘差圖是否有異常(個別數(shù)據(jù)對應殘差過大,或殘差呈現(xiàn)不隨機的規(guī)律性,等等),過存在異常,則檢查數(shù)據(jù)是否有誤,或模型是否合適等。,.,什么是回歸分析? (內(nèi)容),從一組樣本數(shù)據(jù)出發(fā),確定變量之間的數(shù)學關系式 對這些關系式的可信程度進行各種統(tǒng)計檢驗,并從影響某一特定變量的
13、諸多變量中找出哪些變量的影響顯著,哪些不顯著 利用所求的關系式,根據(jù)一個或幾個變量的取值來預測或控制另一個特定變量的取值,并給出這種預測或控制的精確程度,.,回歸分析與相關分析的區(qū)別,相關分析中,變量 x 變量 y 處于平等的地位;回歸分析中,變量 y 稱為因變量,處在被解釋的地位,x 稱為自變量,用于預測因變量的變化 相關分析中所涉及的變量 x 和 y 都是隨機變量;回歸分析中,因變量 y 是隨機變量,自變量 x 可以是隨機變量,也可以是非隨機的確定變量 相關分析主要是描述兩個變量之間線性關系的密切程度;回歸分析不僅可以揭示變量 x 對變量 y 的影響大小,還可以由回歸方程進行預測和控制,.
14、,練:某種產(chǎn)品的廣告費支出x與銷售額y之間有如表所示數(shù)據(jù):,(1)求x,y之間的相關系數(shù); (2)求線性回歸方程;,.,離差平方和的分解 (三個平方和的意義),總偏差平方和(SST) 反映因變量的 n 個觀察值與其均值的總離差 回歸平方和(SSR) 反映自變量 x 的變化對因變量 y 取值變化的影響,或者說,是由于 x 與 y 之間的線性關系引起的 y 的取值變化,也稱為可解釋的平方和 殘差平方和(SSE) 反映除 x 以外的其他因素對 y 取值的影響,也稱為不可解釋的平方和或剩余平方和,.,樣本決定系數(shù) (判定系數(shù) r2 ),回歸平方和占總離差平方和的比例,反映回歸直線的擬合程度 取值范圍在
15、 0 , 1 之間 r2 1,說明回歸方程擬合的越好;r20,說明回歸方程擬合的越差 判定系數(shù)等于相關系數(shù)的平方,即r2(r)2,.,2、現(xiàn)實生活中存在著大量的相關關系。 如:人的身高與年齡; 產(chǎn)品的成本與生產(chǎn)數(shù)量; 商品的銷售額與廣告費; 家庭的支出與收入。等等,探索:水稻產(chǎn)量y與施肥量x之間大致有何規(guī)律?,.,10 20 30 40 50,500 450 400 350 300,發(fā)現(xiàn):圖中各點,大致分布在某條直線附近。,探索2:在這些點附近可畫直線不止一條, 哪條直線最能代表x與y之間的關系呢?,施化肥量,水稻產(chǎn)量,散點圖,.,什么是回歸分析:,“回歸”一詞是由英國生物學家F.Galton在研究人體身高的遺傳問題時首先提出的。,根據(jù)遺傳學的觀點,子輩的身高受父輩影響,以X記父輩身高,Y記子輩身高。 雖然子輩身高一般受父輩影響,但同樣身高的父親,其子身高并不一致,因此, X和Y之間存在一種相關關系。,一般而言,父輩身高者,其子輩身高也高,依此推論,祖祖輩輩遺傳下來,身 高必然向兩極分化,而事實上并非如此,顯然有一種力量將身高拉向中心,即子輩 的身高有向中心回歸的特點。“回歸”一詞即源于此。,雖然這種向中心回歸的現(xiàn)象只是特定領域里的結論,并不具有普遍性,但從它 所描述的關
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 稀土磁性材料成型工崗前保密意識考核試卷含答案
- 成品礦運送工創(chuàng)新方法強化考核試卷含答案
- 焦化裝置操作工安全培訓效果測試考核試卷含答案
- 選煤工班組評比知識考核試卷含答案
- 營造林技術員安全知識競賽水平考核試卷含答案
- 黃酒釀造工崗前安全生產(chǎn)知識考核試卷含答案
- 2024年朝陽職工工學院輔導員考試筆試真題匯編附答案
- 固體飲料噴霧造粒工測試驗證知識考核試卷含答案
- 淀粉及淀粉糖制造工達標測試考核試卷含答案
- 2024年齊齊哈爾醫(yī)學院輔導員考試筆試題庫附答案
- 2026年藥店培訓計劃試題及答案
- DB32T3916-2020建筑地基基礎檢測規(guī)程
- 換電柜維護培訓課件
- GB/T 15153.1-2024遠動設備及系統(tǒng)第2部分:工作條件第1篇:電源和電磁兼容性
- 初中語文 送別詩練習題(含答案)
- 企業(yè)標準-格式模板
- 五年級上冊道德與法治期末測試卷新版
- 2022年醫(yī)學專題-石家莊中國鮑曼不動桿菌感染診治與防控專家共識
- YY/T 1543-2017鼻氧管
- YS/T 903.1-2013銦廢料化學分析方法第1部分:銦量的測定EDTA滴定法
- FZ/T 70010-2006針織物平方米干燥重量的測定
評論
0/150
提交評論