回歸分析的基本思想及其初步應(yīng)用_第1頁(yè)
回歸分析的基本思想及其初步應(yīng)用_第2頁(yè)
回歸分析的基本思想及其初步應(yīng)用_第3頁(yè)
回歸分析的基本思想及其初步應(yīng)用_第4頁(yè)
回歸分析的基本思想及其初步應(yīng)用_第5頁(yè)
已閱讀5頁(yè),還剩51頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、新學(xué)期我們懷著大學(xué)的夢(mèng)想。相信我們自己,每天努力,一定要了解北京大學(xué)、第一章統(tǒng)計(jì)案例、1.1回歸分析的基本思想及其初步應(yīng)用、a .數(shù)學(xué)三重“回歸”的補(bǔ)充內(nèi)容、數(shù)學(xué)統(tǒng)計(jì)化散布圖、理解最小平方的思想,用回歸線方程ybxa作為回歸線方程解決應(yīng)用問(wèn)題。(選擇莎士比亞、北方表達(dá)式、北方表達(dá)式(美國(guó)電視劇)-統(tǒng)計(jì)案例介紹線性回歸模型了解ybxae模型中隨機(jī)誤差項(xiàng)E發(fā)生的原因了解相關(guān)金志洙R2與模型擬合的效果之間的關(guān)系理解誤差圖的作用使用線性回歸模型確定非線性回歸問(wèn)題解決方法和結(jié)果必需3 變量之間的相關(guān)性,利用樣本的頻率分布估計(jì)總體分布,利用樣本數(shù)字特征估計(jì)總體數(shù)字特性,線性回歸分析,問(wèn)題1:正方形面積Y和

2、正方形邊長(zhǎng)X之間的函數(shù)關(guān)系,問(wèn)題2:水稻產(chǎn)量Y和肥料X之間是否存在,例如,7個(gè)并列,在形狀相同的試驗(yàn)場(chǎng)進(jìn)行了施肥對(duì)水稻產(chǎn)量影響的實(shí)驗(yàn),得出了以下數(shù)據(jù)集: 復(fù)習(xí):變量之間的兩個(gè)關(guān)系,當(dāng)參數(shù)值恒定時(shí),變量的值具有隨機(jī)性的兩個(gè)變量之間的關(guān)系稱為相關(guān)性。(David aser,Northern Exposure美國(guó)電視劇,Northern Exposure(美國(guó)電視劇),1,definition:1):相關(guān)的關(guān)系是不確定性的關(guān)系。注,1,兩個(gè)變量的關(guān)系,不相關(guān),相關(guān),函數(shù)關(guān)系,線性相關(guān),非線性相關(guān),問(wèn)題1:現(xiàn)實(shí)生活中兩個(gè)變量之間的關(guān)系是什么?相關(guān)關(guān)系:對(duì)于兩個(gè)變量,在參數(shù)值恒定的情況下,變量的值具有隨

3、機(jī)性的兩個(gè)變量之間的關(guān)系。思維:相關(guān)性和函數(shù)關(guān)系的區(qū)別是什么?函數(shù)關(guān)系中兩個(gè)變量之間的確定性關(guān)系關(guān)系是一種不確定性關(guān)系,函數(shù)關(guān)系是理想的關(guān)系模型關(guān)系關(guān)系關(guān)系在現(xiàn)實(shí)生活中大量存在,是更一般的情況。問(wèn)題2:對(duì)于線性相關(guān)的兩個(gè)變量,用什么方法刻劃關(guān)系?2,最小二乘法估計(jì),最小二乘法估計(jì)線性回歸方程:最小二乘法:采樣點(diǎn)的中心:回歸方程:3,回歸分析的基本步驟3360,繪制散點(diǎn)圖,查找回歸方程,使用回歸方程例如:人的身高和年齡;產(chǎn)品的成本及生產(chǎn)數(shù)量商品銷售及廣告費(fèi)家庭的支出和收入。等等,探索:水稻產(chǎn)量Y和肥料量X之間大致有什么規(guī)律?例1在一所大學(xué)隨機(jī)選擇了8名女大學(xué)生,其身高和體重?cái)?shù)據(jù)見(jiàn)表1-1。根據(jù)一

4、位女大學(xué)生的身高,要求預(yù)測(cè)她的體重的回歸方程,并預(yù)測(cè)身高為172厘米的女大學(xué)生的體重。案例1:女大學(xué)生的身高和體重,解釋:1,身高為自變量x,體重為變量y,散布圖:2,通過(guò)散布圖知道身高和體重比較好的線性相關(guān)性,所以可以用線性回歸方程來(lái)描述它們之間的關(guān)系。根據(jù)最小平方估計(jì)和未知參數(shù)A和B的最佳估計(jì),回歸方程,所以對(duì)于身高為172厘米的女大學(xué)生,可以通過(guò)回歸方程預(yù)測(cè)體重。P4:身高172厘米的女大學(xué)生的體重一定是60.316公斤嗎?如果不是,你能解釋原因嗎?P4:身高172厘米的女大學(xué)生的體重一定是60.316公斤嗎?如果不是,你能解釋原因嗎?答:身高172厘米的女大學(xué)生的體重不一定是60.31

5、6公斤,但一般可以認(rèn)為她的體重是60.316公斤左右。60.136公斤不是身高172厘米的女大學(xué)生的體重預(yù)測(cè)值,而是身高172厘米的女大學(xué)生的平均體重預(yù)測(cè)值。,1 .用相關(guān)系數(shù)R測(cè)量,2 .公式:求出線性相關(guān)方程后,說(shuō)明身高x每增加一個(gè)單位體重y就增加0.849個(gè)單位,那么體重和身高之間存在正線性相關(guān)關(guān)系。如何解釋它們之間線性相關(guān)的強(qiáng)弱?x和y是完全線性相關(guān),它們之間有明確的函數(shù)關(guān)系。表明X和Y之間存在一定的線性相關(guān)性。r的絕對(duì)值越大,越接近1,X和Y吳宣儀相關(guān)程度越高,反之亦然。3 .性格:例1在一所大學(xué)隨機(jī)選擇8名女大學(xué)生,其身高和體重?cái)?shù)據(jù)見(jiàn)表1-1。根據(jù)一位女大學(xué)生的身高,要求預(yù)測(cè)她的體

6、重的回歸方程,并預(yù)測(cè)身高為172厘米的女大學(xué)生的體重。案例1:女大學(xué)生的身高和體重,解釋:1,身高為自變量x,體重為變量y,散布圖:2,通過(guò)散布圖知道身高和體重比較好的線性相關(guān)性,所以可以用線性回歸方程來(lái)描述它們之間的關(guān)系。3,在散點(diǎn)圖中,示例點(diǎn)分布在非直線附近,因此無(wú)法使用函數(shù)y=bx a一次說(shuō)明關(guān)系。Y=bx a e,其中a和b是模型的未知參數(shù),e稱為隨機(jī)誤差。請(qǐng)考慮P3產(chǎn)生隨機(jī)錯(cuò)誤項(xiàng)e的原因。請(qǐng)考慮隨機(jī)錯(cuò)誤項(xiàng)e的原因。隨機(jī)誤差E的來(lái)源(可能擴(kuò)大到一般):1,其他因素的影響:影響體重Y的因素不僅包括身高X,還包括基因、飲食習(xí)慣、運(yùn)動(dòng)、生長(zhǎng)環(huán)境、測(cè)量誤差等。2、使用線性回歸模型逼近實(shí)際模型引

7、起的誤差。3,高度x觀測(cè)誤差。最小二乘法:樣本點(diǎn)的中心:回歸線,回歸方程:3,回歸分析的基本步驟:繪制散點(diǎn)圖,查找回歸方程,回歸線方程預(yù)測(cè),確定,這種方法稱為回歸分析。函數(shù)模型和回歸模型的差值,函數(shù)模型:回歸模型:線性回歸模型y=bx a e添加隨機(jī)誤差項(xiàng)E。變量Y的值由參數(shù)X和隨機(jī)錯(cuò)誤項(xiàng)E共同確定。也就是說(shuō),自變量X只能解釋部分Y的變化。在統(tǒng)計(jì)中,參數(shù)X稱為解釋變量。變量Y稱為預(yù)測(cè)變量。隨機(jī)誤差、E的估計(jì)值、采樣點(diǎn):相應(yīng)的隨機(jī)誤差為:隨機(jī)誤差的估計(jì)值為:,角色:確定模型的適用性。正確選擇模型后,殘差圖形上的點(diǎn)應(yīng)圍繞橫軸分布在皮帶區(qū)域中。誤差和殘差,這兩個(gè)概念在一定程度上有很大的相似性,是衡量

8、不確定性的指標(biāo),但存在差異。(David aser,Northern Exposure,Northern Exposure,模型)誤差與測(cè)量相關(guān),誤差大小表示測(cè)量的準(zhǔn)確性,誤差越大,測(cè)量就越不準(zhǔn)確。錯(cuò)誤分為系統(tǒng)錯(cuò)誤和隨機(jī)錯(cuò)誤兩類。其中,系統(tǒng)誤差與測(cè)量方案相關(guān),可以改進(jìn)測(cè)量方案,防止系統(tǒng)誤差。隨機(jī)誤差與觀測(cè)者、測(cè)量工具、觀測(cè)對(duì)象的性質(zhì)有關(guān),只能最小化,但不能避免。殘差與預(yù)測(cè)相關(guān),殘差大小可以衡量預(yù)測(cè)的準(zhǔn)確性。殘差越大,預(yù)測(cè)越不準(zhǔn)確。殘差與數(shù)據(jù)本身的分布特性、回歸方程的選擇有關(guān)??梢允褂脠D形分析誤差特性。繪制時(shí),縱坐標(biāo)是誤差,橫坐標(biāo)可以選擇樣品編號(hào)、高度數(shù)據(jù)、體重估計(jì)等。這樣創(chuàng)建的圖形稱為殘差圖。

9、表1-4列出了女大學(xué)生身高和體重的原始數(shù)據(jù)和相應(yīng)的殘差數(shù)據(jù)。使用公式計(jì)算殘差,殘差圖的制作和功能。坐標(biāo)縱軸是誤差變量,橫軸可以有其他選擇。正確選擇模型后,殘差圖形上的點(diǎn)必須分布在以橫軸為中心的帶區(qū)。對(duì)遠(yuǎn)離橫軸的點(diǎn)要特別注意。身高和體重殘差圖,一些說(shuō)明:第一個(gè)樣品點(diǎn)和第六個(gè)樣品點(diǎn)的殘差比較大,所以在采集過(guò)程中,必須確定哪些人犯了錯(cuò)誤。(David aser,Northern Exposure,健康)如果數(shù)據(jù)收集有錯(cuò)誤,請(qǐng)更正,然后重復(fù)使用線性回歸模型擬合數(shù)據(jù)。如果數(shù)據(jù)收集沒(méi)有錯(cuò)誤,則必須查找其他原因。此外,殘留物差點(diǎn)均勻地落到水平帶狀區(qū)域上,表明選定模型更合適。表明,這些帶狀區(qū)域越窄,模型擬合精

10、度越高,回歸方程的預(yù)測(cè)精度越高。R2值越大,誤差平方之和越小,表明模型擬合效果越好。在線性回歸模型中,R2描述了變量對(duì)預(yù)測(cè)變量變化的貢獻(xiàn)百分比。R2越接近1,回歸的效果越好(R2越接近1,分析變量和預(yù)測(cè)變量的線性關(guān)聯(lián)性越強(qiáng))。如果數(shù)據(jù)集可以使用多個(gè)不同的回歸方程進(jìn)行回歸分析,則可以通過(guò)比較R2的值來(lái)選擇。也就是說(shuō),可以選擇R2大模型作為此數(shù)據(jù)集的模型。通常,相關(guān)金志洙R2是衡量模型擬合效果的指標(biāo)。表示線性模型中表示參數(shù)的預(yù)測(cè)變量的功能。例1中的R20.64是變量對(duì)總效果貢獻(xiàn)了約64%,可以解釋為“身高分析64%的體重變化”,隨機(jī)誤差貢獻(xiàn)了剩馀的36%。因此身高對(duì)體重的影響比隨機(jī)誤差大得多。在研

11、究?jī)蓚€(gè)變量之間的關(guān)系時(shí),首先要根據(jù)散點(diǎn)圖大致確定是否是線性相關(guān),是否可以使用回歸模型擬合數(shù)據(jù)。殘差分析和殘差圖的定義:然后,通過(guò)殘差確定模型擬合的效果,并確定原始數(shù)據(jù)是否有可疑數(shù)據(jù)。這稱為殘差分析。通常,設(shè)置回歸模型的基本步驟是:(1)確定研究對(duì)象,確定哪些變量為分析變量X,哪些變量為預(yù)測(cè)變量Y。(2)繪制確定確定的分析變量和預(yù)測(cè)變量的散點(diǎn)圖,觀察它們之間的關(guān)系(例如,線性關(guān)系等)。(3)經(jīng)驗(yàn)確定的回歸方程類型(例如,如果觀察到數(shù)據(jù)為線性關(guān)系,則線性回歸方程y=bx a)。(4)根據(jù)特定規(guī)則估計(jì)回歸方程式的參數(shù)(例如最小平方)。(5)獲得結(jié)果后,分析殘差圖是否有異常(單個(gè)數(shù)據(jù)匹配殘差太大或殘差

12、不規(guī)則的規(guī)則性等),如果有異常,檢查數(shù)據(jù)是否錯(cuò)誤,模型是否有效等。最小平方:取樣點(diǎn)的中心:為回歸線,回歸方程式:,因此身高對(duì)體重的影響比隨機(jī)誤差大得多。R2說(shuō)明變量對(duì)預(yù)測(cè)變量變化的貢獻(xiàn)百分比。使用公式計(jì)算殘差。隨機(jī)誤差的估計(jì)值,稱為點(diǎn)的等差。例2一只紅色響尾蛇的產(chǎn)卵數(shù)Y與溫度X有關(guān)。目前收集了7組觀測(cè)數(shù)據(jù),并在表中列出。(1)試著建立產(chǎn)卵數(shù)Y和溫度X之間的回歸方程。溫度為28oC時(shí)估計(jì)散射數(shù)。(2)你制作的模型的溫度在多大程度上說(shuō)明了產(chǎn)卵數(shù)的變化?(?散射數(shù)、溫度、散射圖中的采樣點(diǎn)不在帶狀區(qū)域內(nèi)分布,因此,這兩個(gè)變量不表示線性相關(guān)性,因此不能直接使用線性回歸方程來(lái)建立兩個(gè)變量之間的關(guān)系。使用線

13、性回歸模型研究Y和X之間的非線性回歸方程。如果回歸方程式不是y=bx a,則范例點(diǎn)會(huì)分布在金志洙功能曲線周圍。其中C1和C2是待定參數(shù)。轉(zhuǎn)換后,采樣點(diǎn)應(yīng)圍繞線z=bx a分布。散射數(shù),氣溫,轉(zhuǎn)換y=bx a非線性關(guān)系線性關(guān)系,對(duì)數(shù),方法1:金志洙函數(shù)模型X=28,y 44,金志洙回歸模型的溫度描述了散射數(shù)的98%變化。方法3:一元函數(shù)模型,最好的模型是什么?顯然,金志洙函數(shù)模型是最好的!使用殘差計(jì)算公式:殘差平方和:因此,金志洙函數(shù)模型的擬合效果優(yōu)于二次函數(shù)的仿真效果?;蛘撸绻麠l件R2分別為0.98和0.80,也可以達(dá)到此效果。擴(kuò)展教室知識(shí),我們知道,如果警探們能從案發(fā)現(xiàn)場(chǎng)提取罪犯的足跡,就能得到重要的案件線索,根據(jù)一個(gè)人腳底的長(zhǎng)度,預(yù)測(cè)他的身高。我知道統(tǒng)計(jì)史很久以前就收集過(guò)人們的身高、前臂長(zhǎng)度等數(shù)據(jù)。根據(jù)這兩個(gè)小故事的啟發(fā),班里的同學(xué)們可以在每個(gè)組分成4-6名同學(xué),在老師的指導(dǎo)下進(jìn)行一次數(shù)學(xué)建?;顒?dòng),親身體驗(yàn)一下數(shù)學(xué)建模的題目是收集周圍人腳掌長(zhǎng)度、前臂長(zhǎng)度中的一個(gè)數(shù)據(jù)和高度,用兩個(gè)變量繪制散布圖,如果兩個(gè)變量之間存在線性相關(guān),就求出歸線方程,選擇其他人兩個(gè)變量的數(shù)據(jù)進(jìn)行一次預(yù)測(cè),分析預(yù)測(cè)結(jié)果。最后,將數(shù)學(xué)建模報(bào)告分組,報(bào)告過(guò)程明

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論