回歸分析的基本思想及其初步應(yīng)用

上傳人：y*** IP屬地：廣東上傳時(shí)間：2020-07-14 格式：PPT 頁(yè)數(shù)：56 大?。?.23MB 積分：30 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩51頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、新學(xué)期我們懷著大學(xué)的夢(mèng)想。相信我們自己，每天努力，一定要了解北京大學(xué)、第一章統(tǒng)計(jì)案例、1.1回歸分析的基本思想及其初步應(yīng)用、a .數(shù)學(xué)三重“回歸”的補(bǔ)充內(nèi)容、數(shù)學(xué)統(tǒng)計(jì)化散布圖、理解最小平方的思想，用回歸線方程ybxa作為回歸線方程解決應(yīng)用問(wèn)題。(選擇莎士比亞、北方表達(dá)式、北方表達(dá)式(美國(guó)電視劇)-統(tǒng)計(jì)案例介紹線性回歸模型了解ybxae模型中隨機(jī)誤差項(xiàng)E發(fā)生的原因了解相關(guān)金志洙R2與模型擬合的效果之間的關(guān)系理解誤差圖的作用使用線性回歸模型確定非線性回歸問(wèn)題解決方法和結(jié)果必需3 變量之間的相關(guān)性，利用樣本的頻率分布估計(jì)總體分布，利用樣本數(shù)字特征估計(jì)總體數(shù)字特性，線性回歸分析，問(wèn)題1:正方形面積Y和

2、正方形邊長(zhǎng)X之間的函數(shù)關(guān)系，問(wèn)題2:水稻產(chǎn)量Y和肥料X之間是否存在，例如，7個(gè)并列，在形狀相同的試驗(yàn)場(chǎng)進(jìn)行了施肥對(duì)水稻產(chǎn)量影響的實(shí)驗(yàn)，得出了以下數(shù)據(jù)集：復(fù)習(xí)：變量之間的兩個(gè)關(guān)系，當(dāng)參數(shù)值恒定時(shí)，變量的值具有隨機(jī)性的兩個(gè)變量之間的關(guān)系稱為相關(guān)性。(David aser，Northern Exposure美國(guó)電視劇，Northern Exposure(美國(guó)電視劇)，1，definition:1):相關(guān)的關(guān)系是不確定性的關(guān)系。注，1，兩個(gè)變量的關(guān)系，不相關(guān)，相關(guān)，函數(shù)關(guān)系，線性相關(guān)，非線性相關(guān)，問(wèn)題1:現(xiàn)實(shí)生活中兩個(gè)變量之間的關(guān)系是什么？相關(guān)關(guān)系：對(duì)于兩個(gè)變量，在參數(shù)值恒定的情況下，變量的值具有隨

3、機(jī)性的兩個(gè)變量之間的關(guān)系。思維：相關(guān)性和函數(shù)關(guān)系的區(qū)別是什么？函數(shù)關(guān)系中兩個(gè)變量之間的確定性關(guān)系關(guān)系是一種不確定性關(guān)系，函數(shù)關(guān)系是理想的關(guān)系模型關(guān)系關(guān)系關(guān)系在現(xiàn)實(shí)生活中大量存在，是更一般的情況。問(wèn)題2:對(duì)于線性相關(guān)的兩個(gè)變量，用什么方法刻劃關(guān)系？2，最小二乘法估計(jì)，最小二乘法估計(jì)線性回歸方程：最小二乘法：采樣點(diǎn)的中心：回歸方程：3，回歸分析的基本步驟3360，繪制散點(diǎn)圖，查找回歸方程，使用回歸方程例如：人的身高和年齡；產(chǎn)品的成本及生產(chǎn)數(shù)量商品銷售及廣告費(fèi)家庭的支出和收入。等等，探索：水稻產(chǎn)量Y和肥料量X之間大致有什么規(guī)律？例1在一所大學(xué)隨機(jī)選擇了8名女大學(xué)生，其身高和體重?cái)?shù)據(jù)見(jiàn)表1-1。根據(jù)一

4、位女大學(xué)生的身高，要求預(yù)測(cè)她的體重的回歸方程，并預(yù)測(cè)身高為172厘米的女大學(xué)生的體重。案例1:女大學(xué)生的身高和體重，解釋：1，身高為自變量x，體重為變量y，散布圖：2，通過(guò)散布圖知道身高和體重比較好的線性相關(guān)性，所以可以用線性回歸方程來(lái)描述它們之間的關(guān)系。根據(jù)最小平方估計(jì)和未知參數(shù)A和B的最佳估計(jì)，回歸方程，所以對(duì)于身高為172厘米的女大學(xué)生，可以通過(guò)回歸方程預(yù)測(cè)體重。P4:身高172厘米的女大學(xué)生的體重一定是60.316公斤嗎？如果不是，你能解釋原因嗎？P4:身高172厘米的女大學(xué)生的體重一定是60.316公斤嗎？如果不是，你能解釋原因嗎？答：身高172厘米的女大學(xué)生的體重不一定是60.31

5、6公斤，但一般可以認(rèn)為她的體重是60.316公斤左右。60.136公斤不是身高172厘米的女大學(xué)生的體重預(yù)測(cè)值，而是身高172厘米的女大學(xué)生的平均體重預(yù)測(cè)值。，1 .用相關(guān)系數(shù)R測(cè)量，2 .公式：求出線性相關(guān)方程后，說(shuō)明身高x每增加一個(gè)單位體重y就增加0.849個(gè)單位，那么體重和身高之間存在正線性相關(guān)關(guān)系。如何解釋它們之間線性相關(guān)的強(qiáng)弱？x和y是完全線性相關(guān)，它們之間有明確的函數(shù)關(guān)系。表明X和Y之間存在一定的線性相關(guān)性。r的絕對(duì)值越大，越接近1，X和Y吳宣儀相關(guān)程度越高，反之亦然。3 .性格：例1在一所大學(xué)隨機(jī)選擇8名女大學(xué)生，其身高和體重?cái)?shù)據(jù)見(jiàn)表1-1。根據(jù)一位女大學(xué)生的身高，要求預(yù)測(cè)她的體

6、重的回歸方程，并預(yù)測(cè)身高為172厘米的女大學(xué)生的體重。案例1:女大學(xué)生的身高和體重，解釋：1，身高為自變量x，體重為變量y，散布圖：2，通過(guò)散布圖知道身高和體重比較好的線性相關(guān)性，所以可以用線性回歸方程來(lái)描述它們之間的關(guān)系。3，在散點(diǎn)圖中，示例點(diǎn)分布在非直線附近，因此無(wú)法使用函數(shù)y=bx a一次說(shuō)明關(guān)系。Y=bx a e，其中a和b是模型的未知參數(shù)，e稱為隨機(jī)誤差。請(qǐng)考慮P3產(chǎn)生隨機(jī)錯(cuò)誤項(xiàng)e的原因。請(qǐng)考慮隨機(jī)錯(cuò)誤項(xiàng)e的原因。隨機(jī)誤差E的來(lái)源(可能擴(kuò)大到一般):1，其他因素的影響：影響體重Y的因素不僅包括身高X，還包括基因、飲食習(xí)慣、運(yùn)動(dòng)、生長(zhǎng)環(huán)境、測(cè)量誤差等。2、使用線性回歸模型逼近實(shí)際模型引

7、起的誤差。3，高度x觀測(cè)誤差。最小二乘法：樣本點(diǎn)的中心：回歸線，回歸方程：3，回歸分析的基本步驟：繪制散點(diǎn)圖，查找回歸方程，回歸線方程預(yù)測(cè)，確定，這種方法稱為回歸分析。函數(shù)模型和回歸模型的差值，函數(shù)模型：回歸模型：線性回歸模型y=bx a e添加隨機(jī)誤差項(xiàng)E。變量Y的值由參數(shù)X和隨機(jī)錯(cuò)誤項(xiàng)E共同確定。也就是說(shuō)，自變量X只能解釋部分Y的變化。在統(tǒng)計(jì)中，參數(shù)X稱為解釋變量。變量Y稱為預(yù)測(cè)變量。隨機(jī)誤差、E的估計(jì)值、采樣點(diǎn)：相應(yīng)的隨機(jī)誤差為：隨機(jī)誤差的估計(jì)值為：，角色：確定模型的適用性。正確選擇模型后，殘差圖形上的點(diǎn)應(yīng)圍繞橫軸分布在皮帶區(qū)域中。誤差和殘差，這兩個(gè)概念在一定程度上有很大的相似性，是衡量

8、不確定性的指標(biāo)，但存在差異。(David aser，Northern Exposure，Northern Exposure，模型)誤差與測(cè)量相關(guān)，誤差大小表示測(cè)量的準(zhǔn)確性，誤差越大，測(cè)量就越不準(zhǔn)確。錯(cuò)誤分為系統(tǒng)錯(cuò)誤和隨機(jī)錯(cuò)誤兩類。其中，系統(tǒng)誤差與測(cè)量方案相關(guān)，可以改進(jìn)測(cè)量方案，防止系統(tǒng)誤差。隨機(jī)誤差與觀測(cè)者、測(cè)量工具、觀測(cè)對(duì)象的性質(zhì)有關(guān)，只能最小化，但不能避免。殘差與預(yù)測(cè)相關(guān)，殘差大小可以衡量預(yù)測(cè)的準(zhǔn)確性。殘差越大，預(yù)測(cè)越不準(zhǔn)確。殘差與數(shù)據(jù)本身的分布特性、回歸方程的選擇有關(guān)?？梢允褂脠D形分析誤差特性。繪制時(shí)，縱坐標(biāo)是誤差，橫坐標(biāo)可以選擇樣品編號(hào)、高度數(shù)據(jù)、體重估計(jì)等。這樣創(chuàng)建的圖形稱為殘差圖。

9、表1-4列出了女大學(xué)生身高和體重的原始數(shù)據(jù)和相應(yīng)的殘差數(shù)據(jù)。使用公式計(jì)算殘差，殘差圖的制作和功能。坐標(biāo)縱軸是誤差變量，橫軸可以有其他選擇。正確選擇模型后，殘差圖形上的點(diǎn)必須分布在以橫軸為中心的帶區(qū)。對(duì)遠(yuǎn)離橫軸的點(diǎn)要特別注意。身高和體重殘差圖，一些說(shuō)明：第一個(gè)樣品點(diǎn)和第六個(gè)樣品點(diǎn)的殘差比較大，所以在采集過(guò)程中，必須確定哪些人犯了錯(cuò)誤。(David aser，Northern Exposure，健康)如果數(shù)據(jù)收集有錯(cuò)誤，請(qǐng)更正，然后重復(fù)使用線性回歸模型擬合數(shù)據(jù)。如果數(shù)據(jù)收集沒(méi)有錯(cuò)誤，則必須查找其他原因。此外，殘留物差點(diǎn)均勻地落到水平帶狀區(qū)域上，表明選定模型更合適。表明，這些帶狀區(qū)域越窄，模型擬合精

10、度越高，回歸方程的預(yù)測(cè)精度越高。R2值越大，誤差平方之和越小，表明模型擬合效果越好。在線性回歸模型中，R2描述了變量對(duì)預(yù)測(cè)變量變化的貢獻(xiàn)百分比。R2越接近1，回歸的效果越好(R2越接近1，分析變量和預(yù)測(cè)變量的線性關(guān)聯(lián)性越強(qiáng))。如果數(shù)據(jù)集可以使用多個(gè)不同的回歸方程進(jìn)行回歸分析，則可以通過(guò)比較R2的值來(lái)選擇。也就是說(shuō)，可以選擇R2大模型作為此數(shù)據(jù)集的模型。通常，相關(guān)金志洙R2是衡量模型擬合效果的指標(biāo)。表示線性模型中表示參數(shù)的預(yù)測(cè)變量的功能。例1中的R20.64是變量對(duì)總效果貢獻(xiàn)了約64%，可以解釋為“身高分析64%的體重變化”，隨機(jī)誤差貢獻(xiàn)了剩馀的36%。因此身高對(duì)體重的影響比隨機(jī)誤差大得多。在研

11、究?jī)蓚€(gè)變量之間的關(guān)系時(shí)，首先要根據(jù)散點(diǎn)圖大致確定是否是線性相關(guān)，是否可以使用回歸模型擬合數(shù)據(jù)。殘差分析和殘差圖的定義：然后，通過(guò)殘差確定模型擬合的效果，并確定原始數(shù)據(jù)是否有可疑數(shù)據(jù)。這稱為殘差分析。通常，設(shè)置回歸模型的基本步驟是：(1)確定研究對(duì)象，確定哪些變量為分析變量X，哪些變量為預(yù)測(cè)變量Y。(2)繪制確定確定的分析變量和預(yù)測(cè)變量的散點(diǎn)圖，觀察它們之間的關(guān)系(例如，線性關(guān)系等)。(3)經(jīng)驗(yàn)確定的回歸方程類型(例如，如果觀察到數(shù)據(jù)為線性關(guān)系，則線性回歸方程y=bx a)。(4)根據(jù)特定規(guī)則估計(jì)回歸方程式的參數(shù)(例如最小平方)。(5)獲得結(jié)果后，分析殘差圖是否有異常(單個(gè)數(shù)據(jù)匹配殘差太大或殘差

12、不規(guī)則的規(guī)則性等)，如果有異常，檢查數(shù)據(jù)是否錯(cuò)誤，模型是否有效等。最小平方：取樣點(diǎn)的中心：為回歸線，回歸方程式：，因此身高對(duì)體重的影響比隨機(jī)誤差大得多。R2說(shuō)明變量對(duì)預(yù)測(cè)變量變化的貢獻(xiàn)百分比。使用公式計(jì)算殘差。隨機(jī)誤差的估計(jì)值，稱為點(diǎn)的等差。例2一只紅色響尾蛇的產(chǎn)卵數(shù)Y與溫度X有關(guān)。目前收集了7組觀測(cè)數(shù)據(jù)，并在表中列出。(1)試著建立產(chǎn)卵數(shù)Y和溫度X之間的回歸方程。溫度為28oC時(shí)估計(jì)散射數(shù)。(2)你制作的模型的溫度在多大程度上說(shuō)明了產(chǎn)卵數(shù)的變化？(？散射數(shù)、溫度、散射圖中的采樣點(diǎn)不在帶狀區(qū)域內(nèi)分布，因此，這兩個(gè)變量不表示線性相關(guān)性，因此不能直接使用線性回歸方程來(lái)建立兩個(gè)變量之間的關(guān)系。使用線

13、性回歸模型研究Y和X之間的非線性回歸方程。如果回歸方程式不是y=bx a，則范例點(diǎn)會(huì)分布在金志洙功能曲線周圍。其中C1和C2是待定參數(shù)。轉(zhuǎn)換后，采樣點(diǎn)應(yīng)圍繞線z=bx a分布。散射數(shù)，氣溫，轉(zhuǎn)換y=bx a非線性關(guān)系線性關(guān)系，對(duì)數(shù)，方法1:金志洙函數(shù)模型X=28，y 44，金志洙回歸模型的溫度描述了散射數(shù)的98%變化。方法3:一元函數(shù)模型，最好的模型是什么？顯然，金志洙函數(shù)模型是最好的！使用殘差計(jì)算公式：殘差平方和：因此，金志洙函數(shù)模型的擬合效果優(yōu)于二次函數(shù)的仿真效果?；蛘撸绻麠l件R2分別為0.98和0.80，也可以達(dá)到此效果。擴(kuò)展教室知識(shí)，我們知道，如果警探們能從案發(fā)現(xiàn)場(chǎng)提取罪犯的足跡，就能得到重要的案件線索，根據(jù)一個(gè)人腳底的長(zhǎng)度，預(yù)測(cè)他的身高。我知道統(tǒng)計(jì)史很久以前就收集過(guò)人們的身高、前臂長(zhǎng)度等數(shù)據(jù)。根據(jù)這兩個(gè)小故事的啟發(fā)，班里的同學(xué)們可以在每個(gè)組分成4-6名同學(xué)，在老師的指導(dǎo)下進(jìn)行一次數(shù)學(xué)建?；顒?dòng)，親身體驗(yàn)一下數(shù)學(xué)建模的題目是收集周圍人腳掌長(zhǎng)度、前臂長(zhǎng)度中的一個(gè)數(shù)據(jù)和高度，用兩個(gè)變量繪制散布圖，如果兩個(gè)變量之間存在線性相關(guān)，就求出歸線方程，選擇其他人兩個(gè)變量的數(shù)據(jù)進(jìn)行一次預(yù)測(cè)，分析預(yù)測(cè)結(jié)果。最后，將數(shù)學(xué)建模報(bào)告分組，報(bào)告過(guò)程明

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

回歸分析的基本思想及其初步應(yīng)用

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

回歸分析的基本思想及其初步應(yīng)用

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔