統(tǒng)計(jì)學(xué)-在經(jīng)濟(jì)管理中的應(yīng)用 課件 第6章 相關(guān)與回歸分析_第1頁(yè)
統(tǒng)計(jì)學(xué)-在經(jīng)濟(jì)管理中的應(yīng)用 課件 第6章 相關(guān)與回歸分析_第2頁(yè)
統(tǒng)計(jì)學(xué)-在經(jīng)濟(jì)管理中的應(yīng)用 課件 第6章 相關(guān)與回歸分析_第3頁(yè)
統(tǒng)計(jì)學(xué)-在經(jīng)濟(jì)管理中的應(yīng)用 課件 第6章 相關(guān)與回歸分析_第4頁(yè)
統(tǒng)計(jì)學(xué)-在經(jīng)濟(jì)管理中的應(yīng)用 課件 第6章 相關(guān)與回歸分析_第5頁(yè)
已閱讀5頁(yè),還剩81頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第六章相關(guān)與回歸分析第一節(jié)相關(guān)分析與回歸分析的概念第二節(jié)相關(guān)表、相關(guān)圖與相關(guān)系數(shù)第三節(jié)一元線性回歸分析第四節(jié)可線性化的曲線回歸學(xué)習(xí)目標(biāo)1、理解變量間的相關(guān)關(guān)系與相關(guān)系數(shù)的計(jì)算2、理解總體回歸函數(shù)與樣本回歸函數(shù)3、了解一元線性回歸的基本假定4、了解一元線性回歸參數(shù)的估計(jì)與檢驗(yàn)5、了解一元線性回歸參數(shù)的簡(jiǎn)單應(yīng)用6、了解常用的可以轉(zhuǎn)換為線性回歸的非線性函數(shù)科學(xué)主要是要建立模型,并不是試圖去說(shuō)明,而且也很少解釋什么。這里所說(shuō)的模型是一種數(shù)學(xué)結(jié)構(gòu),再加上某種特定語(yǔ)言的解釋來(lái)描述所觀察到的現(xiàn)象。建立這種數(shù)學(xué)結(jié)構(gòu)的理由唯一而且明確地由人們所期待的它的機(jī)能來(lái)決定。

——“電腦之父”馮·諾依曼第一節(jié)相關(guān)分析與回歸分析的概念一、相關(guān)與相關(guān)分析的概念與類型

1、相關(guān)分析的概念

2、相關(guān)關(guān)系的類型

1、相關(guān)分析的概念相關(guān)分析就是通過(guò)對(duì)現(xiàn)象的依存關(guān)系的分析,找出現(xiàn)象間的相互依存的形式和相關(guān)程度,以及依存關(guān)系的變動(dòng)規(guī)律。即對(duì)現(xiàn)象(變量)之間是否相關(guān)及其相關(guān)的程度、方向進(jìn)行分析的統(tǒng)計(jì)分析方法。

變量間的相互關(guān)系◆確定性的函數(shù)關(guān)系Y=f(X)如:某種商品的銷售額Y與該商品的銷售量X、銷售單價(jià)P之間的關(guān)系:Y=X*P◆不確定性的統(tǒng)計(jì)關(guān)系—相關(guān)關(guān)系

Y=f(X)+ε(ε為隨機(jī)變量)如:企業(yè)成本的高低與利潤(rùn)的多少之間的關(guān)系

◆沒(méi)有關(guān)系變量間關(guān)系的圖形描述:坐標(biāo)圖(散點(diǎn)圖)注意:相關(guān)關(guān)系和函數(shù)關(guān)系既有區(qū)別,又有聯(lián)系,它們可以相互轉(zhuǎn)化

2、相關(guān)關(guān)系的類型1)從變量相關(guān)的程度看完全相關(guān)(A)不完全相關(guān)(B)

不相關(guān)(C)2)從變量相關(guān)關(guān)系變化的方向看正相關(guān)—變量同方向變化同增同減(B)負(fù)相關(guān)—變量反方向變化一增一減(A)

A

B

C3)從涉及的變量數(shù)量看簡(jiǎn)單相關(guān)多重相關(guān)(復(fù)相關(guān))4)從變量相關(guān)關(guān)系的表現(xiàn)形式看線性相關(guān)——散布圖接近一條直線(下左圖)

非線性相關(guān)——散布圖接近一條曲線(下右圖)5)根據(jù)變量間相互關(guān)系所反映的內(nèi)容,可分為真實(shí)相關(guān)和虛假相關(guān)。教師薪金的提高和酒價(jià)的上漲做了相關(guān)分析美國(guó)經(jīng)濟(jì)學(xué)學(xué)位越高的人,收入越低注意不要在相關(guān)關(guān)系據(jù)以成立的數(shù)據(jù)范圍以外,推論這種相關(guān)關(guān)系仍然保持。例如,下雨與農(nóng)作物生長(zhǎng)在具體應(yīng)用過(guò)程中,一定要始終注意把定性分析和定量分析結(jié)合起來(lái),在準(zhǔn)確進(jìn)行定性分析的基礎(chǔ)上展開(kāi)定量分析。3、相關(guān)分析的內(nèi)容(1)確定現(xiàn)象之間是否存在相關(guān)關(guān)系及其表現(xiàn)形式(2)確定相關(guān)關(guān)系的密切程度(3)確定相關(guān)關(guān)系的數(shù)學(xué)表達(dá)式(4)確定變量估計(jì)值與實(shí)際值之間的差異程度二、回歸分析的概念與類型1、回歸分析的概念“回歸”一詞由英國(guó)生物學(xué)家高爾頓(F.Galton)在研究人體身高的遺傳問(wèn)題時(shí)首先提出的。“回歸”的古典意義:子輩身高與父輩身高之間存在著一種相關(guān)關(guān)系。子輩的身高有向人的平均身高(即中心)回歸的趨勢(shì)。高爾頓與回歸分析的起源“回歸”是由英國(guó)著名生物學(xué)家兼統(tǒng)計(jì)學(xué)家高爾頓(FrancisGalton,1822~1911.生物學(xué)家達(dá)爾文的表弟)在研究人類遺傳問(wèn)題時(shí)提出來(lái)的。1855年,高爾頓發(fā)表《遺傳的身高向平均數(shù)方向的回歸》論文。高爾頓和他的學(xué)生K.Pearson通過(guò)觀察了1078對(duì)夫婦,以每對(duì)夫婦的平均身高作為自變量,取他們的一個(gè)成年兒子的身高作為因變量,結(jié)果發(fā)現(xiàn)兩者近乎一條直線,其回歸直線方程為:

y^=33.73+0.516x

這種趨勢(shì)及回歸方程表明父母身高每增加一個(gè)單位時(shí),其成年兒子的身高也平均增加0.516個(gè)單位。

回歸的現(xiàn)代意義一個(gè)因變量對(duì)一個(gè)或若干解釋變量依存關(guān)系的研究回歸的目的(實(shí)質(zhì))由固定的自變量去估計(jì)因變量的平均值樣本總體自變量固定值估計(jì)因變量平均值現(xiàn)代回歸分析已成為一種廣泛應(yīng)用的分析研究方法,在經(jīng)濟(jì)理論研究和實(shí)證研究中發(fā)揮著重要的作用。2、回歸分析的類型按照自變量的個(gè)數(shù)劃分,有一元回歸和多元回歸。按照回歸曲線的形態(tài)或根據(jù)變量或參數(shù)之間的關(guān)系來(lái)分,有線性(直線)回歸和非線性(曲線)回歸;根據(jù)解釋變量的性質(zhì)來(lái)分,可以分為方差分析、協(xié)方差分析和Logistic回歸。按模型中方程數(shù)目的多少,分為單一方程模型和聯(lián)立方程模型。三、相關(guān)分析與回歸分析的關(guān)系相關(guān)分析與回歸分析的聯(lián)系:1)具有共同的研究對(duì)象,即兩者都是對(duì)變量間相關(guān)關(guān)系的分析。理論和方法具有一致性;2)相關(guān)分析是回歸分析的基礎(chǔ)和前提,回歸分析則是相關(guān)分析的深入和繼續(xù)。3)相關(guān)系數(shù)和回歸系數(shù)方向一致,可以互相推算相關(guān)分析與回歸分析的區(qū)別:1)在相關(guān)分析中,變量之間的關(guān)系是對(duì)等的;而在回歸分析中,則必須根據(jù)研究對(duì)象的性質(zhì)和研究分析的目的,把變量劃分為自變量和因變量。因此,在回歸分析中,變量之間的關(guān)系是不對(duì)等的。2)在相關(guān)分析中所有的變量都是隨機(jī)變量;而在回歸分析中,自變量是給定的,因變量是隨機(jī)的。3)相關(guān)分析主要是通過(guò)一個(gè)指標(biāo)即相關(guān)系數(shù)來(lái)反映變量之間線性相關(guān)程度的大小和方向,由于變量之間是對(duì)等的,因此相關(guān)系數(shù)是惟一確定的。相關(guān)分析中相關(guān)系數(shù)的確定是建立在回歸分析基礎(chǔ)上的。而回歸分析是根據(jù)相關(guān)關(guān)系的具體形態(tài),選擇合適的數(shù)學(xué)模型,來(lái)分析自變量與因變量間的平均變化關(guān)系?;貧w分析的內(nèi)容從一組樣本數(shù)據(jù)出發(fā),確定變量之間的數(shù)學(xué)關(guān)系式對(duì)這些關(guān)系式的可信程度進(jìn)行各種統(tǒng)計(jì)檢驗(yàn),并從影響某一特定變量的諸多變量中找出哪些變量的影響顯著,哪些不顯著利用所求的關(guān)系式,根據(jù)一個(gè)或幾個(gè)變量的取值來(lái)預(yù)測(cè)或控制另一個(gè)特定變量的取值,并給出這種預(yù)測(cè)或控制的精確程度19單選題下面現(xiàn)象間的關(guān)系屬于相關(guān)關(guān)系的是()。

A.圓的周長(zhǎng)和它的半徑之間的關(guān)系

B.價(jià)格不變條件下,商品銷售額與銷售量之間的關(guān)系

C.家庭收入愈多,其消費(fèi)支出也有增長(zhǎng)的趨勢(shì)

D.正方形面積和它的邊長(zhǎng)之間的關(guān)系20多選題下列哪些關(guān)系是相關(guān)關(guān)系()A.球的半徑長(zhǎng)度和體積的關(guān)系B.農(nóng)作物收獲和施肥量的關(guān)系C.商品銷售額和利潤(rùn)率的關(guān)系D.產(chǎn)品產(chǎn)量與單位成品成本的關(guān)系E.家庭收入多少與消費(fèi)支出增長(zhǎng)的關(guān)系21多選題下列屬于正相關(guān)的現(xiàn)象是()A.家庭收入越多,其消費(fèi)支出也越多B.某產(chǎn)品產(chǎn)量隨工人勞動(dòng)生產(chǎn)率提高而增加C.流通費(fèi)用率隨商品銷售額的增加而減少D.生產(chǎn)單位產(chǎn)品所耗工時(shí)隨勞動(dòng)生產(chǎn)率的提高而減少E.產(chǎn)品產(chǎn)量隨生產(chǎn)用固定資產(chǎn)價(jià)值的減少而減少第二節(jié)相關(guān)表、相關(guān)圖與相關(guān)系數(shù)一、相關(guān)表二、相關(guān)圖三、相關(guān)系數(shù)一、相關(guān)表相關(guān)表是一種統(tǒng)計(jì)表。它是根據(jù)現(xiàn)象之間的原始資料,將一個(gè)變量的若干變量值按一定的順序進(jìn)行排列,并將另一個(gè)變量的值與之對(duì)應(yīng)排列形成的統(tǒng)計(jì)表。相關(guān)表(例題)[例6.1]成都市某公司想了解其廣告投入與銷售收入之間的關(guān)系,以便決定第二年是否要增加廣告費(fèi)的投入,該公司把2008年1-12月每月的廣告費(fèi)用與銷售收入數(shù)據(jù)按月進(jìn)行排列(表6.1)。

表6.1成都市某公司廣告費(fèi)與月銷售收入相關(guān)表單位:萬(wàn)元月份123456789101112廣告費(fèi)32123.51.52.82.32.41.82.52.5銷售收入908576981108212090908095100二、相關(guān)圖相關(guān)圖又稱散點(diǎn)圖,它是用直角坐標(biāo)系的x軸代表一個(gè)變量,y軸代表另一個(gè)變量,將兩個(gè)變量間相對(duì)應(yīng)的變量值用坐標(biāo)點(diǎn)的形式描繪出來(lái),用以表明相關(guān)點(diǎn)分布狀況的圖形。根據(jù)表6.1的資料可以繪制相關(guān)圖(見(jiàn)圖5.1)。圖6.1成都市某公司廣告費(fèi)投入與銷售收入的相關(guān)圖三、相關(guān)系數(shù)相關(guān)系數(shù)是用于測(cè)定變量間的相關(guān)程度的統(tǒng)計(jì)量。依據(jù)相關(guān)現(xiàn)象之間的不同特征,相關(guān)系數(shù)的名稱和計(jì)算方法有所不同。將反映兩個(gè)變量間線性相關(guān)關(guān)系的統(tǒng)計(jì)指標(biāo)稱為簡(jiǎn)單相關(guān)系數(shù);將反映兩個(gè)變量間曲線相關(guān)關(guān)系的統(tǒng)計(jì)指標(biāo)稱為非線性相關(guān)系數(shù);將反映多元線性相關(guān)關(guān)系的統(tǒng)計(jì)指標(biāo)稱為復(fù)相關(guān)系數(shù)等??傮w相關(guān)系數(shù)

對(duì)于所研究的總體,表示兩個(gè)相互聯(lián)系變量相關(guān)程度的總體相關(guān)系數(shù)

樣本相關(guān)系數(shù)

通過(guò)X和Y的樣本觀測(cè)值x和y去估計(jì)樣本相關(guān)系數(shù)。變量X和Y的樣本相關(guān)系數(shù)通常用r表示

特點(diǎn):樣本相關(guān)系數(shù)是根據(jù)從總體中抽取的隨機(jī)樣本的觀測(cè)值計(jì)算出來(lái)的,是對(duì)總體相關(guān)系數(shù)的估計(jì),它是個(gè)隨機(jī)變量。29相關(guān)系數(shù)的簡(jiǎn)化式相關(guān)系數(shù)的特點(diǎn):

相關(guān)系數(shù)的取值在-1與1之間。當(dāng)r=0時(shí),表明X與Y沒(méi)有線性相關(guān)關(guān)系。當(dāng)0<<1時(shí),表明X與Y存在一定的線性相關(guān)關(guān)系:

若r>0,表明X與Y為正相關(guān);

若r<0,表明X與Y為負(fù)相關(guān)。當(dāng)=1時(shí),表明X與Y完全線性相關(guān):

若r=1,稱X與Y完全正相關(guān);若r=-1,稱X與Y完全負(fù)相關(guān)。對(duì)兩個(gè)變量之間的相關(guān)關(guān)系的密切程度,可根據(jù)計(jì)算出的相關(guān)系數(shù)的大小進(jìn)行判斷。一般可按四級(jí)劃分:|r|<0.3為弱線性相關(guān);0.3≤|r|<0.5為低度線性相關(guān),0.5≤|r|<0.8為顯著線性相關(guān);0.8≤|r|<1為極強(qiáng)線性相關(guān)。

使用相關(guān)系數(shù)的注意事項(xiàng):▲X和Y都是相互對(duì)稱的隨機(jī)變量,所以▲相關(guān)系數(shù)只反映變量間的線性相關(guān)程度,不能說(shuō)明非線性相關(guān)關(guān)系?!嚓P(guān)系數(shù)不能確定變量的因果關(guān)系,也不能說(shuō)明相關(guān)關(guān)系具體接近于哪條直線。相關(guān)系數(shù)有一個(gè)明顯的缺點(diǎn),即接近于1的程度與數(shù)據(jù)組數(shù)n相關(guān),這容易給人一種假象。因?yàn)楫?dāng)n較小時(shí),相關(guān)系數(shù)的波動(dòng)較大,對(duì)有些樣本相關(guān)系數(shù)的絕對(duì)值易接近于1;當(dāng)n較大時(shí),相關(guān)系數(shù)的絕對(duì)值容易偏小。特別是當(dāng)n=2時(shí),相關(guān)系數(shù)的絕對(duì)值總為1。因此,在樣本容量n較小時(shí),僅憑相關(guān)系數(shù)較大就判定變量x與y之間有密切的線性關(guān)系是不妥當(dāng)?shù)摹O嚓P(guān)系數(shù)是根據(jù)樣本數(shù)據(jù)計(jì)算的,對(duì)同一個(gè)總體,抽取不同的樣本所得到的相關(guān)系數(shù)值是不同的。因此,相關(guān)系數(shù)是一個(gè)隨機(jī)變量,需要對(duì)其進(jìn)行統(tǒng)計(jì)顯著性檢驗(yàn)。相關(guān)系數(shù)的檢驗(yàn)

為什么要檢驗(yàn)?樣本相關(guān)系數(shù)是隨抽樣而變動(dòng)的隨機(jī)變量,相關(guān)系數(shù)的統(tǒng)計(jì)顯著性還有待檢驗(yàn)。檢驗(yàn)的依據(jù):

如果X和Y都服從正態(tài)分布,在總體相關(guān)系數(shù)的假設(shè)下,與樣本相關(guān)系數(shù)r有關(guān)的t統(tǒng)計(jì)量服從自由度為n-2的t分布:

~tα/2(n-2)

相關(guān)系數(shù)的檢驗(yàn)方法給定顯著性水平α,查自由度為n-2的臨界值tα/2若>tα/2,表明相關(guān)系數(shù)r在統(tǒng)計(jì)上是顯著的,應(yīng)否定,而接受的假設(shè);反之,若≤tα/2,應(yīng)接受的假設(shè)。

據(jù)世界衛(wèi)生組織統(tǒng)計(jì),全球肥胖癥患者達(dá)3億人,其中兒童占2200萬(wàn)人,11億人體重過(guò)重。肥胖癥和體重超常早已不是發(fā)達(dá)國(guó)家的“專利”,已遍及五大洲。目前,全球因”吃”致病乃至死亡的人數(shù)已高于因饑餓死亡的人數(shù)。

(引自《光明日?qǐng)?bào)》劉軍/文)問(wèn)題:肥胖癥和體重超常與死亡人數(shù)真有顯著的數(shù)量關(guān)系嗎?該問(wèn)題應(yīng)該運(yùn)用什么方法去解決?全球吃死的人比餓死的人多?第三節(jié)一元線性回歸分析一元線性回歸(SimpleLinearRegression)方程,又稱簡(jiǎn)單直線回歸方程。一元線性回歸分析中只涉及一個(gè)因變量和一個(gè)自變量,而且兩個(gè)變量的增量按一定的比例變化,或者說(shuō)兩個(gè)變量的增長(zhǎng)比率為常數(shù)。一元線性回歸分析是變量最少、最簡(jiǎn)單的一種回歸分析,但也是一種最基本、最重要的回歸分析?!?/p>

的條件分布

當(dāng)解釋變量

取某固定值時(shí)(條件),

的值不確定,

的不同取值形成一定的分布,即

的條件分布。●

的條件期望

對(duì)于

的每一個(gè)取值,對(duì)

所形成的分布確定其期望或均值,稱為

的條件期望或條件均值1、回歸線與回歸函數(shù)40

3)回歸線。對(duì)不同的Xi,都有一個(gè)確定的E(Y/Xi)與之相對(duì)應(yīng)。在二維坐標(biāo)圖上,所有的E(Y/Xi)的點(diǎn)隨X的不同而變化的軌跡所形成的直線或曲線,稱為回歸線。一、一元線性回歸模型1、回歸線與回歸函數(shù)在一元線性回歸分析中,變量X為自變量,變量Y為因變量。1)條件分布。當(dāng)X取某一固定值時(shí),變量Y的取值并不確定,Y的不同取值就會(huì)形成一定的分布,即Y在X取某一固定值時(shí)的條件分布。2)條件期望。對(duì)X的每一個(gè)取值,可以對(duì)Y的條件分布確定其期望值,即為Y的條件期望,可表示為E(Yi/Xi);3)回歸函數(shù)。如果E(Y/Xi)隨X的變化而表現(xiàn)出某種規(guī)律,可以把E(Y/Xi)表示為X的某種函數(shù),記為E(Y/Xi)=f(Xi),這就是回歸函數(shù)。如果回歸函數(shù)是涉及一個(gè)自變量的線性函數(shù),如E(Y/Xi)=,則該函數(shù)被稱為一元線性回歸函數(shù),也稱為簡(jiǎn)單線性回歸函數(shù)。

2、總體回歸函數(shù)(PRF)

概念:將總體因變量Y的條件均值表現(xiàn)為自變量X的某種函數(shù),這個(gè)函數(shù)稱為總體回歸函數(shù)(簡(jiǎn)記為PRF)。表現(xiàn)形式:(1)條件均值表現(xiàn)形式(2)個(gè)別值表現(xiàn)形式(隨機(jī)設(shè)定形式)在實(shí)際經(jīng)濟(jì)問(wèn)題中,一般來(lái)說(shuō),總體是未知的,對(duì)一個(gè)總體現(xiàn)象,要獲得總體的所有觀測(cè)值或獲得總體中Y的條件期望值,都是很難作到的。因此,對(duì)總體回歸函數(shù),一般是根據(jù)經(jīng)濟(jì)理論或?qū)嵺`經(jīng)驗(yàn)去進(jìn)行人為的設(shè)定。

i為觀察值Yi圍繞它的期望值E(Y|Xi)的離差(deviation),是一個(gè)不可觀測(cè)的隨機(jī)變量,又稱為隨機(jī)干擾項(xiàng)(stochasticdisturbance0或隨機(jī)誤差項(xiàng)(stochasticerror)。2、隨機(jī)擾動(dòng)項(xiàng)●未知影響因素的代表●無(wú)法取得數(shù)據(jù)的已知影響因素的代表●

眾多細(xì)小影響因素的綜合代表●

模型的設(shè)定誤差●變量的觀測(cè)誤差●

變量?jī)?nèi)在隨機(jī)性隨機(jī)誤差項(xiàng)主要包括下列因素的影響3、樣本回歸函數(shù)在實(shí)際經(jīng)濟(jì)問(wèn)題研究中,總體回歸函數(shù)中的參數(shù)是未知的,我們必須用樣本數(shù)據(jù)對(duì)總體參數(shù)進(jìn)行估計(jì)。對(duì)于給定的自變量X,可以對(duì)因變量Y的某些樣本進(jìn)行觀測(cè),然后利用樣本提供的信息去估計(jì)總體回歸函數(shù)。對(duì)于給定的自變量X所獲得的因變量Y的樣本觀測(cè)值,可以計(jì)算出其條件均值。Y的樣本條件均值隨X的變動(dòng)而變動(dòng)的軌跡,稱為樣本回歸線。如果把Y的樣本條件均值表示為X的某種函數(shù),該函數(shù)就是樣本回歸函數(shù)(記為SRF)。樣本回歸函數(shù)的函數(shù)形式應(yīng)與總體回歸函數(shù)一致。樣本回歸線只是總體回歸線的近似代表。如果樣本回歸函數(shù)為涉及一個(gè)自變量的線性函數(shù),可表示為:

上式中:為與Xi對(duì)應(yīng)的Y的樣本條件均值。

分別是樣本回歸函數(shù)的參數(shù)。這是樣本回歸函數(shù)(或模型)的條件均值設(shè)定形式。Y的實(shí)際樣本觀測(cè)值Yi與樣本條件均值之間所存在的偏差,稱為殘差,用ei表示,即:或上式是樣本回歸函數(shù)(或模型)的個(gè)別值設(shè)定形式。樣本回歸函數(shù)與總體回歸函數(shù)的關(guān)系——相互聯(lián)系

樣本回歸函數(shù)的函數(shù)形式應(yīng)與設(shè)定的總體回歸函數(shù)的函數(shù)形式一致?!袷菍?duì)總體回歸函數(shù)參數(shù)的估計(jì)?!袷菍?duì)總體條件期望E(Y/Xi)的估計(jì)●殘差e在概念上類似總體回歸函數(shù)中的隨機(jī)誤差u?;貧w分析的目的:用樣本回歸函數(shù)去估計(jì)總體回歸函數(shù)。樣本回歸函數(shù)與總體回歸函數(shù)的關(guān)系

——相互區(qū)別

●總體回歸函數(shù)雖然未知,但它是確定的;樣本回歸線隨抽樣波動(dòng)而變化,可以有許多條。●樣本回歸線還不是總體回歸線,至多只是未知總體回歸線的近似表現(xiàn)。

●總體回歸函數(shù)的參數(shù)雖未知,但是確定的常數(shù);樣本回歸函數(shù)的參數(shù)可估計(jì),但是隨抽樣而變化的隨機(jī)變量?!窨傮w回歸函數(shù)中的

是不可直接觀測(cè)的;而樣本回歸函數(shù)中的e是只要估計(jì)出樣本回歸的參數(shù)就可以計(jì)算的數(shù)值。樣本回歸函數(shù)與總體回歸函數(shù)的關(guān)系

SRF

PRF

A

X

二、一元線性回歸模型的參數(shù)估計(jì)回歸分析的目的就是要用樣本回歸函數(shù)去估計(jì)總體回歸函數(shù)。通過(guò)變量的樣本觀測(cè)值并選擇適當(dāng)方法去近似地估計(jì)出總體的回歸系數(shù),并使參數(shù)估計(jì)值“盡可能地接近”總體參數(shù)真實(shí)值。估計(jì)線性回歸模型中參數(shù)的方法有多種,每一種估計(jì)方法都是以對(duì)模型的某些假定為前提的。u是隨機(jī)變量其分布性質(zhì)不確定,必須作某些假定,在滿足這些假定的基礎(chǔ)上,所做的估計(jì)才具有良好的統(tǒng)計(jì)性質(zhì),對(duì)其才可以進(jìn)行檢驗(yàn)。

假定1

解釋變量X是確定性變量,不是隨機(jī)變量;

假定2

隨機(jī)誤差項(xiàng)

具有零均值、同方差和序列不相關(guān):

E(

i)=0i=1,2,…,nVar(

i)=

2i=1,2,…,nCov(

i,

j)=0i≠ji,j=1,2,…,n

假定3

隨機(jī)誤差項(xiàng)

與解釋變量X之間不相關(guān):

Cov(Xi,

i)=0i=1,2,…,n

假定4

服從零均值、同方差、零協(xié)方差的正態(tài)分布:

i~N(0,

2)i=1,2,…,n

以上假定也稱為線性回歸模型的經(jīng)典假設(shè)或高斯(Gauss)假設(shè),滿足該假定的線性回歸模型,也稱為經(jīng)典線性回歸模型(ClassicalLinearRegressionModel,CLRM)。(一)一元線性回歸的基本假定(二)參數(shù)的普通最小二乘法估計(jì)●在滿足高斯假定情況下,采用最小二乘法對(duì)線性回歸模型中的參數(shù)進(jìn)行估計(jì),這時(shí)的最小二乘法被稱為普通最小二乘法(Ordinaryleastsquares,OLS

)●OLS

方法給出的判斷標(biāo)準(zhǔn)是:使與的二者之差的平方和最小。即:

也就是說(shuō),給定一組樣本觀測(cè)值(Xi,Yi)(i=1,2,…n)要求樣本回歸函數(shù)盡可能好地?cái)M合這組觀測(cè)值。即:

達(dá)到最小。

為了得到合適的,使達(dá)到最小,可用微積分中求極值的方法。即:可得:對(duì)上式整理后得

解得:

令則:

也可以把上式寫(xiě)成離差形式:令則:

由于參數(shù)的估計(jì)結(jié)果是通過(guò)最小二乘法得到的,故稱為普通最小二乘估計(jì)量(ordinaryleastsquaresestimators)?!纠?.2】成都市某制造公司某產(chǎn)品2009年1-10月份的產(chǎn)量與生產(chǎn)成本資料見(jiàn)表6.3。要求根據(jù)表中數(shù)據(jù),建立該公司的產(chǎn)量與生產(chǎn)成本之間的關(guān)系模型。表6.3成都市某制造公司的總生產(chǎn)成本與產(chǎn)量數(shù)據(jù)

月份12345678910生產(chǎn)成本(元)Y525543564615585613638660670.5689產(chǎn)量(箱)X360405427458460485523540558590解:企業(yè)生產(chǎn)成本與產(chǎn)量之間的關(guān)系是,生產(chǎn)成本依賴于產(chǎn)量的變化而變化。因此,可以確定生產(chǎn)成本是結(jié)果變量,產(chǎn)量是原因變量。設(shè)生產(chǎn)成本為Y,產(chǎn)量為X。為了明確生產(chǎn)成本與產(chǎn)量之間的關(guān)系性質(zhì),可以用散點(diǎn)圖來(lái)分析X與Y之間的關(guān)系如下圖。從圖中可以看出,X與Y之間呈現(xiàn)出的是線性關(guān)系。因此,可以把生產(chǎn)成本與產(chǎn)量之間的關(guān)系模型設(shè)定為:

成都市某制造公司成本回歸分析計(jì)算表月份產(chǎn)量(箱)生產(chǎn)成本(元)

xyx2XY

1360525-120.6-85.2510281.214544.42405543-75.6-67.255084.15715.43427564-53.6-46.252479.02873.04458615-22.64.75-107.4510.85460585-20.6-25.25520.2424.464856134.42.7512.119.4752363842.427.751176.61797.8854066059.449.752955.23528.49558670.577.460.254663.45990.810590689109.478.758615.311968.4合計(jì)48066102.5--35679.547372.4均值480.6610.3----解:把有關(guān)數(shù)據(jù)代入公式,得:=35679.5/47372.4=0.7532

=610.25-0.7532*480.6把代入公式,得:=248.26得到估計(jì)的模型為:(三)普通最小二乘估計(jì)量的統(tǒng)計(jì)性質(zhì)在基本假定滿足時(shí)最小二乘估計(jì)是因變量的線性函數(shù)最小二乘估計(jì)是無(wú)偏估計(jì),即

在所有的線性無(wú)偏估計(jì)中,回歸系數(shù)的最小二乘估計(jì)的方差最小。結(jié)論:回歸系數(shù)的最小二乘估計(jì)是最佳線性無(wú)偏估計(jì)證易知故同樣地,容易得出

(2)證明最小方差性其中,ci=ki+di,di為不全為零的常數(shù)則容易證明

普通最小二乘估計(jì)量(ordinaryleastSquaresEstimators)稱為最佳線性無(wú)偏估計(jì)量(bestlinearunbiasedestimator,BLUE)

(四)估計(jì)量和的概率分布

和都是服從正態(tài)分布的隨機(jī)變量,其期望為和方差為

結(jié)論:

的無(wú)偏估計(jì)

為什么要估計(jì)?

確定所估計(jì)參數(shù)的方差需要知道由于不能直接觀測(cè),也是未知的對(duì)的數(shù)值只能通過(guò)樣本信息去估計(jì)。怎樣估計(jì)?可以證明:的無(wú)偏估計(jì)為:

對(duì)一元線性回歸模型,可由下式計(jì)算:

三、一元線性回歸模型的統(tǒng)計(jì)檢驗(yàn)OLS估計(jì)只是用樣本估計(jì)的結(jié)果,是否可靠?是否是抽樣的偶然結(jié)果?還有待統(tǒng)計(jì)檢驗(yàn)。盡管從統(tǒng)計(jì)性質(zhì)上已知,如果有足夠多的重復(fù)抽樣,參數(shù)的估計(jì)值的期望(均值)就等于其總體的參數(shù)真值,但在一次抽樣中,估計(jì)值不一定就等于該真值。那么,在一次抽樣中,參數(shù)的估計(jì)值與真值的差異有多大、是否顯著,這就需要進(jìn)一步進(jìn)行統(tǒng)計(jì)檢驗(yàn)。一元線性回歸模型的檢驗(yàn)主要有擬合優(yōu)度檢驗(yàn)、變量的顯著性檢驗(yàn)。(一)擬合優(yōu)度的度量

樣本回歸直線是對(duì)樣本數(shù)據(jù)的一種擬合,不同估計(jì)方法可擬合出不同的回歸線。樣本回歸直線對(duì)觀測(cè)值的擬合情況是否為最優(yōu),需要進(jìn)行檢驗(yàn)。樣本回歸擬合優(yōu)度的度量建立在對(duì)因變量總離差平方和分解的基礎(chǔ)上

總離差平方和(TSS)回歸平方和(ESS)殘差平方和(RSS)

可決系數(shù)(R2)定義:Y

X

變差分解的圖示

圖6.3總變差的分解

可決系數(shù)的特點(diǎn)

可決系數(shù)是非負(fù)的統(tǒng)計(jì)量;可決系數(shù)取值范圍;當(dāng)R2=1時(shí),意味著完全擬合;R2=0時(shí),意味著被解釋變量與解釋變量之間沒(méi)有線性關(guān)系;當(dāng)0<R2<1時(shí),R2越接近于1,則擬合效果越好。可決系數(shù)是樣本觀測(cè)值的函數(shù),可決系數(shù)是隨抽樣而變動(dòng)的隨機(jī)變量;在一元線性回歸中,可決系數(shù)在數(shù)值上是線性相關(guān)系數(shù)的平方:,即:R2=r2在一元線性回歸模型中,可決系數(shù)R2還可以按以下推導(dǎo)出的公式求得:【例5.3】對(duì)【例5.2】中的回歸模型計(jì)算R2。根據(jù)上式,把有關(guān)數(shù)據(jù)代入,則R2的計(jì)算結(jié)果為:

計(jì)算結(jié)果表明,估計(jì)出的生產(chǎn)成本與產(chǎn)量之間的線性模型,對(duì)樣本觀測(cè)值擬合非常好,或者說(shuō),由產(chǎn)量所構(gòu)成的部分對(duì)生產(chǎn)成本的解釋程度達(dá)到了97.1%。(二)變量的顯著性檢驗(yàn)(t檢驗(yàn))變量的顯著性檢驗(yàn)就是根據(jù)樣本回歸估計(jì)的結(jié)果對(duì)總體回歸函數(shù)回歸系數(shù)的有關(guān)假設(shè)進(jìn)行檢驗(yàn),以檢驗(yàn)總體回歸系數(shù)是否等于某個(gè)特定的數(shù)值。即檢驗(yàn)自變量對(duì)因變量的影響是否顯著。變量的顯著性檢驗(yàn)也就是回歸系數(shù)的顯著性檢驗(yàn)。由于是未知的,而且不一定能獲得大樣本,這時(shí)可用的無(wú)偏估計(jì)代替去估計(jì)參數(shù)的標(biāo)準(zhǔn)誤差:

回歸系數(shù)顯著性的t檢驗(yàn)(續(xù))用估計(jì)的參數(shù)標(biāo)準(zhǔn)誤差對(duì)估計(jì)的參數(shù)作標(biāo)準(zhǔn)化變換,所得的t統(tǒng)計(jì)量將不再服從正態(tài)分布,而是服從t分布:

可利用t分布作有關(guān)的假設(shè)檢驗(yàn)?!玹(n-2)~t(n-2)

回歸系數(shù)顯著性t檢驗(yàn)的方法(1)提出假設(shè)

H0:βi=0H1:βi≠0(i=0,1)(2)計(jì)算統(tǒng)計(jì)量

(i=0,1)(3)給定顯著性水平α,確定臨界值tа/2(n-2)

(4)檢驗(yàn)結(jié)果判斷若

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論