統(tǒng)計學(xué)相關(guān)與回歸分析_第1頁
統(tǒng)計學(xué)相關(guān)與回歸分析_第2頁
統(tǒng)計學(xué)相關(guān)與回歸分析_第3頁
統(tǒng)計學(xué)相關(guān)與回歸分析_第4頁
統(tǒng)計學(xué)相關(guān)與回歸分析_第5頁
已閱讀5頁,還剩73頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

統(tǒng)計學(xué)相關(guān)與回歸分析第1頁,共78頁,2023年,2月20日,星期二第1節(jié)相關(guān)的概念和種類1

變量間的相互關(guān)系

當(dāng)一個或幾個變量取一定的值時,另一個變量有確定值與之對應(yīng),稱這種關(guān)系為確定性的函數(shù)關(guān)系。函數(shù)關(guān)系是一種嚴(yán)格的依存關(guān)系,這種關(guān)系可用y=f(x)的方程表現(xiàn)。各觀測點落在一條線上。(1)函數(shù)關(guān)系(1)某種商品的銷售額(y)與銷售量(x)之間的關(guān)系可表示為y=px(p為單價)(2)圓的面積(S)與半徑之間的關(guān)系可表示為S=R2

(3)企業(yè)的原材料消耗額(y)與產(chǎn)量(x1)、單位產(chǎn)量消耗(x2)、原材料價格(x3)之間的關(guān)系可表示為y=x1x2x3

xy◎◎◎◎◎◎◎◎第2頁,共78頁,2023年,2月20日,星期二3

當(dāng)一個或幾個變量取一定的值時,與之相對應(yīng)的另一個變量的值雖然不確定,但它仍然按某一規(guī)律在一定的范圍內(nèi)變化,變量間的這種關(guān)系,稱為具有不確定性的相關(guān)關(guān)系。相關(guān)關(guān)系是一種不完全確定的統(tǒng)計關(guān)系。(2)相關(guān)關(guān)系(1)變量間關(guān)系不能用函數(shù)關(guān)系

精確表達(dá)(2)一個變量的取值不能由另一

個變量唯一確定(3)當(dāng)變量x取某個值時,變量y

的取值可能有幾個(4)各觀測點分布在直線周圍xy◎◎◎◎◎◎◎◎◎第1節(jié)相關(guān)的概念和種類第3頁,共78頁,2023年,2月20日,星期二4相關(guān)關(guān)系的例子商品的消費量(y)與居民收入(x)之間的關(guān)系商品銷售額(y)與廣告費支出(x)之間的關(guān)系糧食畝產(chǎn)量(y)與施肥量(x1)、降雨量(x2)、

溫度(x3)之間的關(guān)系收入水平(y)與受教育程度(x)之間的關(guān)系人的身高(y)與人的體重(x)之間的關(guān)系第1節(jié)相關(guān)的概念和種類第4頁,共78頁,2023年,2月20日,星期二2相關(guān)的種類(1)按相關(guān)的程度分完全相關(guān)不完全相關(guān)不相關(guān)第1節(jié)相關(guān)的概念和種類第5頁,共78頁,2023年,2月20日,星期二(2)按相關(guān)的形式分線性相關(guān)非線性相關(guān)(3)按影響因素的多少分單相關(guān)復(fù)相關(guān)(1)按相關(guān)的方向分正相關(guān)負(fù)相關(guān)第1節(jié)相關(guān)的概念和種類第6頁,共78頁,2023年,2月20日,星期二3相關(guān)分析的主要內(nèi)容(任務(wù)):(1)確定現(xiàn)象之間有無關(guān)系(3)確定相關(guān)關(guān)系的密切程度(4)相關(guān)系數(shù)的顯著性檢驗(2)確定相關(guān)關(guān)系的類型(5)對達(dá)到一定密切程度的相關(guān)關(guān)系建立適當(dāng)?shù)臄?shù)學(xué)模

型,以確定自變量與因變量之間數(shù)量變化的規(guī)律性;(6)測定數(shù)學(xué)模型的代表性大小并根據(jù)自變量數(shù)值對因

變量的數(shù)量變化做出具有一定概率保證程度的推算

和預(yù)測。廣義的相關(guān)分析還包括回歸分析的內(nèi)容:第1節(jié)相關(guān)的概念和種類第7頁,共78頁,2023年,2月20日,星期二第二節(jié)直線相關(guān)分析一相關(guān)圖表

相關(guān)圖表是相關(guān)分析的重要方法。通過相關(guān)圖表可以直觀地判斷現(xiàn)象之間呈現(xiàn)的相關(guān)的形態(tài)和方向。(一)相關(guān)表簡單相關(guān)表:根據(jù)總體單位的原始資料編制的相關(guān)表分組相關(guān)表單變量分組相關(guān)表雙變量分組相關(guān)表有相關(guān)關(guān)系的兩個變量中,只根據(jù)一個變量進(jìn)行分組,另一個變量不進(jìn)行分組,只計算出次數(shù)和平均數(shù)。有相關(guān)關(guān)系的兩個變量中,自變量和因變量都進(jìn)行分組而編制的相關(guān)表。第8頁,共78頁,2023年,2月20日,星期二商店平方米年銷售額(萬元)11723682164389328166543558545129341622055671133668350469931554610151288115161,06712456758135841,1701435040815405650(二)相關(guān)圖(散點圖)利用直角坐標(biāo)系第一象限,把自變量置于橫軸上,因變量置于縱軸上,再將兩變量相對應(yīng)的變量值用坐標(biāo)點形式描繪出來即可。第二節(jié)直線相關(guān)分析第9頁,共78頁,2023年,2月20日,星期二10按體重分組(千克)人數(shù)(人)每組平均身高(cm)45以下115145~47.52415447.5~509115550~52.512915852.5~558716055~57.53816257.5~602516360~62.5316762.5以上2170合計400-400名女大學(xué)身高與體重相關(guān)表第二節(jié)直線相關(guān)分析第10頁,共78頁,2023年,2月20日,星期二雙變量分組相關(guān)表年維修費用(元)機床使用年限(年)合計23456891000—110011900—100011800—900112700—800123600—700112500—600112400—50011合計212231112第二節(jié)直線相關(guān)分析第11頁,共78頁,2023年,2月20日,星期二二相關(guān)系數(shù)(correlationcoefficient)相關(guān)系數(shù)是指在直線相關(guān)條件下,說明兩個現(xiàn)象之間相關(guān)關(guān)系密切程度的統(tǒng)計分析指標(biāo)。(一)相關(guān)系數(shù)的計算方法:若相關(guān)系數(shù)是根據(jù)總體全部數(shù)據(jù)計算的,稱為總體相關(guān)系數(shù),記為??傮w相關(guān)系數(shù)反映總體兩個變量X和Y的線性相關(guān)程度。

特點:對于特定的總體來說,X和Y的數(shù)值是既定的,總體相關(guān)系數(shù)是客觀存在的特定數(shù)值。

(9.1)協(xié)方差:Covariance;方差:Variance第二節(jié)直線相關(guān)分析第12頁,共78頁,2023年,2月20日,星期二ⅠⅡⅢⅣ協(xié)方差的意義xy如果散點主要分布在第Ⅰ和第Ⅲ象限,則可以擬合一條從左到右向上的直線,說明變量x與y存在正相關(guān)。如果散點主要分布在第Ⅱ和第Ⅳ象限,則可以擬合一條從左到右向下的直線,說明變量x與y存在負(fù)相關(guān)。第二節(jié)直線相關(guān)分析第13頁,共78頁,2023年,2月20日,星期二若相關(guān)系數(shù)是根據(jù)樣本數(shù)據(jù)計算的,則稱為樣本相關(guān)系數(shù),記為r

特點:樣本相關(guān)系數(shù)是根據(jù)從總體中抽取的隨機樣本的觀測值計算出來的,是對總體相關(guān)系數(shù)的估計,它是個隨機變量。

容易證明,樣本相關(guān)系數(shù)是總體相關(guān)系數(shù)的一致估計量。該公式是K.皮爾遜提出來的,故稱皮爾遜相關(guān)系數(shù)。(9.2)(9.3)第二節(jié)直線相關(guān)分析第14頁,共78頁,2023年,2月20日,星期二如果定義:相關(guān)系數(shù)可以表示為:(9.4)第二節(jié)直線相關(guān)分析第15頁,共78頁,2023年,2月20日,星期二

88036.4∑6286801101151321351601.22.03.13.85.06.17.28.012345678生產(chǎn)費用

月產(chǎn)量序號1.444.009.6114.4425.0017.2151.8464.00207.54384473966400121001322517424182252560010421474.4172.0248.0418.0575.0805.2972.01280.04544.6【例9.1】相關(guān)系數(shù)的計算分析第二節(jié)直線相關(guān)分析第16頁,共78頁,2023年,2月20日,星期二根據(jù)計算結(jié)果可知:則相關(guān)系數(shù)為:說明產(chǎn)量和生產(chǎn)費用之間存在高度正相關(guān)。第二節(jié)直線相關(guān)分析第17頁,共78頁,2023年,2月20日,星期二年份銷售額y廣告費x年份銷售額廣告費1234567393.8419.14460.86544.11668.29737.73859.9724926728932940645151389101112131068.81169.21250.71429.51725.92099.56436907138039471148【例9.2】在研究銷售額與廣告費的問題中,把銷售額記為y,把廣告費記為x。根據(jù)收集到的1~13年的樣本數(shù)據(jù)(xi,yi),i=1,2,…,13,計算相關(guān)系數(shù)。銷售額與廣告費數(shù)據(jù)用Excel計算相關(guān)數(shù)據(jù)第二節(jié)直線相關(guān)分析第18頁,共78頁,2023年,2月20日,星期二解:根據(jù)樣本相關(guān)系數(shù)的計算公式有用PEARSON函數(shù)計算銷售額與廣告費之間的相關(guān)系數(shù)為0.998940923第二節(jié)直線相關(guān)分析第19頁,共78頁,2023年,2月20日,星期二(二)相關(guān)系數(shù)的性質(zhì)(2)相關(guān)系數(shù)的取值范圍在絕對值的之間。其值大小反映兩變量之間相關(guān)的密切程度。(1)相關(guān)系數(shù)有正負(fù)號,分別表示正相關(guān)和負(fù)相關(guān)。(3)相關(guān)系數(shù)表明兩變量完全相關(guān);表明兩變量完全不相關(guān)。(4)當(dāng)計算相關(guān)系數(shù)的原始數(shù)據(jù)較多(如50項以上)時,認(rèn)為相關(guān)系數(shù)在0.3以下為無相關(guān)或微弱相關(guān);0.3以上為有相關(guān);0.3-0.5為低度相關(guān);0.5-0.8為顯著(中度)相關(guān);0.8以上為高度相關(guān)。第二節(jié)直線相關(guān)分析第20頁,共78頁,2023年,2月20日,星期二-1.0+1.00-0.5+0.5完全負(fù)相關(guān)無線性相關(guān)完全正相關(guān)負(fù)相關(guān)程度增加r正相關(guān)程度增加|r|=0不存在線性關(guān)系;|r|=1完全線性相關(guān)0<|r|<1不同程度線性相關(guān)(0~0.3微弱;0.3~0.5低度;0.5~0.8顯著(中度);0.8~1高度)第二節(jié)直線相關(guān)分析第21頁,共78頁,2023年,2月20日,星期二(三)相關(guān)系數(shù)的缺點

相關(guān)系數(shù)接近于1的程度與數(shù)據(jù)組數(shù)n

有關(guān),這樣容易給人一種假象。因為,當(dāng)n較小時,相關(guān)系數(shù)的絕對值容易接近于1,當(dāng)n較大時,相關(guān)系數(shù)的絕對值容易偏小。特別是當(dāng)n=2時,相關(guān)系數(shù)的絕對值總為1。因此在樣本容量較小時,如果我們僅憑相關(guān)系數(shù)較大就說變量x與y之間有密切的關(guān)系,則顯得匆忙。第二節(jié)直線相關(guān)分析第22頁,共78頁,2023年,2月20日,星期二(四)用相關(guān)系數(shù)分析相關(guān)關(guān)系時應(yīng)注意的問題1、x和y都是相互對稱的隨機變量,rxy=ryx。2、相關(guān)系數(shù)只反映變量間的線性相關(guān)程度,不能說明非線性相關(guān)關(guān)系。3、相關(guān)系數(shù)只能反映變量間的線性相關(guān)程度,并不能確定變量的因果關(guān)系,也不能說明相關(guān)關(guān)系具體接近于哪條直線。第二節(jié)直線相關(guān)分析第23頁,共78頁,2023年,2月20日,星期二24三相關(guān)系數(shù)的顯著性檢驗(一)r

的抽樣分布(1)r的抽樣分布隨總體相關(guān)系數(shù)和樣本容量的大小而變化。當(dāng)樣本數(shù)據(jù)來自正態(tài)總體時,隨著n的增大,r

的抽樣分布趨于正態(tài)分布,尤其是在總體相關(guān)系數(shù)很小或接近0時,趨于正態(tài)分布的趨勢非常明顯。而當(dāng)遠(yuǎn)離0時,除非n非常大,否則r的抽樣分布呈現(xiàn)一定的偏態(tài)。(2)當(dāng)為較大的正值時,r呈現(xiàn)左偏分布;當(dāng)為較小的負(fù)值時,r呈現(xiàn)右偏分布。只有當(dāng)接近于0,而樣本容量n很大時,才能認(rèn)為r是接近于正態(tài)分布的隨機變量。第二節(jié)直線相關(guān)分析第24頁,共78頁,2023年,2月20日,星期二(二)檢驗的步驟檢驗兩個變量之間是否存在線性相關(guān)關(guān)系等價于對回歸系數(shù)b的檢驗采用R.A.Fisher提出的t檢驗檢驗的步驟為:2.計算檢驗的統(tǒng)計量:3.確定顯著性水平,根據(jù)顯著性水平,查t分布表得自由度為(n-2)的臨界值t

。1.提出假設(shè):H0:;H1:0(9.5)4.若t>t,表明相關(guān)系數(shù)在統(tǒng)計上是顯著的,應(yīng)拒絕H0的原假設(shè),即認(rèn)為兩變量之間存在線性相關(guān)。若t<t,不能拒絕H0。第二節(jié)直線相關(guān)分析第25頁,共78頁,2023年,2月20日,星期二(1)提出假設(shè):H0:;H1:0(2)計算檢驗的統(tǒng)計量:(3)根據(jù)顯著性水平=0.05,查t分布表得(P.376):

t(n-2)=2.201【例9.3】對前例計算的相關(guān)系數(shù)進(jìn)行顯著性檢驗(0.05)(4)由于t=72.006606>t(13-2)=2.201,拒絕H0,銷售額與廣告費之間的相關(guān)關(guān)系顯著。第二節(jié)直線相關(guān)分析第26頁,共78頁,2023年,2月20日,星期二27第三節(jié)直線回歸分析一回歸分析(Regression)的概念高爾頓遺傳學(xué)的回歸概念英國人類學(xué)家F.Galton首次在《自然遺傳》一書中,提出并闡明了“相關(guān)”和“相關(guān)系數(shù)”兩個概念,為相關(guān)論奠定了基礎(chǔ)。其后,他和英國統(tǒng)計學(xué)家KarlPearson對上千個家庭的身高、臂長、拃長(伸開大拇指與中指兩端的最大長度)做了測量,發(fā)現(xiàn):也即高個子父代的子代在成年之后的身高平均來說不是更高,而是稍矮于其父代水平,而矮個子父代的子代的平均身高不是更矮,而是稍高于其父代水平。Galton將這種趨向于種族穩(wěn)定的現(xiàn)象稱之“回歸”。兒子身高(Y,英寸)與父親身高(X,英寸)存在線性關(guān)系:第27頁,共78頁,2023年,2月20日,星期二回歸分析是對具有相關(guān)關(guān)系的兩個或兩個以上變量之間的數(shù)量變化的一般關(guān)系進(jìn)行測定,確立一個相應(yīng)的數(shù)學(xué)表達(dá)式(數(shù)學(xué)模型),近似地描述變量間的平均變化關(guān)系,以便從一個已知量來推測另一個未知量,為估算預(yù)測提供一個重要的方法?;貧w的目的(實質(zhì)):由固定的自變量(independentvariable)去估計因變量(dependentvariable)的平均值。目前,“回歸”已成為表示變量之間某種數(shù)量依存關(guān)系的統(tǒng)計學(xué)術(shù)語,并且衍生出“回歸方程”“回歸系數(shù)”等統(tǒng)計學(xué)概念。第三節(jié)直線回歸分析第28頁,共78頁,2023年,2月20日,星期二二回歸的種類(一)按自變量的個數(shù)分一元回歸多元回歸(二)按回歸線的形態(tài)分線性回歸非線性回歸第三節(jié)直線回歸分析第29頁,共78頁,2023年,2月20日,星期二回歸模型的類型一個自變量兩個及兩個以上自變量回歸模型多元回歸一元回歸線性回歸非線性回歸線性回歸非線性回歸第三節(jié)直線回歸分析第30頁,共78頁,2023年,2月20日,星期二31三簡單線性回歸方程(一)簡單線性方程式的一般形式

當(dāng)兩變量的增長比率為常數(shù)時,它們之間就呈現(xiàn)為一種簡單線性關(guān)系。(二)簡單線性回歸方程進(jìn)行回歸分析的前提

所分析的兩個變量之間必須存在相關(guān)關(guān)系,且相關(guān)程度在顯著相關(guān)以上。(三)對兩變量進(jìn)行簡單線性回歸分析的任務(wù)

設(shè)法在分散的、具有線性關(guān)系的相關(guān)點之間配合一條最優(yōu)的直線,這條直線就是估計回歸線,它表明兩變量之間具體的變動關(guān)系。第三節(jié)直線回歸分析第31頁,共78頁,2023年,2月20日,星期二32配合估計回歸線的方程稱為回歸方程。方程式為:回歸系數(shù)b的經(jīng)濟涵義:當(dāng)自變量變動一個單位時,因變量的平均變動值。(四)配合直線回歸方程的方法(9.6)第三節(jié)直線回歸分析第32頁,共78頁,2023年,2月20日,星期二33用最小平方法配合回歸直線的基本思想是:在所有的相關(guān)點中,通過數(shù)學(xué)方法配合一條較為理想的直線,這條直線必須滿足兩點:2、原數(shù)列與回歸線的離差平方和為最小值。1、原數(shù)列與回歸線的離差之和為零。配合直線回歸方程的過程就是求解方程系數(shù)a、b的過程,求解a、b的方法一般采用最小平方法。(9.7)(9.8)即即第三節(jié)直線回歸分析第33頁,共78頁,2023年,2月20日,星期二通過求a、b的一階偏導(dǎo)可得到求解a、b的聯(lián)立方程:解聯(lián)立方程得到:(9.9)(9.10)第三節(jié)直線回歸分析第34頁,共78頁,2023年,2月20日,星期二4544.674.4172.0248.0418.0575.0805.2972.01280.01042143844739664001210013225174241822525600207.541.444.009.6114.4425.0037.2151.8464.00

88036.4∑6286801101151321351601.22.03.13.85.06.17.28.012345678生產(chǎn)費用

月產(chǎn)量序號【例9.4】根據(jù)例9.1資料配合生產(chǎn)費用依產(chǎn)量變化的回歸方程:第三節(jié)直線回歸分析第35頁,共78頁,2023年,2月20日,星期二則回歸方程為:

回歸系數(shù)b的涵義:月產(chǎn)量每增加1000噸,生產(chǎn)費用平均增加12.9萬元。計算得到:第三節(jié)直線回歸分析第36頁,共78頁,2023年,2月20日,星期二

【例9.5】根據(jù)例9.2中的數(shù)據(jù),配合銷售額與廣告費的回歸方程

根據(jù)a和b的求解公式得所以銷售額與廣告費的回歸方程為yc=54.0049+0.5258964x運用INTERCEPT函數(shù)計算截距運用SLOPE函數(shù)計算斜率第三節(jié)直線回歸分析第37頁,共78頁,2023年,2月20日,星期二運用INTERCEPT函數(shù)計算截距運用SLOPE函數(shù)計算斜率第三節(jié)直線回歸分析第38頁,共78頁,2023年,2月20日,星期二(五)用Excel進(jìn)行回歸分析第1步:選擇“工具”下拉菜單第2步:選擇“數(shù)據(jù)分析”選項第3步:在分析工具中選擇“回歸”,然后選擇“確定”第4步:當(dāng)對話框出現(xiàn)時在“Y值輸入?yún)^(qū)域”設(shè)置框內(nèi)鍵入Y的數(shù)據(jù)區(qū)域在“X值輸入?yún)^(qū)域”設(shè)置框內(nèi)鍵入X的數(shù)據(jù)區(qū)域在“置信度”選項中給出所需的數(shù)值在“輸出選項”中選擇輸出區(qū)域在“殘差”分析選項中選擇所需的選項

用Excel進(jìn)行回歸分析第三節(jié)直線回歸分析第39頁,共78頁,2023年,2月20日,星期二SUMMARYOUTPUT回歸統(tǒng)計MultipleR0.99894092RSquare0.997882968AdjustedRSquare0.997690511標(biāo)準(zhǔn)誤差13.4986044觀測值13

Coefficients標(biāo)準(zhǔn)誤差tStatP-valueLower95%Upper95%Intercept54.00498.12098856.650043.61096E-0536.130771.8791廣告費X0.5258960.007303472.00664.6055E-160.50980.54197相關(guān)系數(shù)的顯著性檢驗-t檢驗Excel的輸出結(jié)果第三節(jié)直線回歸分析系數(shù)

第40頁,共78頁,2023年,2月20日,星期二Rsquare稱為方程的確定系數(shù),0~1之間,越接近1,表明方程的變量對y的解釋能力越強。對于回歸方程來說,總結(jié)了以下幾個意義:1.Rsquare可以作為選擇不同模型的標(biāo)準(zhǔn)。如果在擬合數(shù)據(jù)之前,不能確定數(shù)據(jù)到底是什么模型,那么可以對變量的不同數(shù)學(xué)形式進(jìn)行擬合,然后看Rsquare的大小,Rsquare大的模型,說明這個模型對數(shù)據(jù)擬合的較好。2.在數(shù)據(jù)的關(guān)系存在非線性可能情況下:(a)不一定Rsquare越大擬合越好,因為Rsquare只是回歸平方和占總平方和的比例。比如,在那四幅著名的圖里面,Rsquare都等于66%,并且都是線性擬合,但是他們的數(shù)據(jù)點完全不同,有些是因為特異案例的存在,致使數(shù)據(jù)擬合出來是線性的,而事實上并非如此。所以,應(yīng)該在擬合之前觀察散點圖,然后去掉特異值.第41頁,共78頁,2023年,2月20日,星期二(b)如果一個模型的Rsquare很小,不一定代表數(shù)據(jù)之間沒有關(guān)系,而很有可能是選擇的模型不對,因為數(shù)據(jù)之間也許的其他的函數(shù)關(guān)系,比如對數(shù)關(guān)系或者指數(shù)關(guān)系。這意味著需要對數(shù)據(jù)作進(jìn)一步的擬合。(當(dāng)然,最好的方法應(yīng)該是在數(shù)據(jù)擬合之前先觀察散點圖)。如果是線性模型,那么Rsquare才是方程擬合優(yōu)度的度量,Rsquare越大,回歸方程擬合數(shù)據(jù)越好,線性關(guān)系越強。第42頁,共78頁,2023年,2月20日,星期二3.當(dāng)自變量個數(shù)增加時,盡管有的自變量與y的線性關(guān)系不顯著,Rsquare也會增大。Rsquare受自變量個數(shù)與樣本規(guī)模影響。對于這點,采用AdjustedRsquare進(jìn)行調(diào)整。4.當(dāng)想確定方程中的每一個自變量對y的邊際解釋能力時,應(yīng)該確定每個自變量的偏確定系數(shù)(partialcoefficientofdetermination)。注意,偏確定系數(shù)反映的是新加入回歸的變量所解釋的百分比,而這百分比是以前一步回歸所未能解釋的部分為整體,而不是以y的總變化為整體。也就是說,x1與x2共同解釋的y的貢獻(xiàn),已包含在x1解釋的y的貢獻(xiàn)里面。偏確定系數(shù)的意義是,用于判斷自變量的重要性。但是,在遇到虛擬變量時,計算這個的意義不大。第43頁,共78頁,2023年,2月20日,星期二顯著性水平

顯著性水平是估計總體參數(shù)落在某一區(qū)間內(nèi),可能犯錯誤的概率為顯著性水平,用α表示。顯著性是對差異的程度而言的,程度不同說明引起變動的原因也有不同:一類是條件差異,一類是隨機差異。它是在進(jìn)行假設(shè)檢驗時事先確定一個可允許的作為判斷界限的小概率標(biāo)準(zhǔn)。估計總體參數(shù)落在某一區(qū)間內(nèi),可能犯錯誤的概率為顯著性水平,用α表示,

1-α

為置信度或置信水平,其表明了區(qū)間估計的可靠性。第44頁,共78頁,2023年,2月20日,星期二第45頁,共78頁,2023年,2月20日,星期二Excel輸出的部分回歸結(jié)果第三節(jié)直線回歸分析第46頁,共78頁,2023年,2月20日,星期二6708290100114140144耐用消費品銷售額(萬元)2820340380450470560620人均年收入(元)合計199019911992199319941995時間要求:分析兩變量相關(guān)密切程度,若為顯著相關(guān)以上,則對兩變量進(jìn)行回歸分析。課堂練習(xí):某地區(qū)人均年收入與耐用消費品銷售額資料如下:第三節(jié)直線回歸分析第47頁,共78頁,2023年,2月20日,星期二答案:相關(guān)系數(shù)r=0.98

b=0.24a=-1.13

yc=-1.13+0.24x回歸系數(shù)b的涵義:人均年收入每增加一元,耐用消費品銷售額平均增加0.24萬元。第三節(jié)直線回歸分析第48頁,共78頁,2023年,2月20日,星期二四回歸系數(shù)與相關(guān)系數(shù)的關(guān)系因為:所以:即:(9.11)(9.12)r和b都能判斷現(xiàn)象之間相關(guān)方向,而且是一致的,即當(dāng)r(b)>0正相關(guān),r(b)<0時,負(fù)相關(guān);但r還可以判斷相關(guān)程度,b不能判斷相關(guān)程度。第三節(jié)直線回歸分析第49頁,共78頁,2023年,2月20日,星期二五回歸分析與相關(guān)分析的關(guān)系1、回歸分析必須區(qū)分自變量和因變量,而相關(guān)分析不必區(qū)分。2、回歸分析的兩個變量一個是自變量,一個是因變量,通過給定自變量的值來推算因變量的可能值;而相關(guān)分析的兩個變量都是隨機變量。3、回歸分析中對于因果關(guān)系不甚明確的兩個變量,可以建立兩個回歸方程;而相關(guān)分析只能計算出一個相關(guān)系數(shù)。4、一種回歸方程只能做一種推算,即只能給出自變量的值來推算因變量的值,不能逆推。1、相關(guān)分析是回歸分析的基礎(chǔ)和前提;(一)區(qū)別(二)聯(lián)系2、相關(guān)分析需要回歸分析來表明現(xiàn)象數(shù)量關(guān)系的具體形式,回歸分析是相關(guān)性分析的繼續(xù)和拓展。第三節(jié)直線回歸分析第50頁,共78頁,2023年,2月20日,星期二第四節(jié)估計標(biāo)準(zhǔn)誤差一估計標(biāo)準(zhǔn)誤的涵義

根據(jù)直線回歸方程,在知道了自變量的數(shù)值情況下可以推算出因變量的數(shù)值,但是,推算出來的因變量的數(shù)值不是精確的值,它與實際值之間有差異。

估計標(biāo)準(zhǔn)誤差就是用來說明回歸方程推算結(jié)果的準(zhǔn)確程度的統(tǒng)計分析指標(biāo),或者說是反映回歸直線代表性大小的統(tǒng)計分析指標(biāo)。第51頁,共78頁,2023年,2月20日,星期二第四節(jié)估計標(biāo)準(zhǔn)誤差二估計標(biāo)準(zhǔn)誤的計算公式該式稱為簡化公式。(一)根據(jù)因變量實際值和估計值的離差計算(二)根據(jù)a、b兩個參數(shù)值計算統(tǒng)計上定義剩余離差平方和除以自由度n-2所得商的平方根為估計標(biāo)準(zhǔn)誤。(9.13)(9.14)第52頁,共78頁,2023年,2月20日,星期二53三判定系數(shù)r2

–擬合優(yōu)度的度量第四節(jié)估計標(biāo)準(zhǔn)誤差

回歸直線在一定程度上描述了自變量與因變量之間的關(guān)系,利用這一方程,可根據(jù)自變量的取值來估計或預(yù)測因變量的取值。但估計或預(yù)測的精度如何,取決于回歸直線對觀察數(shù)據(jù)的擬合優(yōu)度。

我們把樣本觀察值數(shù)據(jù)聚集在樣本回歸直線周圍的緊密程度稱為回歸直線對數(shù)據(jù)的擬合優(yōu)度,通常用判定系數(shù)度量。

各觀察值數(shù)據(jù)越是緊密地聚集在這條回歸直線周圍,說明直線對觀察數(shù)據(jù)的擬合優(yōu)度越好,反之則越差。如果各觀察值數(shù)據(jù)的散點都落在這條回歸直線上,那么這條直線就是對數(shù)據(jù)的完全擬合,此時用來估計是沒有誤差的。第53頁,共78頁,2023年,2月20日,星期二

另一個是隨機因素的影響,即除自變量

x

對y

的影響外,其他隨機因素所引起的y的變動,這種變動可以由表示,稱之為剩余變差。三者關(guān)系是:第四節(jié)估計標(biāo)準(zhǔn)誤差

根據(jù)方差分析的一般原理:因變量

y的實際觀察值yi總是圍繞其平均數(shù)而上下波動,所以y的變動可以由來反映,稱之為總變差。引起總變差的原因有兩方面:

一個是由于自變量x

的取值不同,使得與x

有直線相關(guān)關(guān)系的

y

值不同。在回歸方程yc=a+bx中,yc為

y

的估計值,x

通過方程對

y產(chǎn)生影響,其影響程度可由來表示,稱其為回歸變差。+=(9.15)(一)總平方和的分解判定系數(shù)建立在對總離差平方和進(jìn)行分解的基礎(chǔ)上。第54頁,共78頁,2023年,2月20日,星期二55總變差(離差平方和)的分解第四節(jié)估計標(biāo)準(zhǔn)誤差離差分解圖xyy{}}ei=(x1,y1)(x2,y2)(xn,yn)第55頁,共78頁,2023年,2月20日,星期二兩端平方后求和有從圖上看有SST=SSR+SSE

總變差平方和(SST){回歸平方和(SSR){殘差平方和(SSE){第四節(jié)估計標(biāo)準(zhǔn)誤差即(ei稱為殘差)(9.16)(9.17)第56頁,共78頁,2023年,2月20日,星期二(二)三個平方和的意義第四節(jié)估計標(biāo)準(zhǔn)誤差總平方和(SST-TotalSquareSum)反映因變量的n個觀察值與其均值的總離差。回歸平方和(SSR-RegressionSquareSum)反映自變量x的變化對因變量y取值變化的影響,或者說,是由于x與y之間的線性關(guān)系引起的y的取值變化,也稱為可解釋的平方和。殘差平方和(SSE-ErrorSquareSum)反映除x以外的其他因素對y取值的影響,也稱為不可解釋的平方和或剩余平方和。第57頁,共78頁,2023年,2月20日,星期二58TSS:TotalSquareSum/總離差平方和RSS:RegressionSquareSum/回歸平方和ResidualSquareSum/殘差平方和ESS:ErrorSquareSum/誤差平方和(殘差平方和)ExplainSquareSum/解釋平方和(回歸平方和)注意英文縮寫的含義第四節(jié)估計標(biāo)準(zhǔn)誤差第58頁,共78頁,2023年,2月20日,星期二59【例9.6】根據(jù)例9.2計算銷售額與廣告費回歸的判定系數(shù),并解釋其意義。判定系數(shù)的實際意義是:在銷售額取值的變差中,有99.788%可以由銷售額與廣告費之間的線性關(guān)系來解釋,或者說,在銷售額取值的變動中,有99.788%是由廣告費所決定的??梢婁N售額與廣告費之間有較強的線性關(guān)系。(三)判定系數(shù)r2的計算第四節(jié)估計標(biāo)準(zhǔn)誤差第59頁,共78頁,2023年,2月20日,星期二Excel的輸出結(jié)果SUMMARYOUTPUT回歸統(tǒng)計MultipleR0.99894092RSquare0.997882968AdjustedRSquare0.997690511標(biāo)準(zhǔn)誤差13.4986044觀測值13相關(guān)系數(shù)判定系數(shù)調(diào)整后的相關(guān)系數(shù)在多元回歸時使用,有統(tǒng)計學(xué)家認(rèn)為,在多元回歸模型中,增加預(yù)測變量,必然會使RSquare增大,故必須加以調(diào)整。估計標(biāo)準(zhǔn)誤Sy第四節(jié)估計標(biāo)準(zhǔn)誤差第60頁,共78頁,2023年,2月20日,星期二(四)判定系數(shù)r2的性質(zhì)回歸平方和占總離差平方和的比例。反映回歸直線的擬合程度。r2越大,擬合優(yōu)度越大,自變量對因變量的解釋程度越高,自變量引起的變動占總變動的百分比高。觀察點在回歸直線附近越密集。取值范圍在[0,1]之間。r21,說明回歸方程擬合的越好;r20,說明回歸方程擬合的越差。判定系數(shù)等于相關(guān)系數(shù)的平方,即r2=(r)2第四節(jié)估計標(biāo)準(zhǔn)誤差(9.18)第61頁,共78頁,2023年,2月20日,星期二第四節(jié)估計標(biāo)準(zhǔn)誤差+=由此可以推導(dǎo)出:因為:四相關(guān)系數(shù)與估計標(biāo)準(zhǔn)誤差的關(guān)系第62頁,共78頁,2023年,2月20日,星期二第四節(jié)估計標(biāo)準(zhǔn)誤差因為:所以:第63頁,共78頁,2023年,2月20日,星期二第四節(jié)估計標(biāo)準(zhǔn)誤差從這個式子可以看出,如果兩個變量之間的直線相關(guān)關(guān)系十分密切,相關(guān)系數(shù)的絕對值就接近于1,這時估計標(biāo)準(zhǔn)誤差的數(shù)值越接近于0,說明回歸方程的代表性越高。所以相關(guān)系數(shù)與估計標(biāo)準(zhǔn)誤差的關(guān)系為:(9.19)第64頁,共78頁,2023年,2月20日,星期二第四節(jié)估計標(biāo)準(zhǔn)誤差或者:從這個式子可以看出,如果Syx越小,殘差平方和占總離差平方和的比例也就越小,從而相關(guān)系數(shù)r的值就會越大,即一個代表性很好的方程,其變量之間的相關(guān)關(guān)系也一定很高。因為所以(9.20)由式(9.19)有:在簡單線性回歸中,因為判定系數(shù)等于相關(guān)系數(shù)的平方,即r2=(r)2第65頁,共78頁,2023年,2月20日,星期二一線性關(guān)系的檢驗1、提出假設(shè)2、計算檢驗統(tǒng)計量F3、確定顯著性水平,并根據(jù)分子自由度1和分母自由度n-2找出臨界值F

H0:b=0線性關(guān)系不顯著4、作出決策:若F>F

拒絕H0;若F<F

不能拒絕H0第五節(jié)回歸方程的檢驗與預(yù)測第66頁,共78頁,2023年,2月20日,星期二SST、SSR、SSE的自由度模型中樣本值可以自由變動的個數(shù),稱為自由度。自由度=樣本個數(shù)-樣本數(shù)據(jù)受約束條件(方程)的個數(shù)。第五節(jié)回歸方程的檢驗與預(yù)測第67頁,共78頁,2023年,2月20日,星期二1、提出假設(shè)H0:b=0,銷售額和廣告費之間的線性關(guān)系不顯著2、計算檢驗統(tǒng)計量F3、確定顯著性水平=0.05,并根據(jù)分子自由度1和分母自由度13-2找出臨界值F

=0.05=4.75;p.3804、作出決策:因為F>F拒絕H0,所以銷售額和廣告費之間線性關(guān)系顯著?!纠?.7】根據(jù)例9.2資料對建立的回歸方程進(jìn)行檢驗第五節(jié)回歸方程的檢驗與預(yù)測第68頁,共78頁,2023年,2月20日,星期二Excel輸出的方差分析表(續(xù)前例)平方和均方=平方和/自由度方差分析

dfSSMSFSignificanceF回歸分析1944762.59944762.595184.954474.6055E-16殘差112004.3355182.2123

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論