管理統(tǒng)計學(xué)(第2版)課件:回歸分析_第1頁
管理統(tǒng)計學(xué)(第2版)課件:回歸分析_第2頁
管理統(tǒng)計學(xué)(第2版)課件:回歸分析_第3頁
管理統(tǒng)計學(xué)(第2版)課件:回歸分析_第4頁
管理統(tǒng)計學(xué)(第2版)課件:回歸分析_第5頁
已閱讀5頁,還剩48頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

管理統(tǒng)計學(xué)

回歸分析內(nèi)容與學(xué)習(xí)目標(biāo)1.了解相關(guān)與回歸的基本概念及其應(yīng)用領(lǐng)域

2.掌握一元、多元回歸模型的構(gòu)建、檢驗

3.掌握利用SPSS軟件進行回歸分析的程序、步驟和結(jié)果報告分析

內(nèi)容學(xué)習(xí)目標(biāo)相關(guān)分析函數(shù)關(guān)系與相關(guān)關(guān)系1、函數(shù)關(guān)系:當(dāng)一個或幾個變量取一定的值時,另一個變量有確定值與之相對應(yīng),我們稱這種確定性的關(guān)系為函數(shù)關(guān)系。2、相關(guān)關(guān)系:當(dāng)一個或幾個相互聯(lián)系的變量取一定數(shù)值時,與之相對應(yīng)的另一變量的值雖然不確定,但它仍按某種規(guī)律在一定范圍內(nèi)變化,變量間的這種具有不確定性的相互關(guān)系,稱為相關(guān)關(guān)系。y

x

一個變量的取值不能由另一個變量唯一確定當(dāng)變量

x取某個值時,變量y的取值對應(yīng)著一個分布各觀測點分布在直線周圍

相關(guān)關(guān)系(幾個例子)子女的身高與其父母身高的關(guān)系從遺傳學(xué)角度看,父母身高較高時,其子女的身高一般也比較高。但實際情況并不完全是這樣,因為子女的身高并不完全是由父母身高一個因素所決定的,還有其他許多因素的影響一個人的收入水平同他受教育程度的關(guān)系收入水平相同的人,他們受教育的程度也不可能不同,而受教育程度相同的人,他們的收入水平也往往不同。因為收入水平雖然與受教育程度有關(guān)系,但它并不是決定收入的惟一因素,還有職業(yè)、工作年限等諸多因素的影響農(nóng)作物的單位面積產(chǎn)量與降雨量之間的關(guān)系在一定條件下,降雨量越多,單位面積產(chǎn)量就越高。但產(chǎn)量并不是由降雨量一個因素決定的,還有施肥量、溫度、管理水平等其他許多因素的影響2008年8月相關(guān)關(guān)系的種類

7.1.2相關(guān)關(guān)系的種類1、按相關(guān)程度劃分(1)、完全相關(guān):當(dāng)一種現(xiàn)象的數(shù)量變化完全由另一種現(xiàn)象的數(shù)量變化所確定時,稱這兩種現(xiàn)象間的關(guān)系為完全相關(guān)。(2)、不完全相關(guān):當(dāng)兩個現(xiàn)象之間的關(guān)系介于完全相關(guān)和不相關(guān)之間時,稱其為不完全相關(guān)。(3)、不相關(guān):當(dāng)兩個現(xiàn)象彼此互不影響,其數(shù)量變化各自獨立時,稱為不相關(guān)。2、按變量多少劃分(1)、單相關(guān):我們把兩個變量間的相關(guān),即一個變量對另一變量的相關(guān)關(guān)系,稱為單相關(guān),單相關(guān)關(guān)系只有一個自變量。(2)、復(fù)相關(guān):當(dāng)所研究的是一個變量對兩個或兩個以上其他變量的相關(guān)關(guān)系時,稱為復(fù)相關(guān)。(3)、偏相關(guān):在某一現(xiàn)象與多種現(xiàn)象相關(guān)的場合,當(dāng)假定其他變量不變時,其中兩個變量的相關(guān)關(guān)系稱為偏相關(guān)。

相關(guān)關(guān)系的種類3、按相關(guān)方向劃分(1)正相關(guān):當(dāng)兩個變量的變化同方向時,這種同方向變動的關(guān)系稱為正相關(guān)。(2)負相關(guān):當(dāng)兩個變量的變化反方向時,這種反方向變動的關(guān)系稱為負相關(guān)。4、按相關(guān)形式劃分(1)線性相關(guān)(2)非線性相關(guān)

完全負線性相關(guān)完全正線性相關(guān)

相關(guān)程度的衡量:散點圖

不相關(guān)

負線性相關(guān)

正線性相關(guān)

非線性相關(guān)相關(guān)程度的衡量:相關(guān)系數(shù)相關(guān)系數(shù):對兩個變量之間線性相關(guān)程度進行分析的主要工具是單相關(guān)系數(shù)。總體相關(guān)系數(shù)的定義式為:樣本相關(guān)系數(shù):相關(guān)系數(shù)的特點2、樣本相關(guān)系數(shù)r有以下特點:(1).r的取值介于-1與1之間。(2).在大多數(shù)情況下,0﹤﹤1,即X與Y的樣本觀測值之間存在著一定的線性關(guān)系,當(dāng)r﹥0時,X與Y為正相關(guān),當(dāng)r﹤0時,X與Y為負相關(guān)。(3).r=1時表明X與Y完全線性相關(guān),此時X與Y的關(guān)系為函數(shù)關(guān)系。(4).r=0只是表明兩個變量之間不存在線性關(guān)系,它并不排除二者之間可能存在非線性的相關(guān)關(guān)系。相關(guān)系數(shù)的密切程度將相關(guān)關(guān)系的密切程度劃分等級:r

<0.3無相關(guān),r>0.3有相關(guān)r在0.3~0.5之間,低度相關(guān)r在0.5~0.8之間,顯著相關(guān)r在0.8以上,高度相關(guān)相關(guān)系數(shù)的檢驗一般地,在X與Y都服從正態(tài)分布條件下,對于ρ=0的檢驗,可以采用t檢驗。

根據(jù)給定的顯著性水平和自由度n-2,查找t分布表中相應(yīng)的臨界值。若,表明r在統(tǒng)計上是顯著的。若,表明r在統(tǒng)計上是不顯著的。相關(guān)系數(shù)的顯著性檢驗(例題分析)各相關(guān)系數(shù)檢驗的統(tǒng)計量線性回歸模型的基本問題參數(shù)的最小二乘估計回歸直線的擬合優(yōu)度檢驗顯著性檢驗7.2一元線性回歸分析線性回歸模型的基本問題——

什么是回歸分析?(Regression)

從一組樣本數(shù)據(jù)出發(fā),確定變量之間的數(shù)學(xué)關(guān)系式對這些關(guān)系式的可信程度進行各種統(tǒng)計檢驗,并從影響某一特定變量的諸多變量中找出哪些變量的影響顯著,哪些不顯著利用所求的關(guān)系式,根據(jù)一個或幾個變量的取值來預(yù)測或控制另一個特定變量的取值,并給出這種預(yù)測或控制的精確程度涉及一個自變量的回歸因變量y與自變量x之間為線性關(guān)系被預(yù)測或被解釋的變量稱為因變量(dependentvariable),用y表示用來預(yù)測或用來解釋因變量的一個或多個變量稱為自變量(independentvariable),用x表示因變量與自變量之間的關(guān)系用一條線性方程來表示線性回歸模型的基本問題——

相關(guān)與回歸

1相關(guān)與回歸之間的聯(lián)系:相關(guān)分析是回歸分析的基礎(chǔ)和前提,回歸分析是相關(guān)分析的深入和繼續(xù)。相關(guān)與回歸分析都是對兩變量間關(guān)系進行分析和評價的工具。2、相關(guān)與回歸的區(qū)別:

(1)、相關(guān)分析中,變量x變量y處于平等的地位;回歸分析中,變量y稱為因變量,處在被解釋的地位,x稱為自變量,用于預(yù)測因變量的變化。

(2)、相關(guān)分析中所涉及的變量x和y都是隨機變量;回歸分析中,因變量y是隨機變量,自變量x可以是隨機變量,也可以是非隨機的確定變量.(3)、相關(guān)分析主要是描述兩個變量之間線性關(guān)系的密切程度;回歸分析不僅可以揭示變量x對變量y的影響大小,還可以由回歸方程進行預(yù)測和控制。一元線性回歸模型的確定1、總體的回歸模型:和為未知參數(shù),也叫回歸系數(shù),

為隨機誤差項。2、一元線性樣本回歸模型可表示為:

和分別是總體回歸系數(shù)、的估計值,為參差,是隨機誤差的估計值,是實際值與估計值之間的差額。3、樣本回歸函數(shù):一元線性回歸模型的基本假定(1)數(shù)學(xué)期望為0,即,i=1,2,…;n(2)具有同一方差,即V(εi),i=1,2,…;n(3)相互獨立,即(4)服從正態(tài)分布,即(5)自變量與隨機誤差項不相關(guān)。

回歸系數(shù)的估計1、回歸系數(shù)的估計最小二乘法的基本思想:要找到參數(shù)β的估計值,使得殘差平方和為最小。參數(shù)的最小二乘估計

根據(jù)最小二乘法,可得求解和的公式如下

回歸模型的估計

總體方差的估計估計方程的求法(例題分析)學(xué)生身高x體重yx2y2xy估計值?殘差y-?ABCDEFGHIJ1581601621641661681701721741764750485562605261706524964256002624426896275562822428900295843027630976220925002304302538443600270437214900422574268000777690201029210080884010492121801144047.29149.44851.60653.76455.92158.07960.23662.39464.55266.709-0.2910.552-3.6061.2366.0791.921-8.236-1.3945.448-1.709

16705702792203303295546-0估計方程的求法(例題分析)

三模型的檢驗1、模型的檢驗(1)理論意義檢驗:主要涉及參數(shù)估計值的符號和取值區(qū)間,如果它們與實質(zhì)性科學(xué)的理論以及人們的實踐經(jīng)驗不相符,就說明模型不能很好地解釋現(xiàn)實的現(xiàn)象。(2)一級檢驗:又稱統(tǒng)計學(xué)檢驗,它是利用統(tǒng)計學(xué)中的抽樣理論來檢驗樣本回歸方程的可靠性,具體又可分為擬合程度評價和顯著性檢驗。一級檢驗是對所有現(xiàn)象進行回歸分析時都必須通過的檢驗。(3)二級檢驗又稱經(jīng)濟計量學(xué)檢驗,它是對標(biāo)準(zhǔn)線性回歸模型和基本假定條件能否得到滿足進行的檢驗,也稱為線性回歸診斷,具體包括序列相關(guān)檢驗、異方差性檢驗等。1回歸系數(shù)的顯著性檢驗步驟:檢驗假設(shè):::構(gòu)造檢驗統(tǒng)計量:式中,是估計量的標(biāo)準(zhǔn)差。若

,應(yīng)拒絕,它表明回歸系數(shù)顯著不為0,參數(shù)的t檢驗通過。P<,拒絕H0,表明自變量是影響因變量的一個顯著因素回歸系數(shù)的檢驗(例題分析)

P值的應(yīng)用P=0.002<=0.05,拒絕原假設(shè),身高與體重之間有線性關(guān)系變差的分解(圖示)xyy{}}

2擬合優(yōu)度檢驗SST=SSR+SSE總平方和(SST){回歸平方和(SSR)殘差平方和(SSE){{離差平方和的分解(三個平方和的意義)總平方和(SST)反映因變量的n個觀察值與其均值的總離差回歸平方和(SSR)反映自變量x的變化對因變量y取值變化的影響,或者說,是由于x與y之間的線性關(guān)系引起的y的取值變化,也稱為可解釋的平方和殘差平方和(SSE)反映除x以外的其他因素對y取值的影響,也稱為不可解釋的平方和或剩余平方和擬合優(yōu)度檢驗擬合優(yōu)度檢驗是通過計算擬合優(yōu)度(也稱判定系數(shù))來判定回歸模型對樣本數(shù)據(jù)的擬合程度。

0≤

≤1

=1,表明回歸模型對所有的樣本數(shù)據(jù)點完全擬合,

=0表明回歸模型無法解釋因變量y的離差,回歸模型沒有意義。

0<c<1,越接近于1,表明回歸平方和占總平方和的比重越大,回歸模型對樣本數(shù)據(jù)的擬合程度就越高。3線性關(guān)系的檢驗(檢驗的步驟)提出假設(shè)H0:

1=0線性關(guān)系不顯著2.計算檢驗統(tǒng)計量F確定顯著性水平,并根據(jù)分子自由度1和分母自由度n-2找出臨界值F

作出決策:若F>F

,拒絕H0;若F<F

,不能拒絕H0線性關(guān)系的檢驗(例題分析)提出假設(shè)H0:

1=0學(xué)生體重與身高之間的線性關(guān)系不顯著計算檢驗統(tǒng)計量F確定顯著性水平

=0.05,并根據(jù)分子自由度1和分母自由度8-2找出臨界值F

=5.32作出決策:若F>F

,拒絕H0,線性關(guān)系顯著線性關(guān)系的檢驗(方差分析表)SPSS輸出的方差分析表例7.1已知某公司2011年1—12月的某產(chǎn)品廣告投入與產(chǎn)品銷售資料如表7.1所示,試建立產(chǎn)品銷售回報y對產(chǎn)品廣告投入x的線性回歸模型。月份廣告支出銷售回報月份廣告支出銷售回報1224889920766468108122298113712687379811690337142599809811210545604444737354810884511144705518051282011957812164066591370856012103111495095表7.1某公司廣告支出和銷售回報資料(單位:元)

利用SPSS統(tǒng)計軟件可計算得>tα/2(n-2),判定系數(shù)R2=0.993,可見回歸模型的擬合程度較高。多元線性回歸分析7.3多元線性回歸分析y對x1、x2、…xk的多元線性回歸模型的形式為

,…,仍稱為回歸系數(shù),變量、,…均稱為自變量,其數(shù)值仍假定是可精確測量或嚴(yán)格控制的。

多元回歸系數(shù)的最小二乘估計多元線性回歸模型的矩陣形式表達式:最小二乘估計:

模型的檢驗1、回歸系數(shù)的顯著性檢驗回歸系數(shù)的t檢驗統(tǒng)計量為若>tα/2(n–k–1),則回歸系數(shù)顯著地不為0,參數(shù)的t檢驗通過。若≦tα/2(n–k–1),則回歸系數(shù)不顯著,參數(shù)的t檢驗未獲得通過,回歸系數(shù)的t檢驗通不過。模型的檢驗2、回歸方程的顯著性檢驗回歸方程的F檢驗:(1)檢驗假設(shè):β1=β2=…=βk=0(2)計算回歸方程的F統(tǒng)計量若則拒絕,說明回歸方程的線性回歸效果顯著,模型通過F檢驗。反之未通過F檢驗說明模型沒意義。模型的檢驗3、擬合優(yōu)度檢驗判定系數(shù)來進行擬合優(yōu)度檢驗修正的判定系數(shù)

自變量的選擇及多重共線性問題自變量的選擇有兩條基本準(zhǔn)則:一是選擇的自變量應(yīng)是那些與回歸對象密切相關(guān)的因素;二是所選擇的自變量之間不能有較強的線性關(guān)系,即不能有多重共線性問題存在。關(guān)于自變量的選擇第一步是針對回歸對象進行因素分析。第二步是進行簡單相關(guān)分析。第三步是要考慮多重共線性的問題。自變量的選擇及多重共線性問題2、關(guān)于多重共線性的識別和消除

多重共線性存在的情況:(1)回歸模型的F檢驗通過,而有的回歸系數(shù)的t檢驗未通過。(2)模型中增加或刪除一個自變量,回歸系數(shù)的估計值有較大的變化。(3)回歸系數(shù)估計值的符號與實際經(jīng)濟判斷的相反。(4)簡單相關(guān)系數(shù)矩陣中,兩個自變量之間的相關(guān)系數(shù)值較大。通常,簡單相關(guān)系數(shù)r>0.7時,應(yīng)考慮有多重共線性存在。自變量的選擇及多重共線性問題消除共線性最簡單的辦法是:刪除共線性組中自變量與因變量的簡單相關(guān)系數(shù)最小者。逐個刪除法:a、將與回歸對象有關(guān)的全部因素引入方程,建立模型。b、依據(jù)每個回歸系數(shù)的|t|值大小,逐個刪除那些不顯著的變量c、直到模型中包含的變量都是影響預(yù)測對象的顯著因素為止。應(yīng)用案例及軟件操作程序例7.2表7-2給出了某地城鎮(zhèn)居民人均消費支出水平及居民人均工資性收入和非工資性收入水平資料,據(jù)此建立人均消費支出水平y(tǒng)關(guān)于人均工資性收入x1和非工資性收入x2的二元線性回歸模型,

。若已知該地1999年的人均工資性收入為755.75元,人均非工資性收入為454.98元,試對1999年該地的人均消費支出進行預(yù)測。年份人均消費支出額人均工資性收入人均非工資性收入1985416.07395.9274.511986465.39425.44106.501987478.05439.26112.101988473.49404.28122.421989472.65389.26175.191990490.94428.47180.731991516.86475.08151.581992526.94497.25159.921993543.45502.51179.781994646.00584.38226.961995626.35589.85194.461996664.83584.09227.611997685.79572.71278.571998703.18565.44320.68

表7.2單位:元表7.3ModelSummaryModelRRSquareAdjustedRSquareStd.ErroroftheEstimate1.992a.984.98113.02167a.Predictors:(Constant),人均非工資性收入,人均工資性收入表7.4ANOVAbModelSumofSquaresdfMeanSquareFSig.Regression115532.669257766.335340.676.000aResidual1865.20111169.564Total117397.87113a.Predictors:(Constant),人均非工資性收入,人均工資性收入b.DependentVariable:人均消費支出額

表7.4表明F統(tǒng)計量的值為340.676,利用SPSS統(tǒng)計軟件進行回歸分析,可以不進行查表,直接依據(jù)F統(tǒng)計量對應(yīng)的Sig的值做出判斷,若Sig的值小于0.05,則認為回歸模型整體顯著。否則,認為所建立的回歸模型整體不顯著??梢姳纠蠪值所對應(yīng)的Sig的值小于0.05,模型整體顯著。從表7.3可知回歸模型擬合程度接近1,說明模型擬合程度較高7.4應(yīng)用案例及軟件操作程序

表7.5是回歸模型的輸出結(jié)果,回歸系數(shù)的T檢驗也可以直接通過Sig的值與0.05作比較,若Sig<0.05,說明回歸系數(shù)通過T檢驗,回歸系數(shù)不等于0。從7-5可知,、均通過T檢驗,所構(gòu)建的回歸模型為:表7.5CoefficientsaModelUnstandardizedCoefficientsStandardizedCoefficientstSig.BStd.ErrorBeta1(Constant)84.23126.5673.171.009人均工資性收入.709.074.5769.559.000人均非工資性收入.667.084.4767.903.000a.DependentVariable:人均消費支出額例

現(xiàn)以2000—2009年間的31個地區(qū)城市居民人均消費水平為例,利用Excel計算并分析城鎮(zhèn)居民不同地區(qū)消費水平差距的變化情況。

(1)如圖1錄入數(shù)據(jù)圖13.4應(yīng)用案例及軟件操作步驟

(2)點擊菜單[工具]“數(shù)據(jù)分析”,或者點擊[數(shù)據(jù)]菜單中的”數(shù)據(jù)分析”,打開對話框如圖2,選擇“描述統(tǒng)計”選項,調(diào)出描述統(tǒng)計對話框如圖3

圖2

圖33.4應(yīng)用案例及軟件操作步驟如沒有數(shù)據(jù)分析,可以點擊文件—選項,打開下面的界面,點擊下圖紅圈中的轉(zhuǎn)到按鈕,進行數(shù)據(jù)分析加載。

在數(shù)據(jù)分析庫處挑勾,點擊確定,即可在數(shù)據(jù)菜單中出現(xiàn)數(shù)據(jù)分析

(3)在描述統(tǒng)計對話框圖3中,進行相關(guān)數(shù)據(jù)的輸入或選擇。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論