多元回歸分析_第1頁
多元回歸分析_第2頁
多元回歸分析_第3頁
多元回歸分析_第4頁
多元回歸分析_第5頁
已閱讀5頁,還剩18頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、多元線性回歸分析在數(shù)量分析中,經(jīng)常會看到變量與變量之間存在著一定的聯(lián)系。要了解變量之間如何發(fā)生相互影響的,就需要利用相關(guān)分析和回歸分析?;貧w分析的主要類型:一元線性回歸分析、多元線性回歸分析、非線性回歸分析、曲線估計(jì)、時間序列的曲線估計(jì)、含虛擬自變量的回歸分析以及邏輯回歸分析等。1.1 回歸分析基本概念相關(guān)分析和回歸分析都是研究變量間關(guān)系的統(tǒng)計(jì)學(xué)課題。在應(yīng)用中,兩種分析方法經(jīng)常相互結(jié)合和滲透,但它們研究的側(cè)重點(diǎn)和應(yīng)用面不同。 在回歸分析中,變量y稱為因變量,處于被解釋的特殊地位;而在相關(guān)分析中,變量y與變量x處于平等的地位,研究變量y與變量x的密切程度和研究變量x與變量y的密切程度是一樣的。

2、在回歸分析中,因變量y是隨機(jī)變量,自變量x可以是隨機(jī)變量,也可以是非隨機(jī)的確定變量;而在相關(guān)分析中,變量x和變量y都是隨機(jī)變量。 相關(guān)分析是測定變量之間的關(guān)系密切程度,所使用的工具是相關(guān)系數(shù);而回歸分析則是側(cè)重于考察變量之間的數(shù)量變化規(guī)律,并通過一定的數(shù)學(xué)表達(dá)式來描述變量之間的關(guān)系,進(jìn)而確定一個或者幾個變量的變化對另一個特定變量的影響程度。具體地說,回歸分析主要解決以下幾方面的問題。(1)通過分析大量的樣本數(shù)據(jù),確定變量之間的數(shù)學(xué)關(guān)系式。(2)對所確定的數(shù)學(xué)關(guān)系式的可信程度進(jìn)行各種統(tǒng)計(jì)檢驗(yàn),并區(qū)分出對某一特定變量影響較為顯著的變量和影響不顯著的變量。(3)利用所確定的數(shù)學(xué)關(guān)系式,根據(jù)一個或幾個

3、變量的值來預(yù)測或控制另一個特定變量的取值,并給出這種預(yù)測或控制的精確度。作為處理變量之間關(guān)系的一種統(tǒng)計(jì)方法和技術(shù),回歸分析的基本思想和方法以及“回歸(Regression)”名稱的由來都要?dú)w功于英國統(tǒng)計(jì)學(xué)FGalton(18221911)。在實(shí)際中,根據(jù)變量的個數(shù)、變量的類型以及變量之間的相關(guān)關(guān)系,回歸分析通常分為一元線性回歸分析、多元線性回歸分析、非線性回歸分析、曲線估計(jì)、時間序列的曲線估計(jì)、含虛擬自變量的回歸分析和邏輯回歸分析等類型。1.2 多元線性回歸 1.2.1 多元線性回歸的定義一元線性回歸分析是在排除其他影響因素或假定其他影響因素確定的條件下,分析某一個因素(自變量)是如何影響另一

4、事物(因變量)的過程,所進(jìn)行的分析是比較理想化的。其實(shí),在現(xiàn)實(shí)社會生活中,任何一個事物(因變量)總是受到其他多種事物(多個自變量)的影響。一元線性回歸分析討論的回歸問題只涉及了一個自變量,但在實(shí)際問題中,影響因變量的因素往往有多個。例如,商品的需求除了受自身價(jià)格的影響外,還要受到消費(fèi)者收入、其他商品的價(jià)格、消費(fèi)者偏好等因素的影響;影響水果產(chǎn)量的外界因素有平均氣溫、平均日照時數(shù)、平均濕度等。因此,在許多場合,僅僅考慮單個變量是不夠的,還需要就一個因變量與多個自變量的聯(lián)系來進(jìn)行考察,才能獲得比較滿意的結(jié)果。這就產(chǎn)生了測定多因素之間相關(guān)關(guān)系的問題。研究在線性相關(guān)條件下,兩個或兩個以上自變量對一個因變

5、量的數(shù)量變化關(guān)系,稱為多元線性回歸分析,表現(xiàn)這一數(shù)量關(guān)系的數(shù)學(xué)公式,稱為多元線性回歸模型。多元線性回歸模型是一元線性回歸模型的擴(kuò)展,其基本原理與一元線性回歸模型類似,只是在計(jì)算上更為復(fù)雜,一般需借助計(jì)算機(jī)來完成。1.2.2 多元線性回歸模型 1.2.2.1元線性回歸模型及其矩陣表示設(shè)是一個可觀測的隨機(jī)變量,它受到個非隨機(jī)因索,和隨機(jī)因素的影響,若與,有如下線性關(guān)系: (1.1)其中,是個未知參數(shù),是不可測的隨機(jī)誤差,且通常假定.我們稱式(1.1)為多元線性回歸模型.稱為被解釋變量(因變量),為解釋變量(自變量).稱 (1.2)為理論回歸方程.對于一個實(shí)際問題,要建立多元回歸方程,首先要估計(jì)出未

6、知參數(shù),,,為此我們要進(jìn)行 次獨(dú)立觀測,得到組樣本數(shù)據(jù),他們滿足式(1.1),即有 (1.3)其中相互獨(dú)立且都服從.式(1.3)又可表示成矩陣形式: (1.4)這里,為階單位矩陣.階矩陣稱為資料矩陣或設(shè)計(jì)矩陣,并假設(shè)它是列滿秩的,即.由模型(1.3)以及多元正態(tài)分布的性質(zhì)可知,仍服從維正態(tài)分布,它的期望向量為,方差和協(xié)方差陣為,即. 1.2.2.2參數(shù)的最小二乘估計(jì)及其表示1. 參數(shù)的最小二乘估計(jì)與一元線性回歸時的一樣,多元線性回歸方程中的未知參數(shù)仍然可用最小二乘法來估計(jì),即我們選擇使誤差平方和達(dá)到最小.由于是關(guān)于的非負(fù)二次函數(shù),因而必定存在最小值,利用微積分的極值求法,得這里是的最小二乘估計(jì)

7、.上述對求偏導(dǎo),求得正規(guī)方程組的過程可用矩陣代數(shù)運(yùn)算進(jìn)行,得到正規(guī)方程組的矩陣表示:移項(xiàng)得(.)稱此方程組為正規(guī)方程組依據(jù)假定,所以故存在解正規(guī)方程組(.)得(.)稱為經(jīng)驗(yàn)回歸方程誤差方差的估計(jì)將自變量的各組觀測值代入回歸方程,可得因變量的估計(jì)量(擬合值)為向量稱為殘差向量,其中為階對稱冪等矩陣,為階單位陣稱數(shù)為殘差平方和(rror Sum of Squares,簡寫為SSE)由于且,則從而為的一個無偏估計(jì)估計(jì)量的性質(zhì)性質(zhì)為的線性無偏估計(jì),且證由于是的線性函數(shù),故其為線性估計(jì),且有這一性質(zhì)說明為的線性無偏估計(jì),又由于一般為非對角陣,故的各個分量間一般是相關(guān)的性質(zhì)證由于,故這一性質(zhì)表明殘差向量的

8、各個分量間一般也是相關(guān)的性質(zhì)證這一性質(zhì)表明殘差與的最小二乘估計(jì)是不相關(guān)的,又由于殘差平方和SSE是的函數(shù),故它與也不相關(guān)在正態(tài)假定下不相關(guān)與獨(dú)立等價(jià),因而SSE與獨(dú)立性質(zhì)證明略性質(zhì)(auss-Markov定理)在假定,時,的任一線性函數(shù)的最小方差線性無偏估計(jì)(BLUE)為,其中是任一維向量,是的最小二乘估計(jì)性質(zhì)6當(dāng),有以下幾點(diǎn)結(jié)論:(1);(2)SSE與獨(dú)立;(3)性質(zhì)、性質(zhì)6的證明參見周紀(jì)薌回歸分析或方開泰實(shí)用回歸分析1.2.3回歸方程和回歸系數(shù)的顯著性檢驗(yàn)給定因變量與,的組觀測值,利用前述方法確定線性回歸方程是否有意義,還有待于顯著性檢驗(yàn)下面分別介紹回歸方程顯著性的檢驗(yàn)和回歸系數(shù)的檢驗(yàn),同

9、時介紹衡量回歸擬合程度的擬合優(yōu)度檢驗(yàn)1.2.3.1回歸方程顯著性的檢驗(yàn)對多元線性回歸方程作顯著性檢驗(yàn)就是要看自變量,從整體上對隨機(jī)變量是否有明顯的影響,即檢驗(yàn)假設(shè):如果被接受,則表明與,之間不存在線性關(guān)系.為了說明如何進(jìn)行檢驗(yàn),我們首先建立方差分析表.離差平方和的分解我們知道:觀測值,之所以有差異,是由于下述兩個原因引起的,一是與,之間確有線性關(guān)系時,由于,取值的不同而引起值的變化;另一方面是除去與,的線性關(guān)系以外的因素,如,對的非線性影響以及隨機(jī)因素的影響等.記,則數(shù)據(jù)的總離差平方和(Total Sum of Squares) (1.7)反映了數(shù)據(jù)的波動性的大小殘差平方和(1.)反映了除去與

10、,之間的線性關(guān)系以外的因素引起的數(shù)據(jù),的波動若,則每個觀測值可由線性關(guān)系精確擬合,SSE越大,觀測值和線性擬合值間的偏差也越大回歸平方和(Regression Sum of Squres) (1.9)由于可證明,故SSR反映了線性擬合值與它們的平均值的宗偏差,即由變量,的變化引起,的波動若,則每一個擬合值均相當(dāng),即不隨,而變化,這意味著.利用代數(shù)運(yùn)算和正規(guī)方程組(4.8)可以證明:即 (1.10) 因此,SSR越大,說明由線性回歸關(guān)系所描述的,的波動性的比例就越大即與,的線性關(guān)系就越顯著.線性模型的擬合效果越好.另外,通過矩陣運(yùn)算可以證明SST、SSE、SSR,有如下形式的矩陣表示: (1.1

11、1) 其中表示一個元素全為1的階方陣.2. 自由度的分解對應(yīng)于SST的分解,其自由度也有相應(yīng)的分解,這里的自由度是指平方中獨(dú)立變化項(xiàng)的數(shù)目.在SST中,由于有一個關(guān)系式,即彼此并不是獨(dú)立變化的,故其自由度為.可以證明,SSE的自由度為,SSR的自由度為,因此對應(yīng)于的分解,也有自由度的分解關(guān)系 (1.12)3. 方差分析表基于以上的SST和自由度的分解,可以建立方差分析表1.1方差來源平方和自由度均方差F值SSRSSESST1.2.3.2線性回歸方程的顯著性檢驗(yàn)與一元線性回歸時一樣,可以用統(tǒng)計(jì)量檢驗(yàn)回歸方程的顯著性,也可以用值法(P-Value)作檢驗(yàn). 統(tǒng)計(jì)量是 (1.13)當(dāng)為真時,給定顯著

12、性水平,查分布表得臨界值,計(jì)算的觀測值,若,則接受,即在顯著性水平之下,認(rèn)為與,的線性關(guān)系就不顯著;當(dāng)時,這種線性關(guān)系是顯著的.利用值法作顯著性檢驗(yàn)性檢驗(yàn)十分方便:這里的值是,表示第一、第二自由度分別為,的變量取值大于的概率,利用計(jì)算機(jī)很容易計(jì)算出這個概率,很多統(tǒng)計(jì)軟件(如SPSS)都給出了檢驗(yàn)的值,這省去了查分布表的麻煩,對于給定的顯著性水平,若,則拒絕,反之,接受.如果檢驗(yàn)的結(jié)果是接受原假設(shè),那意味著什么呢?這時候表明,與模型的誤差相比,自變量對因變量的影響是不重要的.這可能有兩種情況.其一是模型的各種誤差太大,即使回歸自變量對因變量有一定的影響,但相比于誤差也不算大.對于這種情況,我們要

13、想辦法縮小誤差,比如檢查是否漏掉了重要的自變量,或檢查某些自變量與是否有非線性關(guān)系等;其二是自變量對的影響確實(shí)很小,這時建立與諸自變量的回歸方程沒有實(shí)際意義.1.2.3.3回歸系數(shù)的顯著性檢驗(yàn)回歸方程通過了顯著性檢驗(yàn)并不意味著每個自變量都對有顯著地影響,可能其中的某個或某些自變量對的影響并不顯著。我們自然希望從回歸方程中剔除那些對的影響不顯著的自變量,從而建立一個較為簡單有效地回歸方程這就需要對每一個自變量作考察顯然,若某個自變量對無影響,那么在線性模型中,它的系數(shù)應(yīng)為零因此檢驗(yàn)的影響是否顯著等價(jià)于檢驗(yàn)假設(shè) 由性質(zhì)6可知: 若記階方陣,則有于是當(dāng)成立時,有 因?yàn)?,且與相互獨(dú)立,根據(jù)分布的定義,

14、有 這里,對給定的顯著性水平,當(dāng)時,我們拒絕;反之,則接受在SPSS軟件的輸出結(jié)果中,可以直接從值看出檢驗(yàn)結(jié)果對于估計(jì)量,我們還想了解它與的接近程度如何這就需要確定的置信區(qū)間由于,因而有,即得的置信度為的置信區(qū)間為1.2.3.4 因變量的預(yù)測建立回歸方程,除了解自變量與因變量之間的相依關(guān)系之外,還有一項(xiàng)重要的應(yīng)用就是預(yù)測,即對給定的自變量的值,預(yù)測對應(yīng)的因變量的值 對于線性回歸模型 當(dāng)我們要預(yù)測所對應(yīng)的因變量值時,我們可以用他的點(diǎn)預(yù)測值,但我們一般更感興趣的是的區(qū)間估計(jì)可以證明: 因而對給定的,有 由此可得的置信度為的預(yù)測區(qū)間為 1.2.3.5擬合優(yōu)度擬合優(yōu)度用于檢驗(yàn)?zāi)P蛯颖居^測值的擬合程度

15、在前面的方差分析中,我們已經(jīng)指出,在總離差平方和中,若回歸平方和占的比例越大,則說明擬合效果越好于是,就用回歸平方和與總離差平方和的比例作為評判一個模型擬合優(yōu)度的標(biāo)準(zhǔn),稱為樣本決定系數(shù)(coefficient of determination)(或稱為復(fù)相關(guān)系數(shù)),記為 由的意義看來,其他越接近于1,意味著模型的擬合優(yōu)度越高。于是,如果在模型中增加一個自變量,的值也會隨之增加,這會給人一種錯覺:要想模型擬合效果好,就得盡可能多引進(jìn)自變量為了防止這種傾向,人們考慮到,增加自變量必定使得自由度減少,于是又定義了引入自由度的修正的復(fù)相關(guān)系數(shù),記為 在實(shí)際應(yīng)用中,達(dá)到多大才算通過了擬合優(yōu)度檢驗(yàn),沒有絕

16、對的標(biāo)準(zhǔn),要看具體情況而定。模型擬合優(yōu)度并不是判斷模型質(zhì)量的唯一標(biāo)準(zhǔn),有時為了追求模型的實(shí)際意義,可以在一定程度上放寬對擬合優(yōu)度的要求1.2.3.6 數(shù)據(jù)的中心化和標(biāo)準(zhǔn)化在多元線性回歸分析中,所涉及道德諸多自變量往往量綱不同,甚至差別很大,這給利用回歸方程分析實(shí)際問題帶來一定困難為此,我們可以將數(shù)據(jù)進(jìn)行中心化和標(biāo)準(zhǔn)化處理,然后再建立回歸方程數(shù)據(jù)的中心化處理方法是:記、為各個自變量與因變量的樣本中心值,令如果利用沒有中心化處理之前的數(shù)據(jù)建立的多元回歸方程為 (4.19)那么經(jīng)過中心化處理的數(shù)據(jù)建立的回歸方程即為 (4.20)這一點(diǎn)不難理解:數(shù)據(jù)的中心化處理相當(dāng)于將坐標(biāo)原點(diǎn)移至樣本中心,而坐標(biāo)系的

17、平移不改變直線的斜率,只改變了截距數(shù)據(jù)的標(biāo)準(zhǔn)化處理公式是:標(biāo)準(zhǔn)化的數(shù)據(jù)建立的回歸方程記為 (4.21)容易驗(yàn)證方程(4.21)與(4.19)的系數(shù)之間存在關(guān)系式1.2.4殘差分析在前面討論線性回歸問題時,我們做了回歸模型的線性假定、誤差的正態(tài)性和同方差性假定等,而實(shí)際問題中所得的數(shù)據(jù)是否符合這些假定,還有待于檢驗(yàn).在本節(jié)和下一節(jié)中,將要解決兩個問題:首先是如何驗(yàn)證這些假定是否得到滿足?如果符合假定的話,那么參數(shù)的估計(jì)和有關(guān)的假設(shè)檢驗(yàn)都是可靠的;如果假定不滿足,我們要解決另一個重要的問題,即我們需采取怎樣的措施呢?在對模型的假定進(jìn)行診斷時,殘差分析(又稱回歸診斷)起著十分重要的作用.殘差向量,這

18、里,前面已經(jīng)介紹過殘差的基本性質(zhì),如等,由于實(shí)際問題中,真正的觀測誤差我們并不知道,但如果模型正確,則可將近似看作為,此時殘差應(yīng)該能夠大致反映誤差的特性.因而我們可以利用殘差的特點(diǎn)來考察模型的可靠性.通過對殘差進(jìn)行分析,可以在一定程度上回答下列問題:(1) 回歸函數(shù)線性假定的可行性;(2) 誤差項(xiàng)的等方差假設(shè)的合理性;(3) 誤差項(xiàng)獨(dú)立性假設(shè)的合理性;(4) 誤差項(xiàng)是否符合正態(tài)分布;(5) 觀測值中是否存在異常值;(6) 是否在模型中遺漏了某些重要的自變量.做殘差分析時我們經(jīng)常借助于殘差圖,它是以殘差為縱坐標(biāo),以其他指定的量為橫坐標(biāo)做出的散點(diǎn)圖.常用的橫坐標(biāo)有:、以及觀測時間或序號.由殘差的分

19、布可知,一般來講之間是相關(guān)的,且它們的方差不等,從而直接用作比較就帶來一定的麻煩,為此,人們引入標(biāo)準(zhǔn)化殘差和學(xué)生化殘差概念,以改進(jìn)普通殘差的性質(zhì).分別定義如下:標(biāo)準(zhǔn)化殘差:,學(xué)生化殘差: (其中是矩陣的第個對角元素)陳希孺等人曾指出,近似獨(dú)立,且近似服從,即可以近似認(rèn)為是來自的隨機(jī)子樣.1.2.4.1回歸函數(shù)線性的診斷診斷回歸函數(shù)是否為自變量的線性函數(shù)時,主要采用殘差圖,.如果在這個散點(diǎn)圖中,點(diǎn)大致在附近隨機(jī)變化(即無明顯的趨勢性),并在變化幅度不大的水平帶狀區(qū)域內(nèi),如圖4.2(a)所示,則可以認(rèn)為回歸函數(shù)的線性假定基本上是合理的.如果這個散點(diǎn)圖類似于圖4.2(b),則表明回歸函數(shù)并非線性形狀

20、,應(yīng)該包含某些變量的高次項(xiàng)或交叉乘積項(xiàng),或者考慮是否可先將y和某些自變量做變換,再建立相應(yīng)的線性回歸模型.圖4.2 回歸散點(diǎn)圖1.2.4.2 誤差方差齊性(homogeneity)的檢驗(yàn)我們可以采用殘差圖來判斷誤差方差是否齊性,若殘差圖類似于圖4.2(a),則可以認(rèn)為方差齊性的假設(shè)大致是成立的.如果殘差圖類似于圖4.3,則方差齊性的假定不成立.圖4.3(a)、(b)分別表示誤差方差隨自變量的變化而增加或減少.如果方差齊性的假定不能滿足,通常有三種可以采用的處理方法.一是采用加權(quán)最小二乘法估計(jì)模型參數(shù);二是Box-Cox變換法;這種情況的處理沒有一般的方法,詳細(xì)過程請參閱近代回歸分析(陳希孺等,

21、1987).下面我們分一元和多元的情況簡要介紹加權(quán)最小二乘法.對于一元線性回歸方程來說,普通最小二乘法的離差平方和為圖4.3 誤差方差隨自變量變化圖加權(quán)最小二乘法是在平方和中加入一個適當(dāng)?shù)臋?quán)數(shù),以消除方差非齊性的影響,即 (4.22)這里觀測值的權(quán)數(shù)應(yīng)該是誤差項(xiàng)方差的倒數(shù),即.在實(shí)際問題的研究中,通常是未知的,但是,當(dāng)誤差項(xiàng)方差隨自變量水平以系統(tǒng)的形式變化時,我們可以利用這種關(guān)系.例如,若,其中為比例系數(shù),由于這個系數(shù)在參數(shù)估計(jì)中可以消除,所以我們?nèi)?quán)數(shù)為.如果某個實(shí)際問題的誤差方差與的冪函數(shù)成比例,其中,為待定參數(shù),此時可取權(quán)數(shù)為,利用SPSS軟件包可以確定冪函數(shù)的最優(yōu)取值.在打開一個數(shù)據(jù)文

22、件之后,依次點(diǎn)選StatisticsRegressionWeight Estimation進(jìn)入估計(jì)權(quán)函數(shù)對話框,默認(rèn)的冪指數(shù)的取值為,這個默認(rèn)值可以更改.先將自變量與因變量選入各自的變量框,再把選入Weight變量框,可得最優(yōu)冪指數(shù)值.多元線性回歸模型的加權(quán)離差平方和為 (4.23)多元線性回歸模型中有多個自變量,通常取權(quán)函數(shù)為某個自變量的冪函數(shù),即取,在這個自變量中,應(yīng)該取哪一個自變量呢?這只需要計(jì)算每一個自變量與普通殘差的等級相關(guān)系數(shù)(Spearman相關(guān)系數(shù)),選取等級相關(guān)系數(shù)最大的那個自變量構(gòu)造權(quán)函數(shù).然后利用與一元回歸情形相同的方法確定最優(yōu)的冪指數(shù) 1.2.4.3 誤差獨(dú)立性的檢驗(yàn)在

23、回歸模型中,我們總是堅(jiān)定誤差項(xiàng)是不相關(guān)的,即如果某個回歸模型的誤差項(xiàng)不滿足這一點(diǎn),則我們稱其存在自相關(guān)(或序列相關(guān))現(xiàn)象當(dāng)一個回歸模型的隨機(jī)誤差項(xiàng)存在自相關(guān)時,會產(chǎn)生以下不良的后果:(1) 參數(shù)的估計(jì)量不再具有最小方差線性無偏性;(2) 變量的顯著性檢驗(yàn)失去意義;(3) 模型的預(yù)測失效.自相關(guān)性的檢驗(yàn)方法有多種,目前比較常用的有Durbin-Watson,但它僅適用于一階自相關(guān)的情況,即隨機(jī)擾動項(xiàng)具有如下形式 (4.24)由于實(shí)際問題中的未知,所以我們首先采用普通最小二乘法估計(jì)模型,然后用殘差近似代替來判斷是否存在自相關(guān)性.為了檢驗(yàn)自相關(guān)性,構(gòu)造的假設(shè)是而構(gòu)造的統(tǒng)計(jì)量為: (4.25)計(jì)算出該

24、統(tǒng)計(jì)量的數(shù)值之后,根據(jù)樣本容量和自變量數(shù)目查 DW分布表,得到臨界值和,然后按照下列準(zhǔn)則考察計(jì)算得到的DW值,可以判斷模型的自相關(guān)狀態(tài).準(zhǔn)則:若, 則存在正自相關(guān) 若, 不能確定 若, 不能確定 若, 存在負(fù)自相關(guān)從上面的準(zhǔn)則可以看出,當(dāng)值為2左右時,模型一般不存在一階自相關(guān).而且,經(jīng)驗(yàn)表明,如果模型不存在一階自相關(guān),一般也不存在高階序列相關(guān).如果模型存在自相關(guān),首先要查明原因.如果是回歸模型選用不當(dāng),則應(yīng)該用適當(dāng)?shù)幕貧w模型;如果是缺少重要的自變量,則應(yīng)加入相應(yīng)的自變量.如果以上方法都不能消除自相關(guān)性,則需要采用新的方法估計(jì)模型,如廣義最小二乘法、差分法、迭代法、移動平均法等等,在此只介紹一階

25、差分法和迭代法.對其他方法有興趣的讀者可以參閱時間序列方面的教材或著作.差分法用增量數(shù)據(jù)代替原來的樣本數(shù)據(jù),將原來的回歸模型變?yōu)椴罘中问降哪P?一階差分法適用于原模型存在較高程度的一階自相關(guān)的情況.令建立關(guān)于的線性回歸方程 (4.26)如果這個差分模型通過了各種檢驗(yàn)和診斷,就可以利用它代替原模型做預(yù)測.這里以一元線性回歸模型為例介紹迭代法.先求出關(guān)于的一元線性回歸方程,計(jì)算出殘差之間的一階自相關(guān)系數(shù),再令建立關(guān)于的一元線性回歸方程,通過殘差檢驗(yàn)這個回歸方程是否存在自相關(guān),如果之間不相關(guān),則迭代結(jié)束;如果存在自相關(guān),則需計(jì)算殘差之間的自相關(guān)系數(shù),重復(fù)上述步驟,直到因變量序列不存在自相關(guān)性為止.

26、1.2.4.4 誤差項(xiàng)正態(tài)性的檢驗(yàn)檢驗(yàn)總體分布是否為正態(tài)分布的方法比較多,下面介紹其中的兩種.在前面我們指出過,當(dāng)時,標(biāo)準(zhǔn)化殘差可近似看成來自的隨機(jī)子樣,從而可通過檢驗(yàn)所屬總體是否為來檢驗(yàn)?zāi)P驼`差的正態(tài)性.方法一:頻率檢驗(yàn)法.可以粗略的統(tǒng)計(jì)一下中正負(fù)個數(shù)是否大致各占一半,介于(-1,1)間的比例是否約為68%,介于(-2,2)間的比例是否為95%,介于(-3,3) 間的比例是否約為99%,不過這種方法比較粗糙.方法二:正態(tài)概率圖檢驗(yàn)法.首先,將殘差從小到大排列為;其次,對于每個,計(jì)算,其中為標(biāo)準(zhǔn)正態(tài)分布的下側(cè)分位數(shù),即滿足然后,以為縱坐標(biāo),為橫坐標(biāo)做散點(diǎn)圖,即為殘差的正態(tài)概率圖.從直觀上看,如

27、果點(diǎn)基本落在一條直線上,則可認(rèn)為誤差正態(tài)性的假定是合理的.當(dāng)然還可以進(jìn)一步計(jì)算和之間的相關(guān)系數(shù)來判斷它們之間的線性關(guān)系的強(qiáng)弱,若相關(guān)系數(shù)接近于1,則說明點(diǎn)近似落在一條直線上. 1.2.4.5 多重共線性的處理多元線性回歸模型中,假定自變量之間線性無關(guān),因而資料矩陣是滿秩的.如果存在不全為零的個常數(shù),使得則自變量之間存在著完全的多重共線(Multicollinearity).在實(shí)際問題中完全共線性的情況并不多見,常見的是近似的多重共線關(guān)系,即存在不全為零的個常數(shù),使得如果回歸模型存在完的多重共線性,則資料陣的秩,故不存在,無法得到回歸參數(shù)的估計(jì)量.對于近似多重共線性的情況,此時雖有,但,從而矩陣

28、的主對角線上的元素很大,使得估計(jì)的參數(shù)向量的協(xié)方差陣的對角線上元素也很大,導(dǎo)致普通最小二乘參數(shù)估計(jì)量并非有效.如何檢驗(yàn)是否存在多重共線性?已經(jīng)由不少的可行的方法,目前常用的有方差擴(kuò)大因子法和特征根判別法.在此只介紹方差擴(kuò)大因子(VIF)法.對自變量做中心標(biāo)準(zhǔn)化處理,則為自變量的相關(guān)矩陣,記稱其對角線元素為自變量的方差擴(kuò)大因子(Variance Inflation Factor),其中是把作為因變量與其余個自變量做線性回歸所得到的復(fù)相關(guān)系數(shù).反映了沒個變量所受到的多重共線性的影響的大小.對每一個自變量,都有.也可以用個自變量所對應(yīng)得方差擴(kuò)大因子的平均數(shù)來度量多重共線性.當(dāng)遠(yuǎn)遠(yuǎn)大于1時,就表示存在

29、嚴(yán)重的多重共線性問題.當(dāng)發(fā)現(xiàn)自變量存在嚴(yán)重的多重共線性時,可以通過剔除一些不重要的自變量、增大樣本容量、對回歸系數(shù)做有偏估計(jì)(如采用嶺回法、主成分法、偏最小二乘法等)等方法來克服多重共線性.1.2.5 自變量的選擇與逐步回歸在前面討論了線性回歸模型的估計(jì)方法和檢驗(yàn)問題,但在應(yīng)用回歸分析處理實(shí)際問題時,首先要解決的問題是自變量的選擇和回歸函數(shù)的選擇.由于本書中,我們只介紹線性回歸模型,在此,我們主要考慮自變量的選擇問題.在多元線性回歸分析中,一方面,為了獲得較全面的信息,我們總是希望模型中包含盡可能多的自變量;另一方面,考慮到自變量越多,收集數(shù)據(jù)存在困難以及成本大大增加,加之,有些自變量與其他自

30、變量作用重疊.如果把它們都引入模型,不只是增加了計(jì)算量,還對模型參數(shù)的估計(jì)和模型的預(yù)測帶來不利影響.這樣一來,我們自然希望模型中選人最合適的自變量,建立起既合理又簡單實(shí)用的回歸模型.下面我們介紹一些自變量選擇的準(zhǔn)則,以及相應(yīng)的“最優(yōu)”自變量子集的計(jì)算方法.1.2.5.1 自變量選擇對估計(jì)和預(yù)測的影響設(shè)我們研究某一實(shí)際問題時,根據(jù)經(jīng)驗(yàn)或?qū)I(yè)知識,確定一切可能對因變量有影響的因素共有個,記為,它們與一起構(gòu)成線性回歸模型 (4.33)我們稱這個與所有自變量的回歸模型為全模型.如果我們從所有可供選擇的個變量中挑出個,記為,建立如下的回歸模型 (4.34)我們稱其為選模型.利用回歸分析解決問題時,自變量

31、的選擇問題可以看成是應(yīng)該采用全模型還是選模型去描述實(shí)際問題.下面我們不加證明的給出幾個結(jié)論,說明自變量的選擇對參數(shù)估計(jì)和對因變量預(yù)測的影響.(1) 模型正確而誤用選模型的情況.結(jié)論1:當(dāng)全模型正確時,選模型的回歸系數(shù)的最小二乘 估計(jì)是全模型相應(yīng)參數(shù)的有偏估計(jì),選模型的預(yù)測也有偏的.結(jié)論2:當(dāng)全模型正確時,選模型的參數(shù)估計(jì)和預(yù)測殘差以及均方誤差都有較小的方差.(2)選模型正確而誤用全模型的情況.如果選模型正確,怎其參數(shù)估計(jì)和預(yù)測值都是無偏的,此時全模型的參數(shù)估計(jì)和預(yù)測都是有偏估計(jì).而且,全模型的預(yù)測值的方差和均方差都要大于選模型的相應(yīng)方差.以上結(jié)論的證明參見近代回歸分析(陳希孺等,1987).上

32、述結(jié)論告訴我們,建立回歸方程時,丟掉那些對因變量影響不大,或雖有影響,但難于觀測的自變量是有利的.1.2.5.2自變量的選擇準(zhǔn)則若在一個回歸問題中有個變量可供選擇,那么我們可以建立個不同的一元線性回歸方程,個不同的二元線性回歸方程,個元線性回歸方程,所有可能的回歸方程共有個,前面提到的多元線性回歸中選變量也即選模型,即從這個回歸方程中選取“最優(yōu)”的一個,為此就需要有選擇的準(zhǔn)則.下面從不同的角度給出選擇的準(zhǔn)則.從擬合角度考慮,可以采用修正的復(fù)相關(guān)系數(shù)達(dá)到最大的準(zhǔn)則.準(zhǔn)則1 修正的復(fù)相關(guān)系數(shù)達(dá)到最大.與這個準(zhǔn)則等價(jià)的準(zhǔn)則是:均方殘差MSE達(dá)到最小,因?yàn)閺倪@個關(guān)系式容易看出,達(dá)到最大時MSE達(dá)到最小

33、.從預(yù)測角度考慮,可以采用預(yù)測平方和達(dá)到最小的準(zhǔn)則以及準(zhǔn)則.準(zhǔn)則2 預(yù)測平方和達(dá)到最小.預(yù)測平方和(Prediction Sum of Squares)準(zhǔn)則的基本思想是:對于給定的某個自變量,在樣本數(shù)據(jù)中刪除第組觀測值后利用這個自變量和的其余組觀測值建立線性回歸方程,并利用所得的回歸方程對做預(yù)測,若記此預(yù)測值為,則預(yù)測誤差為依次取,則得到個預(yù)測誤差.如果包含這個自變量的回歸模型預(yù)測效果較好,則所有的誤差平方和達(dá)到或接近最小.即選取使得 (4.35)達(dá)到或接近最小的回歸方程作為最優(yōu)回歸方程.準(zhǔn)則3(準(zhǔn)則) 定義統(tǒng)計(jì)量為 (4.36)其中是包含個自變量的回歸方程的殘差平方和, 表示含有所有個自變量

34、的回歸方程的均方殘差. 準(zhǔn)則要求選擇值小,且 小的回歸方程.從極大似然估計(jì)的角度考慮,可以采用赤池信息量準(zhǔn)則(AIC準(zhǔn)則).準(zhǔn)則4(AIC準(zhǔn)則) 赤池信息量達(dá)到最小.這個準(zhǔn)則由日本統(tǒng)計(jì)學(xué)家赤池(Akaike)提出,人們稱它為Akaike Imformation Criterion,簡稱為AIC.AIC準(zhǔn)則通常定義為 (4.37)其中表示模型的對數(shù)似然函數(shù)的極大值,表示模型中獨(dú)立的參數(shù)的個數(shù).在實(shí)用中,也經(jīng)常用下式計(jì)算赤池信息量 (4.38)選擇AIC值最小的回歸方程為最優(yōu)回歸方程.1.2.5.3 逐步回歸 當(dāng)自變量的個數(shù)不多時,利用某種準(zhǔn)則,從所有可能的回歸模型中尋找最優(yōu)回歸方程是可行的.但若

35、自變量的數(shù)目較多時,求出所有的回歸方程式很不容易的.為此,人們提出了一些較為簡便實(shí)用的快速選擇最優(yōu)方程的方法,下面我們簡單的介紹一下“前進(jìn)法”和“后退法”,再詳細(xì)介紹“逐步回歸法”.1. 前進(jìn)法和后退法前進(jìn)法的思想是這樣的:設(shè)所考慮的回歸問題中,對因變量有影響的自變共有個,首先將這個自變量分別與建立個一元線性回歸方程,并分別計(jì)算出這個一元回歸方程的偏檢驗(yàn)值,記為,若其中偏值最大者(為方便敘述起見,不妨設(shè)為)所對應(yīng)的一元線性回歸方程都不能通過顯著性檢驗(yàn),則可以認(rèn)為這些自變量不能與建立線性回歸方程;若該一元方程通過了顯著性檢驗(yàn),則首先將變量引入回歸方程;接下來由與以及其他自變量建立個二元線性回歸方程對這個二元回歸方程中的的回歸系數(shù)做偏檢驗(yàn),檢驗(yàn)值記為,若其中最大者(不妨設(shè)為)通過了顯著性檢驗(yàn),則又將變量引入回歸方程,依此方法繼續(xù)下去,直到所有未被引入方程的自變量的偏值都小于顯著性檢驗(yàn)的臨界值,即再也沒有自變量能夠引入 回歸方程為止.得到的回歸方程就是最終確定的方程.后退法與前進(jìn)法相反,首先用個自變量與建立一個回歸方程,然后在這個方程中剔除一個最不重要的自變量,接著又利用剩下的個自變量與建立線性回歸方程,再剔除一個最不重要的自變量,依次進(jìn)行下

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論