《自變量的選擇》PPT課件.ppt_第1頁
《自變量的選擇》PPT課件.ppt_第2頁
《自變量的選擇》PPT課件.ppt_第3頁
《自變量的選擇》PPT課件.ppt_第4頁
《自變量的選擇》PPT課件.ppt_第5頁
已閱讀5頁,還剩51頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

自變量的選擇,回歸方程中的變量過多,會使資料的搜集、系統(tǒng)的運作及模型的解釋都會遇到困難,如何將模型精簡而又能有很好的解釋能力是回歸分析面對的重要問題。,自變量的選擇,為分析自變量選擇失當而出現(xiàn)的后果,我們首先舉一例分析。例如,分析通貨膨脹時,我們考慮失業(yè)率與預(yù)期通貨膨脹率是影響通貨膨脹的主要因素,若其正確的模型形式是二元線性回歸模型,即:,其中,Y表示通貨膨脹率(%); X1表示失業(yè)率(%); X2表示預(yù)期通貨膨脹率(%)。 統(tǒng)計資料估計的回歸模型,計算機輸出結(jié)果如下,自變量的選擇,(一)確定自變量的原則 原則: 準則:有效性,獨立性,邊際貢獻 (二)確定自變量的步驟 (三)自變量篩選的方法,1. 所有回歸式的比較選取法 ( R2最大,MSE最?。?2. 分步回歸法 包括 (1)向前選取法 (2)向后選取法 (3)逐步選取法,(1)向前法,是選取進入模型的解釋變量越選越多,每一步都是選取剩余解釋能力最強的一個變量進入模型,但其解釋能力必須要通過事前定好的門檻(如 顯著性水平為0.05)。 第一步,開始時模式中沒有任何變量,接著第一步在所有變量中選取對Y最有解釋能力的進入模型,其選取方式是找F值最大的。 第二步,選取除了上面進入模型的X之外的剩余變量中偏F最大,且通過門檻者。,如:,(2)向后選取法 與向前選取法相反,在一開始時是所有變量都放在模型中,然后再將解釋能力差的變量一一去掉,直到所有放在模型中的變量其偏F 值都大于預(yù)設(shè)的門檻。 第一步,先計算所有偏F值,去掉最小且小于門檻值的變量。,(3)逐步選取法 是結(jié)合向前和向后選取法而成的。 開始時一向前選取法進入一個變量,而后每當選入一個新變量后,就利用向后法試試看在模型中已存在的變量有無偏F值小于門檻的變量,若有,則將其排除之外,接著再進行向前選取,若無,則繼續(xù)向前選取,這樣向前向后選取法輪流使用,直到?jīng)]有變量可進來,也沒有變量會被去除。,自變量選擇中最常見的問題,-存在共線性時的處理方法,引起解釋變量共線性的原因,對多重共線性本質(zhì)的認識,至少可從以下幾方面理解: 由變量之間的性質(zhì)引起的。 這時,不管數(shù)據(jù)以什么形式取得,數(shù)據(jù)取樣是大是小,都會出現(xiàn)X2與X1高度相關(guān),數(shù)據(jù)問題引起的(多重共線數(shù)據(jù)點) 指即使使總體諸解釋變量沒有線性關(guān)系,但在具體樣本中仍可能有線性關(guān)系。 情況一:當樣本容量很小時。 情況二:若建模所用的解釋變量是時序變量,引起解釋變量共線性的原因,總量變量相關(guān),增量之間、人均量之間無關(guān)。,引起解釋變量共線性的原因,逐步分析估計檢驗法 這種方法首先計算因變量對每個解釋變量的回歸方程,得到基本回歸方程。再根據(jù)理論上、邏輯上的分析,參考其他先驗信息以及統(tǒng)計檢驗的結(jié)果來分析這些基本回歸方程,從中選出最合理的基本回歸方程。然后在這個選定的基本回歸方程中增加新的解釋變量,并根據(jù)統(tǒng)計分析作如下分類判。,(1)如果新加入的解釋變量改進了R2,且每個系數(shù)又是統(tǒng)計上顯著的,那么就認為這個新變量是有用的,應(yīng)該保留。 (2)如果新加入的解釋變量未能改進R2,對其他系數(shù)值也沒有影響,則認為新變量是多余的,應(yīng)予以舍棄。 (3)如果新加入的解釋變量不僅改變了R2的值,而且同時也顯著地影響其他系數(shù)的符號或大小,以至于使某些系數(shù)達到不能接受的程度,那么,可以斷言產(chǎn)生了嚴重的多重共線性。這個新的解釋變量也可能是重要的,但由于它與其他解釋變量之間存在線性相關(guān)關(guān)系,普通最小二乘法失效。需要特別注意的是,這時不能盲目略去這類變量,否則,可能造成擾動項與解釋變量相關(guān)。,1.從變量上思考引出的去除不重要解釋變量的方法。 去掉不重要的解釋變量雖然可以削弱共線性,卻容易導(dǎo)致模型設(shè)定誤差,因此有時會出現(xiàn)兩難選擇: 若共線性存在,不能有效地估計模型中的參數(shù),若去掉有關(guān)解釋變量,又會錯誤地估計參數(shù)的真實數(shù)值。,解決共線性的方法,直接合并解釋變量 當模型中存在多重共線性時,在不失去實際意義的前提下,可以把有關(guān)的解釋變量直接合并,從而降低或消除多重共線性。 如果研究的目的是預(yù)測全國貨運量,那么可以把重工業(yè)總產(chǎn)值和輕工業(yè)總產(chǎn)值合并為工業(yè)總產(chǎn)值,從而使模型中的解釋變量個數(shù)減少到兩個以消除多重共線性。甚至還可以與農(nóng)業(yè)總產(chǎn)值合并,變?yōu)楣まr(nóng)業(yè)總產(chǎn)值。解釋變量變成了一個,自然消除了多重共線性。,解決共線性方法,2.從模型形式上思考引出的變量轉(zhuǎn)換法。 變量轉(zhuǎn)換的主要形式有如下兩種: (1)差分形式,但這種變換也會出現(xiàn)新的問題:第一,即使上式中的隨機擾動項不存在序列相關(guān),差分后的隨機擾動項也可能存在序列相關(guān)。第二,差分變換導(dǎo)致丟失一個觀測值,在小樣本情況下,就不能不考慮自由度損失問題,另外還需要注意,差分變換不適用于截面數(shù)據(jù)。,解決共線性方法,2.從模型形式上思考引出的變量轉(zhuǎn)換法。 變量轉(zhuǎn)換的主要形式有如下兩種: (2),解決共線性方法,2.從模型形式上思考引出的變量轉(zhuǎn)換法。 變量轉(zhuǎn)換的主要形式有如下兩種: (2)變量比形式,這種方法適用于截面數(shù)據(jù),但經(jīng)過這種變換后將無法研究lnP和lnPW各自的變化對被解釋變量lny 的影響,而且要保證所構(gòu)造的變量比具有明確的經(jīng)濟意義,否則不能進行變量比變換。,解決共線性方法,3.從先驗信息上思考引出的約束法。,采取約束法的關(guān)鍵是先驗信息如何獲取。通常可依據(jù)經(jīng)濟理論和實際分析獲得,當然也可以提出約束,并進行約束檢驗,當約束檢驗通過后再采用約束法。,解決共線性方法,4.從數(shù)據(jù)上思考引出的板塊數(shù)據(jù)法、增加樣本容量法和剔除影響點法 板塊數(shù)據(jù)法就是把截面數(shù)據(jù)與時序數(shù)據(jù)結(jié)合起來的方法。 采用這種方法隱含著一個假定,即從截面數(shù)據(jù)中估計的參數(shù)與從時序數(shù)據(jù)中估計的參數(shù)是相等的,因此它僅適用于從一個截面到另一個截面數(shù)據(jù)、估計值相對穩(wěn)定的情況。 剔除多重共線性的影響點法是指經(jīng)過診斷后假定樣本點為影響點,從原樣本中剔除第i個樣本點,可以減輕共線性程度。 這種方法的問題是診斷出的這個樣本點是否應(yīng)該剔除,這里需特別指出的是,當沒有真正弄清楚樣本點形成機制之前,不能輕易剔除,因為影響點的形成可能是隨機因素,也可能是經(jīng)濟機制變化,當后者發(fā)生時,無論影響點的剔除對減輕多重共線性的作用有多大,也不能剔除。,合并截面數(shù)據(jù)與時間序列數(shù)據(jù) 這種方法屬于約束最小二乘法(RLS)。其基本思想是,先由截面數(shù)據(jù)求出一個或多個回歸系數(shù)的估計值,再把它們代入原模型中,通過用因變量與上述估計值所對應(yīng)的解釋變量相減從而得到新的因變量,然后建立新因變量對那些保留解釋變量的回歸模型,并利用時間序列樣本估計回歸系數(shù)。,由于把估計過程分作兩步,從而避免了多重共線性問題。顯然這種估計方法默認了一種假設(shè),即相對于時間序列數(shù)據(jù)各個時期截面數(shù)據(jù)所對應(yīng)的收入彈性系數(shù)估計值都與第一步求到的 相同。當這種假設(shè)不成立時,這種估計方法會帶來估計誤差。,解決共線性方法,4.從數(shù)據(jù)上思考引出的板塊數(shù)據(jù)法、增加樣本容量法和剔除影響點法 板塊數(shù)據(jù)法就是把截面數(shù)據(jù)與時序數(shù)據(jù)結(jié)合起來的方法。 采用這種方法隱含著一個假定,即從截面數(shù)據(jù)中估計的參數(shù)與從時序數(shù)據(jù)中估計的參數(shù)是相等的,因此它僅適用于從一個截面到另一個截面數(shù)據(jù)、估計值相對穩(wěn)定的情況。 剔除多重共線性的影響點法是指經(jīng)過診斷后假定樣本點為影響點,從原樣本中剔除第i個樣本點,可以減輕共線性程度。 這種方法的問題是診斷出的這個樣本點是否應(yīng)該剔除,這里需特別指出的是,當沒有真正弄清楚樣本點形成機制之前,不能輕易剔除,因為影響點的形成可能是隨機因素,也可能是經(jīng)濟機制變化,當后者發(fā)生時,無論影響點的剔除對減輕多重共線性的作用有多大,也不能剔除。,解決共線性方法,5.從估計方法上思考引出的估計量 如有偏估計 所謂有偏估計法是指參數(shù)估計量是有偏的,但估計量的均方誤差比采取OLS法估計的無偏估計量的均方誤差小,即以偏誤為代價來提高估計量的準確性。,主成分回歸分析,1993年由Hotelling提出了主成分分析的方法,之后W.F.Massy于1965年根據(jù)主成分分析的思想提出了主成分回歸。如今主成分回歸方法已經(jīng)被廣泛采用,成為回歸分析中較有影響的估計方法。,主成分分析的核心思想就是通過降維,把多個指標化為少數(shù)幾個綜合指標,而盡量不改變指標體系對因變量的解釋程度。 主成分的提取分5個步驟:,1、為了使結(jié)果不受量綱的影響,先把原始數(shù)據(jù)進行標準化。 2、求出標準化數(shù)據(jù)的相關(guān)系數(shù)矩陣、協(xié)方差。 3、導(dǎo)出相關(guān)系數(shù)矩陣的特征值和特征向量。 4、最大的特征值對應(yīng)的特征向量即為第一主成分的系數(shù),第二大的特征值對應(yīng)的特征向量即為第二主成分的系數(shù),以此類推。取幾個主成分取決于主成分對因變量的解釋程度。如果前i個特征值之和與所有特征值之和的比達到一定的程度比如80%時,就可以認為這些主成分就能代替所有的自變量體系。 5、用主成分對因變量進行普通最小二乘法即可得出各個主成分對因變量的解釋程度。,可以看出,主成分回歸分析解決多重共線性問題是通過求特征值和特征向量達到降維來實現(xiàn)的,因為在降維前,指標之間的多重共線性可能是由于某個指標或者少數(shù)指標所包含的信息與其他指標所包含的信息之間的相關(guān)性引起的,通過降維的處理我們提取了主成分,就像是把指標體系所包含的信息分了類,某一大類由一個主成分來表現(xiàn),這樣就消除了產(chǎn)生多重共線性問題的根源信息的交迭。,主成分回歸分析雖然比較好地解決了多重共線性問題,但仍存在很多不足之處,比如:主成分的實際含義不明確,主成分與因變量之間的關(guān)系不很直接,估計出的參數(shù)是有偏的等等。,使用SPSS中Stepwise回歸分析,直接使用 SPSS 系統(tǒng)給定的逐步回歸法進行回歸分析,有時難以得到所需要的分析結(jié)果,因為系統(tǒng)給出的最終結(jié)果僅是一個滿足統(tǒng)計學檢驗的結(jié)果,該結(jié)果不一定滿足實際問題的需要。,為分析影響服務(wù)業(yè)發(fā)展的因素, 引入如下指標: 用第三產(chǎn)業(yè)產(chǎn)值占 GDP 的比重作為反映服務(wù)業(yè)發(fā)展水平的指標(y, 單位: %); 1.城鄉(xiāng)居民收入水平指標 (x1, 單位元); 2.城市化水平的指標(x2, 單位: %); 3.人口密度(x3, 單位: 人/每平方公里); 4.居民年消費水平(x4, 單位: 元); 5.食品消費所占比重 (x5, 單位: %); 6.個體私營經(jīng)濟從業(yè)人員占社會從業(yè)員的比重 (x6, 單位: %); 7. 實際外商直接投資在全社會固定資產(chǎn)投資中所占比例 (x7, 單位: %)。,為解決由自變量之間的相關(guān)性導(dǎo)致的多重共線性, 在Method 一欄中選擇 stepwise 進行回歸分析, 得到如下方程: y= - 22.699 + 0.01063x1+0.06917x3- 0.00913x4 (- 2.353) (2.953) (5.145) (- 2.322) R2=0.956, F=168.813 在顯著水平為 0.05 時, 估計方程及其所有估計系數(shù)都通過檢驗。然而我們進一步分析發(fā)現(xiàn), x4 在這里表示的是居民年消費水平, 其系數(shù)為負, 表示 x4 每增加一個單位, y 將減少 0.00913 個單位, 從經(jīng)濟學意義上來說, 這是不合理的, 因此, 不能作為分析的最終結(jié)果。,本例表明, 直接用 SPSS 系統(tǒng)內(nèi)部給出的 stepwise 進行回歸分析有時難以得到我們所需要的結(jié)果。如何才能得到所需要的估計方程呢?,首先分別求 y 與 x1x7 的回歸方程, 得到 7 個基本方 程: y = 26.2 + 0.003063x1 y = - 196.572 + 4.131x2 (31.643) (14.111) (- 9.537) (11.25) R2=0.904 F=199.118 R2=0.857 F=126.559 y = - 106.704 + 0.191x3 y = 26.116 + 0.003348x4 (- 3.913) (5.208) (29.43) (13.205) R2=0.554 F=27.122 R2=0.892 F=174.365 y = 51.505 - 0.332x5 y = 27.41 + 2.323x6 (5.144) (- 1.652) (28.789) (11.184) R2=0.076 F=2.73 R2=0.855 F=125.072 y = 27.891 + 0.438x7 (29.794) (10.992) R2=0.851 F=120.819,在上述 7 個基本方程中, 除了(5) 式中 x5 的系數(shù)是負數(shù)外, 其余方程的變量的系數(shù)都是正數(shù), 從經(jīng)濟學意義上來說這是合理的。由 7 個基本方程和經(jīng)濟理論可知, x1( 城鄉(xiāng)居民收入水平) 是最重要的變量, 因此選擇(1) 式為最初的回歸方程, 然后按照 R2 從大到小的順序每次引入一個變量逐步引入其他變量。每次引入的變量是否保留在方程中要從兩方面進行分析 ,一是從經(jīng)濟學意義上分析 ,一是從統(tǒng)計學意義上分析。從經(jīng)濟學意義上分析 ,主要要求引入新變量后重新估計的方程各系數(shù)的符號從經(jīng)濟學意義上來說是合理的; 從統(tǒng)計學意義上分析 ,應(yīng)按下述原則判斷:,1、如果新加進去的解釋變量改進了 R2, 并且其他回歸系數(shù)在統(tǒng)計上仍是顯著的 ,則可以保留此變量; 2、如果新加進去的解釋變量未能改進 R2, 其他回歸系數(shù)也沒有影響, 則不加入此變量; 3、如果新加入的解釋變量不僅改變了 R2, 而且影響到其他變量的回歸系數(shù)的符號或數(shù)值 ,致使某些回歸系數(shù)達到不能接受的地步 ,則用新加入的變量分別替代它所影響的變量估計方程 ,從中選擇估計效果最好的一個方程。,首先選擇(1) 式為最初的回歸方程 ,在(1)式 中引入變量 x4, 得新方程 y = 26.661 + 0.01242x1 - 0.0103x4 (32.92) (2.596) (- 1.958) R2 = 0.916, F = 115.582 由于式 中 x4 的系數(shù)為負 ,從經(jīng)濟學意義上說是不合理的。因此, 按上述原則, 不應(yīng)該引入變量 x4。 在(1)式 中引入下一個變量 x2 y = -7 1.454 + 0.001923x1 + 1.8x2 (-2 .702) (5.46) (3.694) R2 = 0.941, F = 169.339 由于引入 x2 改變了 R2 ,同時不影響 x1 的顯著性 ,而且 x2 也是顯著的。按上述原則 ,應(yīng)該引入變量 x2。 在式 中引入變量 x6,y = - 68.285 + 0.00341x1 + 1.734x2 1.138x6 (-2 .624) (2.921) (3. 611) (-1 .333) R2=0.944, F=118.103 由于 x6 表示個體私營經(jīng)濟從業(yè)人員占社會從業(yè)員

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論