多重共線性和非線性回歸及解決方法_第1頁
多重共線性和非線性回歸及解決方法_第2頁
多重共線性和非線性回歸及解決方法_第3頁
多重共線性和非線性回歸及解決方法_第4頁
多重共線性和非線性回歸及解決方法_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

多重共線性和非線性回歸的問題(1)多重共線性問題我們都知道在進行多元回歸的時候,特別是進行經(jīng)濟上指標回歸的時候,彳艮多變量存在共同趨勢相關(guān)性,讓我們得不到希望的回歸模型。這里經(jīng)常用到的有三種方法,而不同的方法有不同的目的,我們分別來看看:第一個,是最熟悉也是最方便的一一逐步回歸法。逐步回歸法是根據(jù)自變量與因變量相關(guān)性的大小,將自變量一個一個選入方法中,并且每選入一個自變量都進行一次檢驗。最終留在模型里的自變量是對因變量有最大顯著性的,而剔除的自變量是與因變量無顯著線性相關(guān)性的,以及與其他自變量存在共線性的。用逐步回歸法做的多元回歸分析,通常自變量不宜太多,一般十幾個以下,而且你的數(shù)據(jù)量要是變量個數(shù)3倍以上才可以,不然做出來的回歸模型誤差較大。比如說你有10個變量,數(shù)據(jù)只有15組,然后做擬合回歸,得到9個自變量的系數(shù),雖然可以得到,但是精度不高。這個方法我們不僅可以找到對因變量影響顯著的幾個自變量,還可以得到一個精確的預(yù)測模型,進行預(yù)測,這個非常重要的。而往往通過逐步回歸只能得到幾個自變量進入方程中,有時甚至只有一兩個,令我們非常失望,這是因為自變量很多都存在共線性,被剔除了,這時可以通過第二個方法來做回歸。第二個,通過因子分析(或主成分分析)再進行回歸。這種方法用的也很多,而且可以很好的解決自變量間的多重共線性。首先通過因子分析將幾個存在共線性的自變量合為一個因子,再用因子分析得到的幾個因子和因變量做回歸分析,這里的因子之間沒有顯著的線性相關(guān)性,根本談不上共線性的問題。通過這種方法可以得到哪個因子對因變量存在顯著的相關(guān)性,哪個因子沒有顯著的相關(guān)性,再從因子中的變量對因子的載荷來看,得知哪個變量對因變量的影響大小關(guān)系。而這個方法只能得到這些信息,第一它不是得到一個精確的,可以預(yù)測的回歸模型;第二這種方法不知道有顯著影響的因子中每個變量是不是都對因變量有顯著的影響,比如說因子分析得到三個因子,用這三個因子和因變量做回歸分析,得到第一和第二個因子對因變量有顯著的影響,而在第一個因子中有4個變量組成,第二個因子有3個變量組成,這里就不知道這7個變量是否都對因變量存在顯著的影響;第三它不能得到每個變量對因變量準確的影響大小關(guān)系,而我們可以通過逐步回歸法直觀的看到自變量前面的系數(shù)大小,從而判斷自變量對因變量影響的大小。第三個,嶺回歸。通過逐步回歸時,我們可能得到幾個自變量進入方程中,但是有時會出現(xiàn)自變量影響的方向出現(xiàn)錯誤,比如第一產(chǎn)業(yè)的產(chǎn)值對國民收入是正效應(yīng),而可能方程中的系數(shù)為負的,這種肯定是由于共線性導(dǎo)致出現(xiàn)了擬合失真的結(jié)果,而這樣的結(jié)果我們只能通過自己的經(jīng)驗去判斷。通常我們在做影響因素判斷的時候,不僅希望得到各個因素對因變量真實的影響關(guān)系,還希望知道準確的影響大小,就是每個自變量系數(shù)的大小,這個時候,我們就可以通過嶺回歸的方法。嶺回歸是在自變量信息矩陣的主對角線元素上人為地加入一個非負因子k,從而使回歸系數(shù)的估計稍有偏差、而估計的穩(wěn)定性卻可能明顯提高的一種回歸分析方法,它是最小二乘法的一種補充,嶺回歸可以修復(fù)病態(tài)矩陣,達到較好的效果。在SPSS中沒有提供嶺回歸的模塊,可以直接點擊使用,只能通過編程來實現(xiàn),當然在SAS、Matlab中也可以實現(xiàn)。做嶺回歸的時候,需要進行多次調(diào)試,選擇適當?shù)膋值,才能得到比較滿意的方程,現(xiàn)在這個方法應(yīng)用越來越普遍。在07年的時候,我的一個老師還覺得這個方法是他的看家本領(lǐng),但是現(xiàn)在很多人都會這個方法,而且用的越來越多了,得到的結(jié)果也非常合理。特別提醒的是:多重共線性說的是變量之間線性關(guān)系,和非線性不要混淆了。多組變量之間兩種極端的關(guān)系是完全多重共線性關(guān)系和完全非線性關(guān)系,即完全是平行直線的關(guān)系和完全無規(guī)則的曲線關(guān)系(是什么形狀,還真不好形容,自己悟去吧"_")。當然解決多重共線性問題的方法還有,比如差分微分模型,應(yīng)用的很少,我估計是非常專業(yè)的人才會用的吧,呵呵,反正我不會這個方法。接下來說說非線性回歸。(2)非線性回歸的問題。非線性回歸,顧名思義自變量和因變量是非線性的關(guān)系,比如平方、次方等等,但是大多數(shù)的非線性方程都可以轉(zhuǎn)換成線性的方程,比如我們通常知道的二次函數(shù):y=a0+a1*x+a2*x”2,這里就可以轉(zhuǎn)換成線性方程,首先將x"2計算得到x1,方程就變成y=a0+a1*x+a2*x1,而這個方程就是我們一般見到的多元線性回歸,直接進行線性擬合就可以了。這里需要特別提醒的是:我說的可以轉(zhuǎn)換成線性的非線性方程,是一元非線性方程,而不是多元非線性方程。我們知道在SPSS回歸分析中有單獨一個模塊叫曲線估計,它里面提供的11個非線性模型都是可以轉(zhuǎn)換成線性模型的,而且在進行系數(shù)擬合的時候都是通過轉(zhuǎn)換成線性方程進行擬合的,這就是為什么同樣是非線性方程,在曲線估計里面不需要輸入系數(shù)的初始值,而在非線性回歸中卻要輸入。將非線性方程轉(zhuǎn)換成線性方程再進行擬合,不是因為我們不會做非線性擬合,而改成線性擬合我就會做了,主要原因不是因為這個。而是因為同樣的非線性方程擬合比轉(zhuǎn)換成的線性方程擬合誤差更大一些,而且由于迭代次數(shù)的增多,計算時間會更長,由于我們平時計算的數(shù)據(jù)不是很多,這種感覺不是非常明顯,但是當我們做實際問題的時候,特別是規(guī)劃問題中,我們將非線性方程轉(zhuǎn)換成線性方程時,計算速度會明顯加快。還有一個原因是,做非線性回歸的時候,我們要在擬合之前設(shè)置初始值,而初始值的選擇直接影響后面系數(shù)的確定,你改變初始值,擬合出來的系數(shù)都會發(fā)生變化,這樣也會增加非線性回歸產(chǎn)生的誤差,前面說的誤差是計算上產(chǎn)生的誤差,而這里是人為經(jīng)驗上產(chǎn)生的誤差。因此在做非線性回歸時,如果能轉(zhuǎn)換成線性回歸,一定轉(zhuǎn)換成線性的來做。說到那個人,他在留言中說,這樣我沒有考慮到轉(zhuǎn)換之后自變量之間的多重共線性,不能這樣做,還聲嘶力竭的喊我誤人子弟。這里我要詳細說明是怎么回事,要不要考慮這里的多重共線的問題,如果他也能看到更好。一般我們做回歸分析的時候,通常第一步看自變量和因變量之間的散點圖,通過散點圖我們大致判斷兩者之間存在怎么的關(guān)系,再來選擇適當?shù)哪P?。而通常我們不知道具體選擇哪個模型,可以選擇幾個可能相似的模型比較一下,選擇一個擬合效果最好的。這里比如說兩個變量之間知道是非線性的,但是不知道是二次的、三次的還是四次及以上的關(guān)系(通常次方數(shù)越低越好),你可以同時考慮,然后根據(jù)擬合的結(jié)果來判斷。如將方程設(shè)置為:y=a0+a1*x+a2*x"2+a3*x"3+a4*x"4,轉(zhuǎn)換成線性方程就是:y=a0+a1*x+a2*x2+a3*x3+a4*x4,而這里需不需要考慮這四個自變量之間的共線性呢,上面說過,多重共線性指的是變量之間的線性關(guān)系,而這里的四個自變量他們是非線性的關(guān)系(x、x”2、x”3、x"4),即使他們的線性相關(guān)系數(shù)很高(這是因為二次或者三次曲線用直線擬合得到效果也不錯,但是我們知道他們之間的確是非線性的關(guān)系,而不是線性關(guān)系),因此,我們可以他們的多重共線性,在擬合的時候,選擇逐步回歸法,也可以不考慮,選擇直接進入法,兩者得到的結(jié)果幾乎一樣,我親自試驗了。如果得到的結(jié)果的確有四次方的關(guān)系,那么x4自變量就會通過檢驗,我們可以通過檢驗來判斷兩個變量到底存在什么樣的曲線關(guān)系。這樣還需要簡單說下多元非線性回歸,多元非線性回歸也可以進行轉(zhuǎn)換,但是轉(zhuǎn)換完之后就必須要考慮變量之間的多重共線性了,因為我們不能明確的知道轉(zhuǎn)換之后的自變量是否不存在線性的關(guān)系。上次有個人在百度里提問說,我有十幾個自變量,想做非線性回歸,我們一般不推薦這么多自變量做多元非線性回歸,除非你發(fā)現(xiàn)十幾個自變量都和因變量存在非線性的關(guān)系。因為多元非線性回歸計算非常復(fù)雜,迭代次數(shù)非常龐大,而得到的結(jié)果也不盡如人意。好了,這些都是根據(jù)我自己的理解和經(jīng)驗來寫的,如果一不小心被統(tǒng)計高手或者老師看到,如發(fā)現(xiàn)說的不對的地方,請一定要在下面指正出來,非常感謝。第4節(jié)回歸診斷方法檢驗所選模型中的各變量之間共線性(即某些自變量之間有線性關(guān)系)情況;根據(jù)模型推算出與自變量取各樣本值時對應(yīng)的因變量的估計值y\反過來檢驗所測得的Y是否可靠,脹是回歸診斷的2項-第4節(jié)回歸診斷方法檢驗所選模型中的各變量之間共線性(即某些自變量之間有線性關(guān)系)情況;根據(jù)模型推算出與自變量取各樣本值時對應(yīng)的因變量的估計值y\反過來檢驗所測得的Y是否可靠,脹是回歸診斷的2項主要任務(wù)。下面就SAS系統(tǒng)的REG過程運行后不同輸出結(jié)果,僅從回歸診斷方面理解和分析說明如下:用條件數(shù)和方差分量來進行共線性診斷各入選變量的共線性診斷借助SAS的MODEL語句的選擇項COLLIN或COLLINOINT來完成。二者都給出信息矩陣的特征根和條件數(shù)(ConditionNumber),還給出各變量的方差在各主成分上的分解(Decomposition),以百分數(shù)的形式給出,每個入選變量上的方差分量之和為1。COLLIN和COLLINOINT的區(qū)別在于后者對模型中截距項作了校正。當截距項無顯著性時,看由COLLIN輸出的結(jié)果;反之,應(yīng)看由COLLINOINT輸出的結(jié)果。(1)條件數(shù)先求出信息矩陣棧X'X柴的各特征根,條件指數(shù)(conditionindices)定義為:最大特征根與每個特征根比值的平根,其中最大條件指數(shù)k稱為矩陣棧X'X柴的條件數(shù)。條件數(shù)大,說明設(shè)計矩陣有較強的共線性,使結(jié)果不穩(wěn)定,甚至使離開試驗點的各估計值或預(yù)測值毫無意義。直觀上,條件數(shù)度量了信息矩陣X'X的特征根散布程度,可用來判斷多重共線性是否存在以及多重共線性嚴重程度。在應(yīng)用經(jīng)驗中,若0〈k〈10,則認為沒有多重共線性;10WkW30,則認為存在中等程度或較強的多重共線性;k>30,則認為存在嚴重的多重共線性。(2)方差分量強的多重共線性同時還會表現(xiàn)在變量的方差分量上:對大的條件數(shù)同時有2個以上變量的方差分量超過50%,就意味這些變量間有一定程度的相關(guān)。用方差膨脹因子來進行共線性診斷容許度(Tolerance,在Model語句中的選擇項為TOL)對一個入選變量而言,該統(tǒng)計量等于1-R2,這里R2是把該自變量當作因變量對模型中所有其余回歸變量的決定系數(shù),R2大(趨于1),則1-R2=TOL小(趨于0),容許度差,該變量不由其他變量說明的部分相對很小。方差膨脹因子(VIF)VIF=1/TOL,該統(tǒng)計量有人譯為“方差膨脹因子”(VarianceInflationFactor),對于不好的試驗設(shè)計,VIF的取值可能趨于無限大。VIF達到什么數(shù)值就可認為自變量間存在共線性?尚無正規(guī)的臨界值。[陳希孺、王松桂,1987]根據(jù)經(jīng)驗得出:VIF>5或10時,就有嚴重的多重共線性存在。用學(xué)生化殘差對觀測點中的強影響點進行診斷對因變量的預(yù)測值影響特別大,甚至容易導(dǎo)致相反結(jié)論的觀測點,被稱為強影響點(InfluenceCase)或稱為異常點(Outlier)。有若干個統(tǒng)計量(如:Cook'D統(tǒng)計量、hi統(tǒng)計量、STUDENT統(tǒng)計量、RSTUDENT統(tǒng)計量等,這些統(tǒng)計量的定義參見本章第6節(jié))可用于診斷哪些點對因變量的預(yù)測值影響大,其中最便于判斷的是學(xué)生化殘差STUDENT統(tǒng)計量。當該統(tǒng)計量的值大于2時,所對應(yīng)的觀測點可能是異常點,此時,需認真核對原始數(shù)據(jù)。若屬抄寫或輸入數(shù)據(jù)時人為造成的錯誤,應(yīng)當予以糾正;若屬非過失誤差所致,可將異常點剔除后再作回歸分析。如果有可能,最好在此點上補做試驗,以便進一步確認可疑的“異常點”是否確屬異常點。第5節(jié)用各種篩選變量方法編程的技巧從本章第3節(jié)可知,有多種篩選變量的方法,這些方法中究竟哪一種最好?沒有肯定的答復(fù)。最為可行的做法是對同一批資料多用幾種篩選變量的方法,并結(jié)合專業(yè)知識從中選出相對優(yōu)化的回歸模型。判斷一個回歸模型是否較優(yōu),可從以下兩個方面考慮:其一,整個回歸模型及模型中各回歸參數(shù)在統(tǒng)計學(xué)上有顯著性意義、在專業(yè)上(特別是因變量的預(yù)測值及回歸方程的精度)有實際意義;其二,在包含相同或相近信息的前提下,回歸方程中所包含的變量越少越好。下面利用一個小樣本資料,通過一個較復(fù)雜的SAS程序,展示如何用各種篩選變量的方法實現(xiàn)回歸分析、如何用已求得的回歸方程對資料作進一步的分析的技巧。[例4.2.3]a-甲酰門冬酰苯丙氨酸甲酯(FAPM)是合成APM的關(guān)鍵中間體之一。試驗表明,影響FAPM收率的主要因素有:原料配比(r)、溶劑用量(pl)、催化劑用量(p2)及反應(yīng)時間(t)等4個因素,現(xiàn)將各因素及其具體水平的取值列在下面。影響FAPM合成收率的因素和水平:因素各水平的代碼1234567r原料配比0.800.870.941.011.081.151.22p1溶劑用量(ml)10152025303540p2催化劑用量(g)1.01.52.02.53.03.54.0t反應(yīng)時間(h)1234567研究者按某種試驗設(shè)計方法選定的因素各水平的組合及其試驗結(jié)果如下,試用回歸分析方法分析此資料(注:權(quán)重僅為相同試驗條件下重復(fù)實驗運行的次麴。編號rp1p2tY(收率,%)權(quán)重10.80152.0671.5320.87253.5571.2230.94351.5472.8341.01103.0369.7251.08201.0267.5361.15302.5167.3371.22404.0771.83[SAS程序]——[D4P17.PRG]OPTIONSPS=70;DATAex3;INPUTrplp2tyw;rp1=r*p1;rt=r*t;p1t=p1*t;r2=r*r;t2=t*t;p12=p1*p1;p22=p2*p2;*這里產(chǎn)生的7個新變量代表因素之間的交互作用;CARDS;0.80152.0671.530.87253.5571.220.94351.5472.831.01103.0369.721.08201.0267.531.15302.5167.331.22404.0771.83;RUN;PROCREG;*用下列模型語句選擇喝較回歸模型;MODELy=rr2plp12p2p22tt2rp1rtpit/SELECTION=FORWARD;*模型1用向前選擇法篩選變量;MODELy=rr2p1p12p2p22tt2rp1rtp1t/SELECTION=BACKWARD;*模型2用向后消去法篩選變量;MODELy=rr2p1p12p2p22tt2rp1rtp1t/SELECTION=STEPWISE;*模型3用逐步篩選法篩選變量;MODELy=rr2p1p12p2p22tt2rp1rtp1t/SELECTION=MAXRSTART=1STOP=5;*模型4用最大R2增量法篩選變量;MODELy=rr2p1p12p2p22tt2rp1rtp1t/SELECTION=MINRSTART=1STOP=5;*模型5用最小R2增量法篩選變量;MODELy=tt2p12rrp1/SELECTION=RSQUAREBEST=30STOP=5;*模型6用R2增量法篩選變量;MODELy=tt2p12rrp1/SELECTION=ADJRSQBEST=30STOP=5;*模型7用修正R2增量法篩選變量;MODELy=tt2p12rrp1/SELECTION=CPBEST=40STOP=5;*模型8用Cp統(tǒng)計量法篩選變量;RUN;*用選好的模型分析數(shù)據(jù),并給出關(guān)于模型的各種統(tǒng)計量(計權(quán)重);PROCREG;WEIGHTw;MODELy=rrp1p12t2/SELECTION=NONEPCLIINFLUENCESTBCOLLINCOLLINOINT;RUN;DATAb;*先將原始數(shù)據(jù)放入數(shù)據(jù)集b;SETex3END=EOF;OUTPUT;*再按照r,p1,t的合理范圍形成y為缺失的數(shù)據(jù)也放入數(shù)據(jù)集b;IFEOFTHENDO;y=.;DOr=0.8TO1.22BY.7;dop1=10to40BY5;DOt=1TO7;rp1=r*p1;rt=r*t;p1t=p1*t;r2=r*r;t2=t*t;p12=p1*p1;OUTPUT;END;END;END;END;RUN;*按原始數(shù)據(jù)回歸,卻可得到r、p1、t的新組合所對應(yīng)的估計值尸氣PROCREGDATA=b;WEIGHTw;MODELy=rrp1p12t2/PCLICLMCOLLINOINTSTBRVIF;OUTPUTOUT=d1PREDICTED=pdc;RUN;PROCPRINTDATA=d1;RUN;PROCSORTDATA=d1(KEEP=rp1tpdc);BYDESCENDINGpdc;RUN;DATAc;SETd1;FILEPRINT;TITLE'40bestcombinationsofrplt';IF_N_<=40THENPUT'r='r:4.2'p1='p1:2.0't='t:1.0'y='pdc:8.5;*對于各因素各水平取值區(qū)間的不同組合,求出估計值,列出其中40個收率較高的組合;RUN;[SAS程序修改指導(dǎo)]至于模型1?模型8等號右邊每次究竟應(yīng)該寫哪些自變量(含它們的交互作用項),基本上是在結(jié)合專業(yè)知識的基礎(chǔ)上憑經(jīng)驗進行摸索,一般需多次調(diào)試。若觀測點數(shù)n遠遠大于自變量的個數(shù)k時,可將全部自變量放入MODEL語句中,用不同的方法進行篩選;若nWk,有些方法最多只能用n—1個變量參入篩選。[說明]此程序的輸出結(jié)果太多,從略。第6節(jié)與回歸分析有關(guān)的重要統(tǒng)計術(shù)語和統(tǒng)計量的注解1.R-square(決定系數(shù)、復(fù)(全)相關(guān)系數(shù)平)(1)復(fù)相關(guān)系數(shù)為因變量的觀測值y與估計值成人)之間的簡單線性相關(guān)系數(shù)(2)決定系數(shù)其中,各入選變量總的回歸貢獻(即回歸離差平和)SSR可分別表示成下列①、②兩種形式:(即各回歸系數(shù)與Siy相乘再求和,其中。(即總離均差平和與總誤差平和之差)。2.校正的R2adj(AdjustedR-square)R2隨模型中的變量的增加而增加,且不會減小,模型中的變量太多可能因共線性而不穩(wěn)定,所以看一個模型好壞,不僅要看R2,而且還應(yīng)看R2adj,后者對自由度(也即變量數(shù))作了校正。3.Mallows'Cp統(tǒng)計量當從k個回歸變量中選出p個時,為鑒別模型好壞,可用Mallows'Cp統(tǒng)計量(一般認為,Cp近似等于P較好),它與總觀測數(shù)(n)、MODEL語句所考慮的總變量數(shù)(k)、運算中當前選入模型的變量數(shù)(p)、總的誤差平和(SSEk)、該模型的誤差平和(SSEp)有關(guān):此式中的第1項還可用下面兩種表達形式:①MSEp-(n-p-1)/MSEk:②SSEp/MSEkCp的定義公式中第1項的3種形式是等式變換,注意到下面兩個均方的定義,則不難看懂它們之間的關(guān)系。MSEp=SSEp/(n-p-1)、MSEk=SSEk/(n-k-1)。4.剩余或殘差(Residual)①普通殘差,RESIDi=ei=yi—yAi;學(xué)生化殘差Studentizedresidual,STUDENTi=ei/STDERR(ei);學(xué)生化剔除殘差Studentizeddeletedresidual,(有人稱為刀切法殘差Jackkniferesidual),RSTUDENT=ei/(S(i)*p),在MODEL語句中加上INFLUENCE后就會給出各點上RSTUDENT統(tǒng)計量的值,如果單用選擇項R,只給出普通殘差和STUDENT的計算結(jié)果。預(yù)測平和,Press=Eni=1[ei/(l-hi)]2,它度量了全模型的優(yōu)劣。,這是第i個觀測點上因變量總體均數(shù)估計值u\的標準誤差;,這是y\的標準誤差;,估計因變量在第i個觀測點上總體均數(shù)的置信區(qū)間;,估計因變量在第i個觀測點上個體值的容許區(qū)間;以下是SAS中診斷強影響點時用到的幾個統(tǒng)計量:leverage(在回歸診斷中起“杠桿”作用的量)——或者說是H矩陣主對角線上的第i個元素,,稱為HatMatrix(即帽子矩陣)。hi是第i次觀測自變量各取值在模型中作用的量度,0WhiW1,如果hi大,則第i次觀測在模型中的作用大。COOK'SD(庫克距離)統(tǒng)計量對某一觀測引起的影響(INFLUENCE)的度量,通過計算此觀測在模型中和不在模型中引起COOK'SD統(tǒng)計量的變化來衡量。[約瀚?內(nèi)特等,1990]認為:COOK'SD>50%時,就可以認為第i個觀測點對回歸函數(shù)的擬合有強的影響。COOK'S其中k為模型中參數(shù)個數(shù)(包括截距),STUDENT意義與上述的“4”中相同。TOC\o"1-5"\h\z,這是去掉第i個觀測點后求得的協(xié)方差矩陣的行列式之值,Belsley,Kuh,andWelsch等人建議:若ICOVRATIO—1IN3(p+i),則第i個觀測點值得引起注意。,此值大于2,表明第i個點影響較大。,此值大于2,表明第i個點影響較大。其中為矩陣的第j行第j列上的元素。以上各式中的有關(guān)符號的含義說明如下:S2為回歸模型的均方誤差,即;STDERR(ei)為殘差ei之標準誤差,;S(i)為除掉第i個觀測點后算得的殘差ei之標準誤差;n為總觀測數(shù);p為選入模型中的變量數(shù);模型中包括截距時i取為1、模型中不包括截距時i取為0;det()代表求矩陣()的行列式之值。什么是主成分分析(principalcomponentanalysis)?對同一個體進行多項觀察時,必定涉及多個隨機變量X1,X2,…,Xp,它們都是的相關(guān)性,一時難以綜合。這時就需要借助主成分分析(principalcomponentanalysis)來概括諸多信息的主要方面。我們希望有一個或幾個較好的綜合指標來概括信息,而且希望綜合指標互相獨立地各代表某一方面的性質(zhì)。任何一個度量指標的好壞除了可靠、真實之外,還必須能充分反映個體間的變異。如果有一項指標,不同個體的取值都大同小異,那么該指標不能用來區(qū)分不同的個體。由這一點來看,一項指標在個體間的變異越大越好。因此我們把“變異大”作為“好”的標準來尋求綜合指標。主成分的一般定義,樣本標準差記為S1,設(shè)有隨機變量X1,X2,…,Xp,其樣本均數(shù)記為,S2,…,Sp。首先作標準化變換我們有如下的定義:,樣本標準差記為S1,若C1=a11x1+a12x2+…+a1pxp,,且使Var(C1)最大,則稱C1為第一主成分;若C2=a21x1+a22x2+???+a2pxp,,(a21,a22,…,a2p)垂直于(a11,a12,…,a1p),且使Var(C2)最大,則稱C2為第二主成分;類似地,可有第三、四、五…主成分,至多有p個。主成分的性質(zhì)主成分C1,C2,…,Cp具有如下幾個性質(zhì):主成分間互不相關(guān),即對任意i和j,Ci和Cj的相關(guān)系數(shù)Corr(Ci,Cj)=0i1j組合系數(shù)(ai1,ai2

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論